基于属性-值对的信息增益优化算法The Information Gain Algorithm Based on Attribute-value Pairs
孙超利,张继福
摘要(Abstract):
偏向于取值较多的属性是ID3算法的一个缺陷,目前已提出的决策树的优化算法对ID3算法的改进,部分解决了该缺陷,但仅适用于两值属性的样例集,对于多值属性效果并不明显。针对该优化算法的不足,通过将属性和属性值对应成一个属性,提出了属性-值对的信息增益优化算法GBT。通过理论和实验分析,表明该算法不仅克服了ID3算法偏向于取值多属性的缺陷,同时解决了优化算法对多值属性效果不明显的不足。
关键词(KeyWords): 数据挖掘;决策树;信息增益;信息熵;属性-值对
基金项目(Foundation):
作者(Author): 孙超利,张继福
参考文献(References):
- [1]Qu in lan,J.R.Learn ing E ffic ient C lassification Procedures and The irApp lication to Chess End Gam es[J].In R.S.M ichalsk i,J.G.Carbonell and T.M.M itchell(Eds.),M ach ine Learn ing:An Artific ial Intelligence Approach,Springer,Palo A lto,CA:Tioga,1983,I,463-482.
- [2]Qu in lan J.R..Induction of dec ision trees[J].M ach ine Learn ing,1986,1,(1):81-106.
- [3]Tu Pe i-le i,Chung Jen-yao.A new dec ision-tree c lassification algorithm form ach ine learn ing.In proceed ings of the 1992IEEE International Conference on Tools for Artific ial Intelligence[J].Arlington,VA,1992,370-377.
- [4]刘小虎,李生.决策树的优化算法[J].软件学报,1998,9(10):797-800.
- [5]史忠植.知识发现[M].北京:清华大学出版社,2002.24-36.
- [6]张维东,张凯,董青,孙维华.利用决策树进行数据挖掘中的信息熵计算[J].计算机工程,2001,27(3):71-89.
- [7]Qu in lan J.R..C4.5:Program s forM ach ine learn ing,Morgan Kaufm ann pub lishers Inc.,San M ateo,CA,1993,1-302.