基于属性熵和加权余弦相似度的离群算法An Outlier Mining Algorithm Based on Attribute Entropy and Weighted Cosine Similarity
刘爱琴,荀亚玲
摘要(Abstract):
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。
关键词(KeyWords): 属性熵;余弦相似度;离群数据;天体光谱
基金项目(Foundation): 太原科技大学青年基金项目(20093015)
作者(Author): 刘爱琴,荀亚玲
参考文献(References):
- [1]薛安荣,鞠时光,何伟华,等.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1-9.
- [2]ARINDAM B,VIPIN K.Anomaly detection:a survey[J].ACM Computing Surveys(CSUR),2009,41(3):1-58.
- [3]HE Z Y,XU X F,DENG S H.A fast greedy algorithm for outlier mining[C]∥Proceedings of PAKDD'2006(LNAD918).Singapore:NTU,2006:567-576.
- [4]张贺,蔡江辉,张继福.信息熵度量的离群数据挖掘算法[J].智能系统学报,2010,5(2):150-157.
- [5]于绍越,商琳.基于信息熵的相对离群点的检测方法:ENBROD[J].南京大学学报,2008,44(2):212-218.
- [6]ANNA K.A fast outlier detection strategy for distributed high-dimensional data sets with mixed attributes[J].Data Mining and Knowledge Discovery,2010(20):259-289.
- [7]AGARWAL C,YU P S.An effective and efficient algorithm for high-dimensional outlier detection[J].The International Journal on Very Large Data Bases,2005,14(2):211-221.
- [8]ZHANG J F,JIANG Y Y,CHANG KAI H,et al.A concept lattice based outlier mining method in low dimensional subspaces[J].Pattern Recognition Letters,2009,30(15):1434-1439.
- [9]王磊,张继福.基于属性相关分析的离群数据并行挖掘算法[J].太原科技大学学报,2011,32(5):364-368.
- [10]石岩,刘爱琴,张继福.一种基于基尼指标的高维数据离群挖掘算法[J].太原科技大学学报,2013,34(3):161-165.
- [11]倪巍伟,陈耿,陆介平,等.基于局部信息熵的加权子空间离群点检测算法[J].计算机研究与发展,2008,45(7):1189-1192.