网页文本分类中的特征选择研究Research of Feature Selection for Web Page Classification
庞宁,杨尔弘
摘要(Abstract):
由于超链接语言结构本身所提供的信息,网页分类问题不同于一般的文本分类。本文分析了网页内部特征,并在1000篇网页规模语料库的基础上,通过试验对比了三种特征选择方法对高维特征向量空间进行降维的效果。文章还提出了一种新方法,根据特征项所处的位置赋予不同权重的方法,实验表明这种由文本结构导出的权重计算方法能够取得很好的分类效果。
关键词(KeyWords): 网页分类;特征选择;权重计算
基金项目(Foundation):
作者(Author): 庞宁,杨尔弘
参考文献(References):
- [1]孙即祥,等.现代模式识别[M].长沙:国防科技大学出版社,2000.
- [2]俞士汶,等.计算语言学概论[M].北京:商务印书馆,2003.
- [3]YANG J,PEDERSENJ O.AComparative Study on Feature Selection in Text Categorization[A].Proceedings of ICML-97,14thInternational Conference on Machine Learning,Morgan Kaufmann Publishers,1997,412-420.
- [4]SALTONG,BUCKLEY C.Term-weighting approaches in automatic text retrieval[M].Information Processing and Management,1988.