基于维基百科的多种类型文献自动分类研究*
【目的】通过基于维基百科的特征扩展解决由于不同类型文献而产生的特征不匹配等问题, 以提高文本分类效果。【方法】在特征扩展之前, 对 TF-IDF 加以改进, 提出并使用一种新的特征选择方法 CDFmax-IDF 获得候选词集; 在使用维基百科进行特征扩展时, 通过分别计算直接链接关系、类别关系、间接链接关系三类词语间关系并进行融合得到词语间的语义相关度实现特征扩展; 针对扩展得到的特征, 提出一种改进的 LDA 概率主题模型 wLDA 模型进行文本建模。【结果】本文提出的方法分别在朴素贝叶斯、KNN 和 SVM 三种分类器上实现分类, 其 marco-F1 和 micro-F1 分别提升 1.6%-2.8%和 1.4%-2.7%。【局限】尚未考虑特征词本身及特征词间的相互联系, 比如特征词本身的词性、出现在单篇文档中的位置、特征词间的共现关系等因素对特征词权重的影响。【结论】通过多种对比研究证明了使用基于维基百科的特征扩展方法对特征词扩展的有效性, 提高了多种类型文献的自动分类效果。
阮 涛、李湘东、刘 康
计算技术、计算机技术
多种类型文献文本分类特征选择特征扩展维基百科
阮 涛,李湘东,刘 康.基于维基百科的多种类型文献自动分类研究*[EB/OL].(2017-12-05)[2025-08-18].https://chinaxiv.org/abs/201712.01360.点此复制
评论