一种基于语义组块特征的改进 Cosine 文本相似度计算方法*
【目的】利用文本语义组块特征提升 Cosine 文本相似度计算性能。【方法】获取 NSF 资助的关于碳纳米管研究领域的项目数据, 进行词干还原、词性标注等预处理; 利用条件随机场模型实现文本内容的语义组块标注; 在此基础上实现基于语义组块特征的改进 Cosine 文本相似度计算, 并与未标注的数据进行相似度计算比较, 分析实验结果。【结果】实验证明基于语义组块特征的改进 Cosine 相似度计算结果比原始文本 Cosine 相似度计算结果相似度均有不同程度的提升, 在实验数据中最高的相似度提升了 26%。【局限】依赖于语义组块标注性能。【结论】本文方法能有效提升文本间语义相似度, 降低向量空间模型维度, 提高计算效率, 并且具有良好的泛化能力和鲁棒性。
廖君华、冷伏海、白如江
计算技术、计算机技术
文本相似度语义组块向量空间模型本体
廖君华,冷伏海,白如江.一种基于语义组块特征的改进 Cosine 文本相似度计算方法*[EB/OL].(2017-12-05)[2025-08-10].https://chinaxiv.org/abs/201712.01401.点此复制
评论