面向微博话题的“主题+观点”词条抽取算法研究
【目的】自动抽取微博话题信息, 从主题及观点两个维度整合揭示微博话题内容与观点。【方法】将主题 模型应用于微博话题中, 结合改进的 TF-IDF 算法, 构建主题特征词向量; 基于特征词向量中特征词之间的相关度, 自动抽取主题词汇链; 引入情感词典, 抽取主题观点, 无监督构建“主题+观点”词条。【结果】使用爬虫工具 抽取2014年6月–2015年6月期间4个特定热门微博话题事件的微博共24 598条, 抽取“主题+观点”词条, 平均 准确率达到 80.3%, 召回率为 76.7%。【局限】数据量依旧较小, 主题模型对于微博短文本的特征抽取效果仍需提高。【结论】本文算法可以准确且有效地描述话题事件内容及其相应观点。
姚兆旭、马静
信息传播、知识传播科学、科学研究计算技术、计算机技术
文本挖掘词条抽取主题模型微博话题
姚兆旭,马静.面向微博话题的“主题+观点”词条抽取算法研究[EB/OL].(2017-11-08)[2025-08-11].https://chinaxiv.org/abs/201711.02055.点此复制
评论