|国家预印本平台
首页|基于LDA和K均值的微博用户聚类研究

基于LDA和K均值的微博用户聚类研究

Microblog Users Clustering Based on LDA and K-Means

中文摘要英文摘要

近年来互联网飞速发展,微博已经成为信息交流和传播的一个重要的平台。本文以中国最大的社交微博网站新浪微博为研究对象,利用LDA主题模型分析用户关注的话题,然后根据用户关注的话题采用K均值对用户进行聚类。本文首先介绍本文对于用户微博数据的处理框架;接着介绍了各部分的处理方法,其中包括中文分词、去停用词和@信息、TF_IDF提关键词和LDA模型训练,最后给出了本文方法的实验结果和分析。本文提出的方法能够对用户进行较好的聚类,具有较高的准确率。

With the rapid development of Internet, the MicroBlog has become an import platform of information sharing. In this paper, we study the largest social network, analyze users' topics based on LDA topic model, then we clustering users based on K-Means methold. Firstly, we descibe the overall processing framework. Then we introduce each part respectively. including participing word, extracting key word using TF_IDF, and LDA topic model. At last, we give the result of our experiment. The experiment results show that our methold achieve a good performance on user clustering.

庄伯金、白友东

计算技术、计算机技术

用户聚类微博F_IDFLDA主题模型K均值聚类

ser ClusteringMicroBlogTF_IDFLDA Topic ModelK-Means Clustering

庄伯金,白友东.基于LDA和K均值的微博用户聚类研究[EB/OL].(2014-01-06)[2025-08-02].http://www.paper.edu.cn/releasepaper/content/201401-216.点此复制

评论