成都品茶不限次_同城空降快餐联系_QQ快餐200QQ群_微信二维码叫小妹150

数据资源: 中文期刊论文

分布式环境下的文本聚类研究与实现

?

编号 zgly0000984015

文献类型 期刊论文

文献题名 分布式环境下的文本聚类研究与实现

作者 赵华茗 

作者单位 中国科学院文献情报中心 

母体文献 现代图书情报技术 

年卷期 2015(1)

页码 82-88

年份 2015 

关键词 分布式环境  聚类  文本聚类  Hadoop  Mahout 

文摘内容 【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台?!痉椒ā恳院A课谋镜拇适樟残晕?通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类?!窘峁糠植际交肪诚碌幕诖示劾嗟奈谋揪劾喾掷嗉扑惴椒?可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想?!揪窒蕖坎馐允莨婺S邢?仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。

相关图谱

扫描二维码