spark-LDA-Spark-pipeline-PROSAGA-码农传奇

项目作者： zhanglbjames

项目描述：
基于Spark的LDA文本主题分析的处理pipeline

高级语言： Java

项目主页：

项目地址: git://github.com/zhanglbjames/LDA-Spark-pipeline.git

创建时间： 2018-01-05T13:27:04Z
项目社区：https://github.com/zhanglbjames/LDA-Spark-pipeline
开源协议：
下载

这个是根据词的TD-IDF权重进行排序来生成LDA中用到的词典，生成词典的pipeline如下：
对应pysrc中的文本处理逻辑顺序

最后使用Spark-ml中的LDA模型进行集群训练
Spark-out-data中的文件即为最后的生成的主题簇