项目作者: zhanglbjames

项目描述 :
基于Spark的LDA文本主题分析的处理pipeline
高级语言: Java
项目地址: git://github.com/zhanglbjames/LDA-Spark-pipeline.git
创建时间: 2018-01-05T13:27:04Z
项目社区:https://github.com/zhanglbjames/LDA-Spark-pipeline

开源协议:

下载


这个是根据词的TD-IDF权重进行排序来生成LDA中用到的词典,生成词典的pipeline如下:
对应pysrc中的文本处理逻辑顺序

  1. word.py
  2. dict.py
  3. TFIDF_dict.py
  4. matrix.py

最后使用Spark-ml中的LDA模型进行集群训练
Spark-out-data中的文件即为最后的生成的主题簇