基于Spark的LDA文本主题分析的处理pipeline
这个是根据词的TD-IDF权重进行排序来生成LDA中用到的词典,生成词典的pipeline如下:对应pysrc中的文本处理逻辑顺序
最后使用Spark-ml中的LDA模型进行集群训练Spark-out-data中的文件即为最后的生成的主题簇