基于数据分析的关键词分析系统 javaweb
i. 所用技术
1) Java后台开发
2) 前端UI框架的应用
3) servlet、c3p0连接池、MySQL数据库的应用
4) TextRank4Keyword 自然语言处理关键词提取
5) ThreadPool 线程池
6) jsonp 爬虫
7) Mail IMAP协议
8)pdfbox PDF2String
9)poi 生成excel
ii. 实现功能
1) Java爬虫拉取雪球网40万+条公司年报PDF文件数据
2) PDF文件转文本并分析所属公司
3) 指定关键词的类型指标分类统计
4) 统计结果的报表生成
5)向用户发送报表邮件
在分析前首先要做的工作就是添加需要分析统计的公司:
公司列表说明:
注:3165个关心的公司已初始化到数据库
注:邮箱信息是在分析结束后,服务会将分析报表以邮件的形式发送到目标邮件地址。以上2、3、4为服务器邮箱配置,5为目标邮箱。
因为文件数量庞大,响应时间可能会很长,可在数据查看。
222G+的pdf文档,3165个公司, 40万+条数据,爬了我两天两夜~ ~