spark-大数据工程师-郭静.pdf


立即下载 滔滔江水
2025-04-25
数据 查询 分析 用户 次数 UID URL 点击 输入 需求
176.7 KB

郭静 大数据工程师
 女  1996-01  北京-昌平  本科
 无工作经验  15871817781
 1317073139@qq.com 预备党员
大数据工程师 实习 北京-西城 - 一个月内到岗
 求职意向
 教育背景
2014.9-至今 湖北大学 软件工程
 项目经验
2017.7-2017.8 基于hive构建搜狗搜索日志分析 开发(一个人完成)
项目需求:
搜狗搜索日志分析系统
1数据预处理(Linux环境)
搜狗数据的数据格式:
访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL
其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不
同查询对应同一个用户ID。
1.2数据扩展
将时间字段拆分并拼接,添加年、月、日、小时字段,结果如图所示:
2基于Hive构建日志数据的数据仓库
2.1创外部表
1 创建扩展4个字段(年、月、日、小时)数据的外部表
2 装载数据
2.2创建带分区的表(按照年、月、天、小时分区)
2.3灌入数据
2017.7-2017.8
3实现数据分析需求一:条数统计
3.1数据总条数
3.2关键字的非空查询条数
3.3独立UID总数
4实现数据分析需求二:关键词分析
4.1统计查询关键词的平均个数
4.2查询频度排名(频度最高的前50词)
5实现数据分析需求三:UID分析
5.1 UID的查询次数分布(查询1次的UID个数,...查询N次的UID个数)
5.2 UID平均查询次数
5.3查询次数大于2次的用户总数
5.4查询次数大于2次的用户占比
5.5查询次数大于2次的数据展示
6实现数据分析需求四:用户行为分析
6.1点击次数与Rank之间的关系分析
(1)Rank在10以内的点击次数占比
6.2直接输入URL作为查询词的比例
(1)直接输入URL查询的比例
(2)直接输入URL的查询中,点击的结果就是用户输入的URL的网址 所占的比例
6.3独立用户行为分析
(1) 查询搜索过”仙剑奇侠传“的uid,并且次数大于3
(2)查找uid是653d48aa356d5111ac0e59f9fe736429和e11c6


数据/查询/分析/用户/次数/UID/URL/点击/输入/需求/ 数据/查询/分析/用户/次数/UID/URL/点击/输入/需求/
-1 条回复
登录 后才能参与评论
-->