在海量数据下的实践应用
ClickHouse
同程艺龙-谢磊 2018-11月
关于我
2015
2016
2017
NOW
 Hadoop生态圈        流计算 Flink   OLAP领域
(大数据计算研发组)
https://github.com/lamber-ken
目 录
1、
2、
4、
3、
了解探索
应用实践
经验分享
社区生态
了解探索
从需求谈起
• 海量数据
• 实时导入
• 实时查询
• 多维 聚合分析
用户轨迹行为分析
经典架构
Log File
APP Server
ETL Hive
Report
Schedule
Report
架构分析
Hive存储是hdfs文件系统,查询
效率不高,不适合即席查询
中间过程经过Kafka、ETL、
调度处理,报表的实效性不
理想
数据的实效性 即席分析性能
涉及Flume、Kafka、HDFS
等等,数据冗余过多,同时需要
深厚的知识储备
涉及Hadoop组件多
数据链路处理流程长,繁琐
容错也不好
数据链路长
美好愿景
竞品分析
Apache Doris Apache Kylin Apache Druid
Druid
回到原点 !!!
其他方案
Apache Doris
...
Apache Kylin
ClickHouse
Meetup
https://clickhouse.yandex
ClickHouse
2008
MyISAM引擎
· 表格在写入数据时被锁定
· 索引占用了大量空间
· 复制性能差
OLAPServer
· 预聚合查询
· 读取大量的行
· 磁盘优化,提高CPU使用
2010
2009-2013
2011
Metrage引擎,类LSM-Tree
· 支持批量写入
· 但只支持固定模式的查询
ClickHouse
· 支持明细查询
· 支持多维度查询
· 提高查询性能
2016 开源
ClickHouse (https://github.com/yandex/ClickHouse)
列式存储
ClickHouse
社区评价
了解探索
遛一遛
Try Demo
I5-4590CPU  8GM
                        Click/数据/House/查询/分析/Apache/支持/探索/实践/海量/  
                        
                          Click/数据/House/查询/分析/Apache/支持/探索/实践/海量/  
                        
                        
                        
                        
                    -->