kafka中文文档
立即下载
苞米地里的蒙面妖
2025-05-12
数据
运营
网站
活动
活动流
系统
文件
统计
日志
Kafka
596.5 KB
注:本文档来自
http://blog.csdn.net/derekjiang/article/details/9053863/
pdf 制作: elancom
版本: 1.0
Kafka 中文文档
转自: http://www.oschina.net/translate/kafka-design
参与翻译 (4 人):fbm, 飞翔的猴子 , Khiyuan, nesteaa
感谢这些同志们的辛勤工作, 翻译的真不错, 目前见到的最好的 Kafka 中文文章
-------------------------------
我们为什么要搭建该系统
Kafka 是一个消息系统, 原本开发自 LinkedIn ,用作 LinkedIn 的活动流( activity stream )
和运营数据处理管道( pipeline )的基础。现在它已为 多家不同类型的公司 作为多种类型
的数据管道( data pipeline )和消息系统使用。
活动流数据是所有站点在对其网站使用情况做报表时要用到的数据中最常规的部分。 活动数
据包括页面访问量( page view )、被查看内容方面的信息以及搜索情况等内容。这种数据
通常的处理方式是先把各种活动以日志的形式写入某种文件, 然后周期性地对这些文件进行
统计 分析。运营数据指的是服务器的性能数据( CPU、IO 使用率、请求时间、服务日志等
等数据 )。运营数据的统计方法种类繁多。
近年来,活动和运营数据处理已经成为了网站软件产品特性中一个至关重要的组成部分, 这
就需要一套稍微更加复杂的基础设施对其提供支持。
活动流和运营数据的若干用例
"动态汇总( News feed )"功能。将你朋友的各种活动信息广播给你
相关性以及排序。通过使用计数评级( count rating )、投票( votes )或者点击率
( click-through )判定一组给定的条目中那一项是最相关的 .
安全:网站需要屏蔽行为不端的网络爬虫( crawler ),对 API 的使用进行速率限制,
探测出扩散垃圾信息的企图,并支撑其它的行为探测和预防体系,以切断网站的某些不
正常活动。
运营监控:大多数网站都需要某种形式的实时且随机应变的方式,对网站运行效率进行
监控并在有问题出现
数据/运营/网站/活动/活动流/系统/文件/统计/日志/Kafka/
数据/运营/网站/活动/活动流/系统/文件/统计/日志/Kafka/
-->