页面树结构

2017-11-09 ApacheCN 开源组织,第二期邀请成员活动,一起走的更远 : http://www.apachecn.org/member/209.html


MachineLearning 优酷地址 : http://i.youku.com/apachecn

转至元数据结尾
转至元数据起始

作为Hadoop生态系统的一部分,Cloudera发布版的Apache Kafka是一个分布式日志提交服务,类似发布/订阅消息传递系统,不过吞吐量更大,内置的分区,复制和容错。日益流行的日志收集和流处理,通常(但不仅限于)与Apache Hadoop,Apache Storm, 和 Spark Streaming一起使用。

日志可以被认为是一个简单的存储抽象。因为新条目会持续添加到日志中,从左到右,日志条目的编号可用时间戳表示。从概念上讲,一个日志可以被认为是一个以时间排序文件或表。

Kafka集成了传统发布/订阅消息系统的概念(诸如producer,consumer和broker),parallelism,及企业特性来改善性能和容错。 架构图如下(一个主题是共享相似特性的消息的类别。)

kafka architecture

Kafka提供以下特性:

  • 使用O(1)的磁盘结构存储消息,即使T级别数据也能提供稳定的性能
  • 高吞吐量,及时使用普通硬件也支持数十万每秒的消息传递。
  • 支持分区,分布式消费,并保证每个分区记录的顺序。
  • 支持并行加载数据到Hadoop中。
  • 无标签