打造万亿级别的数据流水线

概要

Netflix 是一个数据驱动型公司，许多产品决定是基于数据分析得到的洞察。几百个微服务系统每天产生万亿条消息和 PB 级数据，数据流水线负责从生产者到消费平台（如 Hadoop/ElasticSearch/Kafka）传输如此大规模的数据。此演讲将分享我们是如何做到的。我们首先看看 Netflix 数据流水线过去几年的演化之路，然后深入探讨新的 Keystone 数据流水线的架构和一些设计抉择，分享 Keystone 在实战中遇到的问题和得到的教训，最后浅谈对 Keystone 未来的一些想法。

个人简介

Steven Wu（吴震），Netflix 软件工程师。目前在 Real-time Data Infrastructure 组工作，负责的数据流水线是 Netflix的数据大动脉——传输数据从生产者到消费平台(如 Hadoop/ElasticSearch/Kafka)。近期完成了数据流水线从 Chukwa 到 Keystone 的演化。之前在 Cloud Platform 组工作，构建 Netflix 的微服务架构的基石。Yahoo! Messenger后台核心开发人员，参与了后台系统的彻底重写，并且支持异地多活数据中心和多台同时登录，独立设计和实现了基于内存的大规模分布式存储系统——用于管理状态的后台系统核心组件。

在线资源

总结

设计灵活的系统
拥抱失败并准备回复策略

生产者

JSON->Schema(avro/protobuf)
流量配额(Quota)

路由器

Titus：Netflix容器管理和调度平台
Apache Beam with Flink runner

控制层

完善自助式服务
Skynet: DevOps->NoOps

打造万亿级别的数据流水线

概要

个人简介

在线资源

总结

生产者

路由器

控制层

内容目录

选择主题