Web开发

首页 » 常识 » 预防 » PB级海量数据服务平台架构设计实践
TUhjnbcbe - 2020/11/28 2:30:00
架构师(JiaGouX)我们都是架构师!

基于PB级海量数据实现数据服务平台,需要从各个不同的角度去权衡,主要包括实践背景、技术选型、架构设计,我们基于这三个方面进行了架构实践,下面分别从这三个方面进行详细分析讨论:

实践背景

该数据服务平台架构设计之初,实践的背景可以从三个维度来进行说明:当前现状、业务需求、架构需求,分别如下所示:

当前现状

收集了当前已有数据、分工、团队的一些基本情况,如下所示:

数据收集和基础数据加工有专门的Team在做,我们是基于收集后并进行过初步加工的基础数据,结合不同行业针对特定数据的需求进行二次加工的。

数据二次加工,会集成基础数据之外的其它有业务属性的数据,比如引入第三方POI数据等。

原始数据每天增量大约30~40TB左右。

计算集群采用SparkonYARN部署模式,大约个节点。

所有数据各种属性、行为信息,都是围绕大约40亿的移动设备ID进行很多倍膨胀,比如每天使用

1
查看完整版本: PB级海量数据服务平台架构设计实践