序言
如何构建当前企业数据体系架构呢?其实与许多其他技术一样,它实际上取决于企业要实现目标。以下特征通常与数据体系架构相关:
?来自内部系统、云计算系统的数据,以及来自合作伙伴和第三方的外部数据
?不同数据源和多结构化格式的数据
?流媒体实时数据,批量加载,或两者的结合的应用
?从中度到高度的数据量,
?基于云的混合交付模式
?提供分析数据集市等传统平台和语义层,专业数据库图,空间或NoSQL
?除了数据集成,还采用了数据虚拟化技术
?分析需求范围从运营BI到企业BI,再到高级分析和数据科学
?多平台数据架构以适应不同的需求
?采用迭代交付周期的敏捷交付方法
?为不同的用户群体提供支持,无论是普通数据消费者、数据分析师还是数据科学家
?自动化和DevOps,减少时间成本,确保解决方案的一致性和质量
一业务需求推动数据架构发展和适应
今天企业的领导都认识到数据是做出明智和可支持的决策的关键。传统的数据仓库和商业智能方法因响应太慢而受到挑战。减少转化为价值的时间是现代数据体系结构的基本目标。传统上,数据仓库在简化数据访问和回答成功运营业务所需的许多问题方面表现出色。然而,不可能预测企业可能问的每一个问题和他们可能需要的每一份报告。在现代数据体系结构中,获取新数据应该相对容易,以便能够快速进行新的分析。
随着企业发现社交媒体、文档、评论、传感器和边缘设备所包含的价值,数据量呈爆炸式增长。15年前,公司从未想过要追踪社交媒体“赞”等信息。实际上捕获和分析任何类型数据的能力是一种关键的业务能力。
最后,用户需要知道数据湖中的数据是受管理的、高质量的,而不是混乱的、不可靠的沼泽。
所有围绕着数据湖和大数据的媒体炒作,很难理解像数据湖这样的技术如何甚至是否对你的分析需求有意义。有些人认为,实现数据湖意味着放弃他们的数据仓库,这种看法最终要么让他们走上了错误的道路,要么让他们把大数据和数据湖作为未来的项目搁置一边。数据湖不会取代企业现有的数据仓库。事实上,它们是互补的。有了现代的数据架构,组织可以继续利用现有的数据仓库,开始收集他们一直忽视或丢弃的数据,最终使分析师能够更快地获得见解。
二现代数据体系结构的原理
数据湖等大数据技术支持并增强了现代分析,但它们通常无法取代传统系统。
1多平台架构已经成为常态
在现代数据体系结构中,可以获取和存储任何类型的数据。有些实现者选择在数据湖中存储和集中所有数据。虽然这种“数据湖存储一切”的方法在架构上很简单,而且肯定可以提供重要的价值,但还有很多决定要做,这些决定最终会影响数据湖的使用方式。相反,多平台体系结构(如上所示)