大数据是组织收集的结构化、半结构化和非结构化数据的组合,可以挖掘信息并用于机器学习项目、预测建模和其他高级分析应用程序。
处理和存储大数据的系统与支持大数据分析使用的工具相结合,已成为组织中数据管理架构的常见组件。大数据通常具有三个Vs的特征:
在众多环境中有大规模的数据量;
在大数据系统中存储了广泛的数据类型;
生成、收集和处理大部分数据的速度。
年,时任咨询公司(MetaGroupInc.)的分析师DougLaney首次发现了上述这些特征。Gartner在年收购MetaGroup后进一步普及了它们。最近,其他几个V被添加到大数据的不同描述中,包括真实性、价值和可变性。
尽管大数据不等同于任何特定的数据量,但大数据部署通常涉及随着时间的推移创建和收集的TB、PB甚至EB级数据。
bigdata大数据的重要性
公司在其系统中使用大数据来改进运营、提供更好的客户服务、创建个性化营销活动并采取其他最终可以增加收入和利润的行动。有效地使用它的企业比那些不使用它的企业拥有潜在的竞争优势,因为他们能够做出更快、更明智的业务决策。
例如,大数据提供了对客户的宝贵洞察,公司可以使用这些洞察来完善其营销、广告和促销活动,以提高客户参与度和转化率。可以分析历史数据和实时数据,以评估消费者或企业买家不断变化的偏好,使企业能够更加响应客户的需求。
医学研究人员还使用大数据来识别疾病迹象和风险因素,并被医生用来帮助诊断患者的疾病和医疗状况。此外,来自电子健康记录、社交媒体网站、网络和其他来源的数据组合为医疗保健组织和*府机构提供了有关传染病威胁或爆发的最新信息。
以下是企业如何使用大数据的更多示例:
在能源行业,大数据帮助石油和天然气公司识别潜在的钻井位置并监控管道运营;同样,公用事业公司使用它来跟踪电网。
金融服务公司使用大数据系统进行风险管理和市场数据的实时分析。
制造商和运输公司依靠大数据来管理他们的供应链和优化交付路线。
其他*府用途包括应急响应、预防犯罪和智慧城市计划。
图示企业通过利用用大数据获得商业利益大数据示例
大数据来自无数来源——一些例子是交易处理系统、客户数据库、文档、电子邮件、医疗记录、互联网点击流日志、移动应用程序和社交网络。它还包括机器生成的数据,例如网络和服务器日志文件以及来自制造机器、工业设备和物联网设备上的传感器的数据。
除了来自内部系统的数据外,大数据环境通常还包含有关消费者、金融市场、天气和交通状况、地理信息、科学研究等的外部数据。图像、视频和音频文件也是大数据的形式,许多大数据应用涉及不断处理和收集的流数据。
打破大数据的Vs
体积是大数据最常被引用的特征。大数据环境不必包含大量数据,但大多数数据环境都必须包含大量数据,这是因为收集和存储在其中的数据的性质。点击流、系统日志和流处理系统是通常持续产生大量数据的来源。
大数据还包含多种数据类型,包括:
结构化数据,例如交易和财务记录;
非结构化数据,例如文本、文档和多媒体文件;
半结构化数据,例如Web服务器日志和来自传感器的流数据。
各种数据类型可能需要在大数据系统中一起存储和管理。此外,大数据应用程序通常包括多个可能未预先集成的数据集。例如,一个大数据分析项目可能试图通过关联过去的销售、退货、在线评论和客户服务电话的数据来预测产品的销售。
速度是指数据生成以及必须被处理和分析的速度。在许多情况下,大数据集是实时或接近实时更新的,而不是在许多传统数据仓库中每天、每周或每月更新。随着大数据分析进一步扩展到机器学习和人工智能(AI),管理数据速度也很重要,其中分析过程会自动发现数据中的模式并使用它们来生成洞察力。
大数据的数据类型有哪些更多大数据特性
除了最初的三个Vs之外,以下是一些现在经常与大数据相关的其他一些的详细信息:
真实性是指数据集的准确性以及它们的可信度。从各种来源收集的原始数据可能会导致难以确定的数据质量问题。如果不通过数据清理流程修复它们,不良数据会导致分析错误,从而破坏业务分析计划的价值。数据管理和分析团队还需要确保他们有足够准确的数据来产生有效的结果。
一些数据科学家和顾问也为大数据的特征列表增加了价值。并非所有收集的数据都具有真正的商业价值或收益。因此,组织需要在将数据用于大数据分析项目之前确认数据与相关业务问题相关。
可变性通常也适用于大数据集,这些数据集可能具有多种含义,或者在不同的数据源中具有不同的格式——这些因素使大数据管理和分析进一步复杂化。
有些人将更多的Vs归因于大数据;已经创建了7到10个列表。
大数据的6大Vs大数据如何存储和处理
大数据通常存储在数据湖中。虽然数据仓库通常建立在关系数据库上并且仅包含结构化数据,但数据湖可以支持各种数据类型,并且通常基于Hadoop集群、云对象存储服务、NoSQL数据库或其他大数据平台。
许多大数据环境在分布式架构中结合了多个系统;例如,中央数据湖可能与其他平台集成,包括关系数据库或数据仓库。大数据系统中的数据可能会保留其原始形式,然后根据特定分析用途的需要进行过滤和组织。在其他情况下,它使用数据挖掘工具和数据准备软件进行预处理,以便为定期运行的应用程序做好准备。
大数据处理对底层计算基础设施提出了很高的要求。所需的计算能力通常由集群系统提供,这些系统使用Hadoop和Spark处理引擎等技术将处理工作负载分布在成百上千台商用服务器上。
以具有成本效益的方式获得这种处理能力是一项挑战。因此,云是大数据系统的流行位置。组织可以部署自己的基于云的系统或使用来自云提供商的托管大数据即服务产品。云用户可以在足够长的时间内扩展所需数量的服务器以完成大数据分析项目。企业只需为其使用的存储和计算时间付费,并且可以关闭云实例,直到再次需要它们。
大数据分析的工作原理
为了从大数据分析应用程序中获得有效且相关的结果,数据科学家和其他数据分析师必须详细了解可用数据并了解他们在其中寻找什么。这使得数据准备(包括数据集的分析、清理、验证和转换)成为分析过程中至关重要的第一步。
一旦收集了数据并准备好进行分析,就可以使用提供大数据分析特性和功能的工具,应用各种数据科学和高级分析学科来运行不同的应用程序。这些学科包括机器学习及其深度学习分支、预测建模、数据挖掘、统计分析、流分析、文本挖掘等。
以客户数据为例,可以使用大数据集完成的不同分析分支包括:
对比分析。这会检查客户行为指标和实时客户参与度,以便将公司的产品、服务和品牌与其竞争对手的产品、服务和品牌进行比较。
社交媒体分析。这会分析人们在社交媒体上对企业或产品的看法,这有助于识别潜在问题并确定营销活动的目标受众。
营销分析。这提供了可用于改进产品、服务和业务计划的营销活动和促销优惠的信息。
情绪分析。可以分析收集到的所有客户数据,以揭示他们对公司或品牌的看法、客户满意度、潜在问题以及如何改进客户服务。
大数据管理技术
Hadoop是年发布的开源分布式处理框架,最初是大多数大数据架构的中心。Spark和其他处理引擎的发展将MapReduce(Hadoop内置的引擎)推到了一边。结果是一个大数据技术生态系统,可用于不同的应用程序,但通常一起部署。
IT供应商提供的大数据平台和托管服务将许多这些技术结合在一个包中,主要用于云中。目前,这包括这些产品,按字母顺序列出:
AmazonEMR(以前称为ElasticMapReduce)
Cloudera数据平台
谷歌云数据处理
HPEEzmeralDataFabric(以前称为MapR数据平台)
微软AzureHDInsight
对于想要自行在内部或云端部署大数据系统的组织,除了Hadoop和Spark之外,他们可用的技术包括以下类别的工具:
存储库,例如Hadoop分布式文件系统(HDFS)和云对象存储服务,包括AmazonSimpleStorageService(S3)、GoogleCloudStorage和AzureBlobStorage;
集群管理框架,如Kubernetes、Mesos和YARN,Hadoop的内置资源管理器和作业调度器,代表YetAnotherResourceNegotiator,但通常仅以其首字母缩写词而闻名;
流处理引擎,例如Flink、Hudi、Kafka、Samza、Storm和Spark内置的SparkStreaming和StructuredStreaming模块;
NoSQL数据库,包括Cassandra、Couchbase、CouchDB、HBase、MarkLogicDataHub、MongoDB、Neo4j、Redis和各种其他技术;
数据湖和数据仓库平台,其中包括AmazonRedshift、DeltaLake、GoogleBigQuery、Kylin和Snowflake;和
SQL查询引擎,如Drill、Hive、Impala、Presto和Trino。
大数据挑战
结合处理能力问题,设计大数据架构是用户面临的共同挑战。大数据系统必须根据组织的特定需求进行定制,这是一项DIY任务,需要IT和数据管理团队将一组定制的技术和工具拼凑在一起。与专注于关系软件的数据库管理员和开发人员通常拥有的技能相比,部署和管理大数据系统还需要新技能。
使用托管云服务可以缓解这两个问题,但IT经理需要密切