人们经常问我关于“大数据”的问题,在大多数情况下,我们似乎是在不同的抽象和理解水平上交谈。像实时和高级分析这样的词频繁出现,我们总是立刻开始谈论产品,这通常不是一个好主意。
想要将类似本文的技术文章发送到您的收件箱吗?请订阅系统社区的时事通讯—它只包含面向系统管理员和开发人员的技术内容。
因此,让我们从用例的角度回顾一下大数据的意义,然后我们可以用可用的高级基础架构图来映射用例。这些都做了之后,(我希望)你开始看到一个模式,明白实时、分析等词的适用场合。
业务方面的用例
我不打算从零开始发明任何东西,但我观察过描述Smartmall的keynote speech的用例(你可以在这个视频中看到一个smart mall的漂亮动画和解释)。
大数据实施,图1
图一。智能商城
Smartmall背后的理念通常被称为多渠道客户互动,即“我如何通过其智能手机与我的实体店中的客户互动”?比起让客户拿出智能手机上网浏览价格,我们更喜欢主动宣传他们的行为。
Smartmall的目标非常简单:
提高商场店铺的客流量。
增加每次访问和每次交易的收入。
减少只看不买的比例。
你需要什么?
在技术方面,您可能需要:
用于提供个人相关位置信息的智能设备
用于实时交互和分析的数据收集点和决策点
用于批量分析的存储和处理工具
就数据集而言,您可能至少需要:
与个人和个人识别设备(电话、会员卡等)相关的客户个人信息。)
非常精细的客户细分,与详细的购买行为相关,并与优惠券使用、首选产品和其他产品推荐相关。
高级组件
一张图胜过千言万语。图2显示了实时决策基础设施和批量数据处理和模型生成(分析)基础设施。
大数据实施,图2
图二。示例基础设施
第一步,理论上最重要的一步,最重要的数据块,与客户识别相关。在这个例子中,第一步是拥有智能手机的用户走进商场的实际情况。通过识别这种情况,我们在步骤2a和2b中触发对用户个人信息数据库的查询。
我们稍后会详细讨论这一点。一般来说,这是一个利用索引结构快速有效地执行查询的数据库。一旦找到实际客户,该客户的个人信息将被提供给我们的实时专家系统(步骤3)。
该专家系统(定制软件或COTS软件)中的模型评估所提供的数据和个人信息,并决定要采取的行动(如发送优惠券)。所有这些事情都是实时发生的。记住,网站可以在短短几毫秒内完成这项工作,而我们的智慧商城可以在1秒左右完成这项工作。
为了建立一个准确的模型(很多典型的大数据流行语都是从这里来的),我们在图中添加了一个大规模的处理场,用于批量处理。图3的下半部分展示了如何使用一组组件(包括Apache Hadoop和Apache Hadoop分布式文件系统(HDFS ))来创建一个购买行为模型。传统上,我们使用数据库(或数据仓库)来实现这一目的。我们仍然这样做,但现在我们在数据库/数据仓库之前使用一个基础设施来跟踪更多的数据,并不断重新评估所有数据。
大数据实施,图3
图3。创建购买行为模型
说说数据来源。一个重要的元素是销售点(POS)数据(在关系数据库中),您需要将这些数据与客户信息(来自网店、手机或会员卡)相关联。图2和图3中包含客户个人信息的NoSQL数据库显示了在线商店元素。确保这些多渠道的数据与网页浏览、购买、搜索和社交媒体数据相整合是非常重要的(并且进行了重复数据删除,但这不是重点)。
一旦数据关联和数据集成完成,就可以描绘出个人的行为。从本质上说,大数据使我们能够在个人层面上进行极其细微的细分——实际上是数百万客户中的每一个!
所有这些的最终目标是建立一个用于实时决策引擎的高度精确的模型。该模型的目标与上述业务目标直接相关。换句话说,如何在顾客来商场的时候给他们发优惠券,让他们去你的店消费?
详细的数据流和产品创意
现在,如何通过实际产品实现这个目标,这个生态系统中的数据是如何流动的?以下部分为您指出答案。
步骤1:收集数据
为了查找、收集数据并根据数据做出决策,您需要实现一个分布式系统。因为设备基本上一直在发送数据,所以您需要能够以很小的延迟加载数据(收集或获取数据)。这项工作是在收集点完成的,如图4所示。这也是为实时决策评估数据的位置。我们一会儿再去集合点。
大数据实施,图4
图4。收集点
来自收集点的数据流入Hadoop集群(在本例中是大数据机)。您也可以向该设备提供其他数据。例如,图4所示的社会资源来自一个数据聚合器(通常是一家公司),它选择相关的散列标记。然后使用Flume或Scribe将数据加载到Hadoop中。
步骤2:组织和移动数据
下一步是添加数据(社交来源、用户的个人信息以及使结果与分析相关所需的任何其他数据),并开始整理、解释和理解数据。
大数据实施,图5
图5。分类和解释数据
例如,将用户的个人信息添加到社交来源中,并添加位置数据,以建立对用户及其相关模式的全面了解。通常,这是使用Apache Hadoop MapReduce完成的。用户的个人信息通过Hadoop InputFormat接口从Oracle NoSQL数据库中批量加载,添加到MapReduce数据集。
为了将所有这些数据与POS数据、客户关系管理(CRM)数据和各种其他交易数据相结合,您可以使用Oracle大数据连接器高效地将简化的数据移动到Oracle数据库。然后你可以使用Oracle商业智能云服务器(Exalytics)或商业智能(BI)工具或(这是有趣的地方)数据挖掘等工具来全面了解你正在跟踪的数据。
大数据实施,图6
图6。移动精简数据
第三步:分析数据
最后一个阶段(这里称为“分析”)是创建数据挖掘模型和统计模型,用于生成适当的优惠券。这些模型确实是皇冠上的宝石,因为它们使你能够基于非常准确的模型实时做出决策。模型进入收集点和决策点来处理实时数据,如图7所示。
大数据实施,图7
图7。分析数据
在图7中,您可以看到专家引擎中使用了灰色模型。该模型描述和预测单个客户的行为,并根据这些预测确定要采取的行动。
摘要
以上是对“大数据”和实时决策的端到端观察。大数据使我们能够使用海量数据和处理资源来获得精确的模型。它还能让我们确定各种之前无法预料的事情,从而产生更精确的模型、新想法、新业务等等。
您可以使用基于Oracle技术的Oracle大数据机来实现这里显示的整个解决方案。然后找几个懂编程模型的人来创造这些皇冠上的宝石就行了。
上一篇:从互联网到“物联网”
下一篇:视频号直播什么产品卖?