智能教育网欢迎您!
当前位置:首页   /   学习快讯   /   教育行业
大数据分析 :利用向外扩展技术深入挖掘商业价值
栏目:教育行业 2018-10-08

阅读:1024次

作者:


大数据分析 :利用向外扩展技术深入挖掘商业价值

 
大数据分析技术的价值在企业领域已经非常明确。充分利用良好信息的能力一直是摆在IT部门面前的重要难题与挑战。现在我们已经拥有了足以解决这一难题的工具,接下来要做的就是想办法使其为自己服务了。

3.jpg

大数据:以需求为导向的审视角度

 

新型分析工具与极大丰富的处理能力为我们敞开了一道大门,如今企业已经能够借此对庞大的业务及外部数据加以审视并获取有价值结论。

从数据池当中挖掘有价值信息,从而实现知识提升的能力早已不算什么新鲜事。事实上,早在一个多世纪以前,这样的处理方式就已经成为科学与商务领域的支柱性机制——其诞生时间甚至远早于计算机、数据库以及其它主流技术成果。

Gartner公司对大数据进行了更为准确的规范性定义,大家可以将其概括为“3V”概念,即:“高容量(volume)、高速率(velocity)以及/或者多类别(variety)信息,需要通过新型处理机制才能借此对决策制定、结论发现以及处理优化起到辅助作用。”在这里,“速率”指的是数据会以极高节奏进行内容更新,而“类别”则代表大数据会显示出多种格式及结构层级。

 

3.jpg

时代的救世主:向外扩展计算

 

最终,大数据已经成为IT部门不可忽视的一类沉重负担——其数据存储规模开始成倍扩大。如果不解决这一首要难题,企业根本无法从中提取到具备指导意义的实际价值。

大约十年之前,对如此规模的庞大数量集合、特别是半结构化数据进行分析处理简直可以说是痴人说梦——即使是财力最为雄厚的企业也无从下手。能够保存、整理并分析这类数据的工具根本不存在; 换言之,即使真实存在,其高昂的购买、部署与维护成本也会令企业望而却步。

不过时至今日,方方面面的发展改进已经让从半结构化数据中获取有价值信息成为可能。以Hadoop为代表的新型解决方案在构建层面就充分考虑到了要如何适应跨商用服务器集群的分布式运行环境。包括MongoDB、Cassandra、Couchbase、Neo4j在内的多种开源NoSQL数据库带来了类似于规模经济的扩展机制:要添加更多计算与存储容量,用户只需在整套架构当中纳入新的商用服务器即可——该架构能够在面临个别节点故障的情况下保证数据不致丢失。

3.jpg

商业案例:老数据中蕴藏新机遇

 

大数据给企业业务带来的助益可以说显而易见。一方面,企业能够从数据中获取到原本只能经由应用程序服务器或者(时间更久远的)备份磁带乃至文件柜提供的重要信息。最直观的例子就是网站点击流数据、系统事件日志以及其它一些重要记录。这些数据随后即可被全新的垂直应用程序体系所使用。

配合适当的数据可视化工具之后,大数据就能够帮助各个领域的专业人士与有价值信息建立起更为直观的联系,并从中获取到分析师们有可能忽略的重要模式。

不夸张地说,大数据所蕴藏的力量将只受到我们想象力的约束。开始应用这项新技术

举例来说,苹果的iBeacon会对客户的活动轨迹进行追踪,而且追踪对象并非哪些客户进入了直营店、而是这些客户在经过店内各检测位置时正在做什么。其中包括他们在哪些产品或者演示内容前驻足,具体驻足时间有多长等等。将这些数据整理起来,再结合他们最终所购买的产品,苹果就能发现如何更加有效地对直营店组织以及产品的标注与销售作出改革。

数据分析机制的应用已经相当高效且演变速度极快,这甚至让FTC(即美国联邦贸易委员会)被迫向部分企业发出警告、称大数据分析技术有可能给某些实施目标带来公平性违反或导致特定群体受到损害。他们还特别强调了原本一直被认为是安全无害的某些常见数据,例如电费单、点击流数据、信用卡交易信息甚至是收费站记录——这些如今都能够在大数据分析的处理下得出新型结论,且极有可能令隐私受到侵犯。

 

3.jpg

平台数量增长

 

Hadoop可以说是目前处理大规模结构化与非结构数据的首选平台。该技术方案采用分布式处理框架与开发环境,通常来讲只有借助特定的应用程序开发技能才能对其加以高效利用。

数据处理流程与大数据分析即服务的崛起同样起到了巨大而深远的颠覆性作用。Amazon目前将其Kineses平台作为数据处理流程方案,而谷歌则将数据处理流程引入了其BigQuery——也就是该公司打造的基于云的大数据产品。利用这种数据处理流技术,开发人员能够每秒发送高达10万行实时数据,并以近实时方式对这些数据加以分析。这种能力对于那些要求使用实时信息的商务智能应用程序来说显然至关重要。

现在最大的问题在于,专用型大数据分析工具到底能否在已经具备商务分析基础设施的企业当中确切起效。很多企业已经制定了数据仓储策略,而新型大数据解决方案则公然对其业已部署的传统机制发起挑衅。与此同时,向新型数据分析基础设施转移意味着我们将面临大量设计与实施方面的挑战,其中包括数据整合、数据安保、数据治理、数据可视化以及解决数据复杂性等等。

 

3.jpg

商务智能不断膨胀

 

传统商务智能的设计思路在于对结构化数据加以分析,从而提取出具备实用性的结论性信息。然而由于相关数据集往往太过陈旧或者规模有限,因此分析得出的结论也经常存在局限性。此外,结构化数据仅仅是企业掌握的业务数据中的一小部分。不少分析人士估计,结构化数据在企业整体数据总量中的占比恐怕只有5%左右。

大数据技术的兴起让商务智能迎来了一系列关键性发展趋势,相关方案包括以下几种能力:

·同时利用结构化与非结构化数据,并将数据汇聚成单一的信息逻辑集、进而加以可视化处理。

·在分析时引导结构变化,因此能够通过对结构化或者非结构化物理数据的底层结构进行去耦来实现灵活性。

·利用现有或者近实时数据,允许关键性应用程序、业务流程以及相关人员查看到每分钟进行更新的当前数据。

·在云环境下访问来自外部的数据源,因此能够让商务智能分析工具获取到企业之外的数据、进而实现数据分析流程的强化或者改进。

·甚至政府机构也着手提供按需数据,正如世界各地不断涌现的数据供应商根据需求为企业用户提供关键性商务智能服务支持一样。

·将数据分析与业务流程及应用程序加以绑定,从而允许三者以无需人为干预的自动化方式实现问题处理。

大数据分析能够通过将规模庞大且在复杂程度、格式以及时间线方面有所不同的数据整合成单一的结构化输出结果,从而实现更出色的分析效果。大数据分析机制可以把文本、语音、流数据以及非结构化数据分析结合成统一结构,进而帮助企业通过动态分析模式从相关信息中获取到不同角度的审视结论。这些模式能够获取一切适用于分析机制的数据形式,其中包括多维、单维、面向对象以及实时流程等等。

3.jpg

更多数据源,更多可能性

 

大数据分析所面临的关键性挑战在于,规模日益庞大的数据源本身可能并不具备固有结构。我们将这些数据源汇聚至一套较为模糊且专为数据查询所打造的结构周边,而后将整体结构交付至数据分析API、服务或者商务智能工具,由后者负责处理数据可视化或者其它类型的交互式分析任务(详见图1)。

·能够提供趋势性数据的社交媒体API或者服务。

·以公共数据服务为代表的外部数据源。

·传统非结构化数据,例如基于文本的早期数据库。

那么这一切到底是如何运作的?首先,非结构化与结构化数据会被收集到一套文件系统当中。在这里,我们考虑使用一套Hadoop分布式文件系统(简称HDFS)。

从理论层面讲,HDFS的功能与其它大数据数据库技术方案并没有什么区别,不过我们可以在数据库内部利用多种不同机制对数据加以处理。或者,大家可能会发现自己的大数据架构内部使用多种数据库技术。总而言之,我们的具体需求决定了这一结构的实际状况。

4.png

 

当利用Hadoop进行大数据分析时,包括结构化与非结构化两类数据,这套分析引擎能够在数秒之内即向商务智能工具返回处理结果。大家可以利用商务智能工具来分析可视化数据、在企业应用程序内部使用嵌入式分析机制或者利用数据分析API或服务分析业务流程。

在Hadoop当中,数据以块的形式被保存在Hadoop集群当中的不同节点内部(见图1)。这套文件系统会为这些数据块创建多套副本,并通过可靠的方式将其发布至整个集群、旨在实现理想的检索速度。数据块的大小可谓多种多样,但一般来说HDFS的典型数据块大小为128MB,且会被复制到集群内的多个节点之上。

我们人类用户只处理文件,这就意味着在其进入文件系统之前、相关内容往往并不属于严格意义上的结构化形式。接下来数据映射机制开始起效,通过对这些非结构化内容的处理为其定义出与内容相关的核心元数据。由于分析工具或者其它数据使用方可能会对元数据提出不同类型的要求,因此这些非结构化数据往往会被不断重复映射、从而调整至最理想的分析状态。

在某些情况下,我们还需要HadoopHive的协助。Hive是一套数据仓库系统,能够对保存在Hadoop集群当中的大型数据集进行数据汇总、临时性查询以及分析。Hive提供的机制允许我们根据数据进行结构规划,并利用一款名为HiveQL的类似于SQL的语言进行数据查询。其接口取决于大家的实际需求以及所使用商务智能工具的数据整合能力。

另一套选项则是ApachePig。Pig是一款面向Hadoop的高层平台,用于创建MapReduce规划。它会对来自MapReduce引擎的规划方案进行抽象化处理。与Hive类似,Pig同样利用自己的独特语言与数据进行交互。

总体而言,当我们通过一款商务智能工具执行查询时,整个过程将分为以下步骤:

商务智能工具将与集群相对接,从而获取到对应的文件元数据信息。通常情况下,商务智能工具会直接处理已经存在于分析用例或者模型当中的数据结构(详见图2)。大家应该将这种结构视为底层结构化或者非结构化数据的一种抽象性表现形式。

从这里开始,该系统将从数据存储节点中获取到真正的数据块并将其带回至自身结构当中。实际运作当中,相关物理以及逻辑节点的具体数量是随机的,这取决于该系统的实际要求以及架构设计方式。

MapReduce并行规模模式会从Hadoop集群当中收集数据。这套系统负责处理细节操作信息、管理跨多种可用服务器资源的流程载入机制。

请求所指向的结果集会被返回至商务智能工具处,用于后续可视化处理或者其它处理方式,这通常与特定数据结构相关。

商务智能工具能够将数据分层交付至定义模型,其中包括直接从结果集中将数据加载至维度模型以实现复杂分析处理、或者将其交付至图形表现流程。

在重复上述流程时,这部分数据将迎来增量式更新。

5.jpg

 

商务智能工具所使用的结构可以专门针对数据分析目的所创建。相关信息存在于文件系统集群当中,而元数据则根据用例所需要的支持方式被映射至对应内容。这就为用户带来了一类更具动态以及灵活特性的商务智能解决方案。

这是一类非常常见的场景,而大家所选择的商务智能工具当中可能包含多种不同类型的具体方案。很多商务智能工具使用的映射机制能够使数据拥有如存储在传统关系型数据库中的效果。此类工具还能发挥大数据技术的大量原生性功能优势,其中包括在对象利用等分析模型中以不同方式对结构化与非结构化数据加以处理的能力。

某些商务智能工具能够将经过总结或者汇聚的数据载入至一套临时性多维“立方(cube)”结构当中(详见图3)。这就允许分析人员以最具实用性的方式对来自大数据系统的信息进行可视化处理。

这种模式的差异之处在于,现在结构化与非结构化两类数据都能进行可视化处理。此外,新型与经过扩展的分析机制也能够借助这类可用性数据的交付而成为现实,例如

·报告或者描述性分析

·建模或者预测性分析

·集群化

·关联性分组

 

6.jpg

 

商务智能工具利用大量分析模型与结构对大数据加以分析。在这种情况下,数据将被载入至一套多维临时性模型当中,并在这里以多种方式进行可视化处理。

在大数据分析领域,最重要的一点在于新型思维方式正在不断兴起。如今数据已经可以由任何有意对其加以审视的人进行探索。我们的视野已经不再局限于有限的自有业务数据范畴,惟一束缚我们实现数据整理及编辑的因素就只有想象力这一项。除此之外,我们的分析模式,例如预测性模式,在数据完整性的不断提升之下足以提供更为理想的处理结果。

3.jpg

大数据可视化与分析用例

 

对于大数据的高度关注可以说贯穿于整个垂直业界当中,但专业知识与投资额度却呈现出广泛而且差异化显著的分散态势(详见图四)。教育、医疗以及交通行业在2017年成为最为积极的大数据技术受众。

到如今的2018年,我们的关注重点开始转向将数据交付给在业务流程中扮演操作角色的工作人员,或者利用数据在分析机制与应用程序或业务流程之间建立起直接关联。这意味着在正确的时间将正确的数据交给正确的使用者。对于大数据分析系统的构建者——通常采用我们之前所提到的各类技术方案——这意味着大家需要从原本企业领导者所关注的商务智能角度转向实际操作人员更为关注的功能性层面。

7.jpg

 

您所在的企业是否已经在相关技术方案领域进行投资,旨在通过特殊设计解决大数据层面的实际挑战?

根据Gartner公司的调查,几乎所有垂直行业都开始在大数据分析领域进行投资,其中教育、交通与医疗行业投入态度最为积极。

在多数情况下,这意味着支持实时或者近实时数据分析机制。最直观的例子就是仓储经理需要通过一份包含未来几个月库存预估情况的预测性报告来部署执勤人员,或者是医师根据病患整体追踪数据来判断当前患者是否会对某种药物产生不良反应。我们甚至有能力利用来自工业机器人的汇总数据来评估未来四千个小时内整套系统是否会出现运作故障。

大家不妨考虑以下几种用例::业务流程改进

大数据分析能够帮助企业以更为具体且准确的方式对自身业务状况进行审视,其中自然包括业务流程的生产效率。分析机制能够在数据可视化方案中以高亮效果标注出业务流程当中未达到既定标准的部分。

举例来说,在数据可视化技术的辅助下,企业用户可以从细节角度观察销售流程记录以及出货步骤,并了解其与其它业务流程及客户满意度之间的关系。对整个业务流程加以优化能够大大降低意外状况,从而保证业务合作关系的稳定发展。例:关键性业务应用程序强化

在与企业运营应用程序相结合之后,嵌入式大数据分析机制能够带来可观的商业价值。举例来说,一家企业可以将出货应用与分析信息相结合,从而在数TB规模的多年出货记录PDF文件当中整理出按时交货记录。这类数据也可以由来自外部数据源的信息构成,例如客户在社交媒体或者博客中表现出的抱怨情绪。例:改进医疗方式与成效

医疗系统往往会通过多种不同格式在不同位置保存我们的信息,这就导致分析机制往往很难甚至无法将此类数据作为单一信息集群加以处理。但在大数据分析机制的帮助下,我们如今可以将所有结构化与非结构化医疗数据收集起来,并将其作为单一集群供商务智能工具加以分析。这能够帮助医疗专家以预期疗效为基准对病患历史数据及疗法进行审视,从而大大提高其设计疗法成功治愈疾病的可能性。例:改善零售企业业绩表现

零售企业需要通过对特定市场及客户的深入了解来构建起属于自身的独特竞争优势。在这方面,大数据分析同样拥有极为可观的潜在价值。由其驱动的商务智能工具可以创建出对应模型,通过收集自庞大非结构化数据的预测性数据点来评估一款产品获得成功的可能性。

这类数据当中可能包含对现有客户群体的人口统计信息,并将其与过去曾经获得成功的产品作出模式比对,进而归纳出哪些气候模式能够确切影响到产品的市场接受情况(例如在气温极低的寒冬,羽绒服往往会大受欢迎)。这种思路旨在为零售企业中的核心决策者提供经过深度剖析的数据处理结论,从而了解应该对哪些产品进行大力宣传、优惠销售或者对其展示位置进行调整。用例:改进交通系统

交通系统的核心诉求在于效率提升。举例来说,航空公司在设定航线时需要选择最平顺而且最有利可图的路线。在大数据分析机制的帮助下,决策者们可以利用包含有关键性预测指标、能够真实反映收集自外部数据源的数据集的历史信息评估哪些路线最具商业开拓价值。

大数据分析允许航空公司从政府机关手中收集到多年以来积累下来的飞行数据,其中包括起飞位置、乘客数量以及按时抵达记录等等。他们随后可以将来自其它航空公司的价格信息与这部分数据进行比对。在预测性数据中,他们还可以添加过去几年中潜在乘客对目的地的网络搜索次数,再加上这些地点在社交媒体中被提及的频率。通过将这些数据模型交付给商务智能工具,航空公司即可非常明确地找出可行而且能够切实带来收益的全新航线,甚至还包括未来机票的销售情况乃至建议售价。

3.jpg

为企业规划出发展道路

 

为了尽可能发挥大数据分析机制的潜能,大家需要将自身从传统商务智能与数据仓库体系当中解放出来。遗憾的是,创造商务智能方案的技术人员往往倾向于将传统商务智能机制强行纳入全新大数据世界(这显然有些格格不入)。这样一来,他们就会错失发挥这一新型技术巨大能量的机会甚至遭遇惨痛的失败。

除此之外,大数据技术市场目前确实呈现出相当严重的碎片化与复杂化态势。作为发展的早期阶段,每家厂商都在打造纯Hadoop类型的实施方案; 但时至今日,企业用户已经意识到自身特定需求必须由针对特定目的打造的数据库来实现,其中包括内存内、NoSQL或者其它一些专注于特殊功能的数据库技术,例如性能、大规模数据存储或者与公有云供应商的对接能力等。

将公有云作为大数据技术主机的方案既带来良好的发展机遇,同时也造成了不少难题。大数据技术通常采用以云为基础的多租户机制,此外也为用户提供能够运行在内部环境下的版本。尽管公有云在可扩展性与成本效益方面具备相当程度的优势,但企业仍然需要为其安全性及合规性保障操心费力。此外,当下的大部分数据都散布于其原本生成之处,且需要由托管在公有云内部的大数据系统加以逐一收集。

也就是说,大数据分析对于企业业务的可观助力极具价值、不容忽视。大多数企业需要就当下开始着手建立自己的大数据发展战略,或者是对几年前所打造的现有大数据战略作出更新及调整。为了达成这一目标,下面我们一同来看在企业内部实施大数据分析方面的几点建议:

从技术角度出发了解核心业务的实际需求,并以此为基础创建业务用例。确保我们的注意力始终集中在战略价值层面——例如如何更好地理解历史业务记录——以及战术价值层面——例如如何在未来几年内显著降低库存成本。

对自己的数据源加以定义。它们在哪里?它们到底是什么?如何最具效率地与数据源对接并根据需要进行内容复制?这意味着确切定义数据整合问题,从而顺利将其从A点转移至B点。

定义已知用例,其中包括未来要用到的、能够切实理解数据内容的分析模型。

创建一套概念验证机制,用于深入了解技术方案本身以及将该技术引入企业环境可能带来的复杂性难题。

考虑性能表现、安全性以及数据治理方面的问题。这些问题通过会受到忽视,但在成功的实施体系中却又不可或缺。

投入时间与金钱对商务智能技术的功能与特性进行评估。商务智能与数据可视化方案的作用是为大家开启审视数据的窗口,而任何局限性都会大大影响到数据价值的挖掘与发挥。

严格定义成功指标。在使用大数据分析技术的一年之后评估哪些元素正常运行,哪些却未能顺利起效。无需引发太多破坏性影响,我们就能对技术项目作出调试。

最后,确保为这项技术创建一套发展路线图。其中应当包含目前的使用方式以及短期与长期业务规划。了解与计划实施的技术相关的重要发展趋势,其中包括可选方案、底层技术以及可能获得成功的方案供应商,最后还要加上哪些选项最适合自身企业在未来的发展需要。

大数据分析技术的价值在企业领域已经非常明确。充分利用良好信息的能力一直是摆在IT部门面前的重要难题与挑战。现在我们已经拥有了足以解决这一难题的工具,接下来要做的就是想办法使其为自己服务了。

智能教育平台拥有强大的教学实力,尤其在教研和师资方面积累深厚。课程覆盖小学、初中、高中的包括语文.数学.英语.物理.化学.生物在内的所有主要学科。师资方面,采取统一选聘、严格培训的制度,引入“授课老师+辅导老师”的双师模式,授课老师团队对课堂负责,辅导老师团队对学习效果负责。
粤ICP备17159544号   |   版权所有@肇庆市经纬信息技术有限公司   |   技术支持:佰牛科技
关于我们  |   课程中心  |   信息咨询  |   联系我们  |   网站地图