e-works数字化企业网  »  文章频道  »  基础信息化  »  大数据

如何避免大数据分析故障

2017/9/5    来源:机房360    作者:佚名      
关键字:大数据分析  大数据  
遵循以下六种最佳做法来对抗竞争,创造新的收入来源,才能够更好地为客户服务。
    遵循以下六种最佳做法来对抗竞争,创造新的收入来源,才能够更好地为客户服务 
  
    重大内幕:
  
    大数据分析项目能够是帮企业积极、主动的改变竞争规则,让企业、组织更具洞察力,帮助企业、组织能够对抗竞争对手,创造新的收入来源,更好地服务于客户。
  
    大数据分析项目也可能导致项目的失败,企业、组织投入大量的资金、时间(被浪费掉),更不用说不得不让那些导致这些管理上令人沮丧的管理失误的专业技术人员。
  
    如何避免大数据失败? 从最基本的业务管理角度来看,通常一些比较直接的的做法是:确保得到公司高层的管理层支持,确保所有所需的技术研发都有充足的资金保障,技术人员需要具备专业知识和,或经过良好的培训。如果你不先解决这些基本的问题,那么其他的事情看起来也就没那么重要。
  
    但是如果你已经完成了基本的工作,那么在大数据分析中成功与失败的区别就在于你如何处理大数据分析的技术问题和挑战。这是你能做的,以保持在等式的成功。
  
    1.仔细地选择你的大数据分析工具,许多技术失败都源于这样一个事实:公司购买并执行那些被证明是非常适合他们想要完成的产品。任何供应商都可以将“大数据”或“高级分析”这两个词放到他们的产品描述中,试图利用这些术语的高水平宣传。
  
    但是产品在质量和效率上有很大的不同,而且也有很大的不同。因此,即使你选择了一个技术上很强大的产品,它也可能对你真正需要的东西不太好。
  
    几乎所有的大数据分析都有一些基本的功能,比如围绕数据转换和存储架构(例如:Hadoop和Apache Spark)。但在大数据分析中也有多个细分市场,你必须为你的技术战略所涉及的利基市场提供产品。这些细分市场包括流程挖掘、预测分析、实时解决方案、人工智能和商业智能仪表板。
  
    例如:Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。
  
    Hadoop这项大数据处理技术大概已有十年历史,而且被看做是首选的大数据集合处理的解决方案。MapReduce(分布式计算系统,一种编程模型)是一路计算的优秀解决方案,不过对于需要多路计算和算法的用例来说,并非十分高效。数据处理流程中的每一步都需要一个Map阶段和一个Reduce阶段,而且如果要利用这一解决方案,需要将所有用例都转换成MapReduce模式。
  
    在下一步开始之前,上一步的作业输出数据必须要存储到分布式文件系统中。因此,复制和磁盘存储会导致这种方式速度变慢。另外Hadoop解决方案中通常会包含难以安装和管理的集群。而且为了处理不同的大数据用例,还需要集成多种不同的工具(如用于机器学习的Mahout和流数据处理的Storm)。
  
    如果想要完成比较复杂的工作,就必须将一系列的MapReduce作业串联起来然后顺序执行这些作业。每一个作业都是高时延的,而且只有在前一个作业完成之后下一个作业才能开始启动。
  
    而Spark则允许程序开发者使用有向无环图(DAG)开发复杂的多步数据管道。而且还支持跨有向无环图的内存数据共享,以便不同的作业可以共同处理同一个数据。
  
    Spark运行在现有的Hadoop分布式文件系统基础之上(HDFS)提供额外的增强功能。它支持将Spark应用部署到现存的Hadoop v1集群(with SIMR – Spark-Inside-MapReduce)或Hadoop v2 YARN集群甚至是Apache Mesos之中。
  
    我们应该将Spark看作是Hadoop MapReduce的一个替代品而不是Hadoop的替代品。其意图并非是替代Hadoop,而是为了提供一个管理不同的大数据用例和需求的全面且统一的解决方案。
  
    Spark通过在数据处理过程中成本更低的洗牌(Shuffle)方式,将MapReduce提升到一个更高的层次。利用内存数据存储和接近实时的处理能力,Spark比其他的大数据处理技术的性能要快很多倍。
  
    Spark还支持大数据查询的延迟计算,这可以帮助优化大数据处理流程中的处理步骤。Spark还提供高级的API以提升开发者的生产力,除此之外还为大数据解决方案提供一致的体系架构模型。
  
    Spark将中间结果保存在内存中而不是将其写入磁盘,当需要多次处理同一数据集时,这一点特别实用。Spark的设计初衷就是既可以在内存中又可以在磁盘上工作的执行引擎。当内存中的数据不适用时,Spark操作符就会执行外部操作。Spark可以用于处理大于集群内存容量总和的数据集。
     
    Spark会尝试在内存中存储尽可能多的数据然后将其写入磁盘。它可以将某个数据集的一部分存入内存而剩余部分存入磁盘。开发者需要根据数据和用例评估对内存的需求。Spark的性能优势得益于这种内存中的数据存储。
  
    Spark的其他特性包括:
  
    支持比Map和Reduce更多的函数。
  
    优化任意操作算子图(operator graphs)。
  
    可以帮助优化整体数据处理流程的大数据查询的延迟计算。
  
    提供简明、一致的Scala,Java和Python API。
  
    提供交互式Scala和Python Shell。目前暂不支持Java。
  
    在决定购买任何大型数据分析产品或存储平台之前,您需要弄清楚真正的业务需要和问题是什么,选择旨在有效解决这些特定问题的产品。
  
    例如,您可以选择使用人工智能分析非结构化数据的认知大数据产品,因为编译大数据集的复杂性。
  
    但是你不会使用认知工具来进行结构化和标准化的数据,为此,您可以部署许多分析产品中的一种,这些产品可以实时生成质量洞察,并具有更合理的价格。以色列Exposito说,全球电信公司——沃达丰的大数据是处于全球领先地位。
  
    Exposito说,当你选择生产环境的时候,用至少两种产品来证明你的概念是明智的。该产品还应该能够与您的相关企业平台进行交互。
  
    每个大数据分析工具都需要在后端系统中开发数据模型。这是项目中最重要的部分。因此,您需要确保系统集成商和业务主题专家在此工作中携手合作。第一次作对,慢慢来就好啦。
  
    重要的是要记住,正确的数据应该总是可用的,并转换为业务语言,这样用户就可以完全理解输出,从而可以使用它来驱动机会或过程改进。
  
    2.大数据和高级分析是极为复杂的,但是业务用户依赖于访问和理解数据的产品是不复杂的。为业务分析团队提供简单、有效的工具,用于数据发现以及分析和可视化。
  
    Sharon Graves说,事实上,找到合适的工具组合是很难的,因为它是公司的商业情报工具,是企业数据的福音传道者。它必须是简单的快速直观化,但也有足够的深度分析能力。Go Daddy(全球知名互联网域名注册商)能够找到让企业用户轻松找到合适的数据,然后自己生成可视化的产品。这就解放了分析团队,让他们执行更高级的分析。
  
    最重要的是,不要向非技术业务用户提供程序级的工具。他们会变得沮丧,可能会求助于使用他们以前的工具,而这些工具并不是真正的工作(否则,你就不会有一个大的数据分析项目)。
  
    3.将项目和数据与实际的业务结合起来需要另一个原因,即错误数据分析工作可能失败的另一个原因是,它们最终是一个解决问题的解决方案,而不是真正存在的问题。信息服务提供商Experian的全球数据实验室的首席科学家Shanji Xiong说,这就是为什么你必须把你的商业挑战和你想要解决的问题放在正确的分析问题上。
  
    关键是,在项目的早期,让具有强大分析背景的专家与数据科学家合作来定义这个问题。
  
    这是Experian自己的大数据分析计划的一个例子。在开发分析解决身份欺诈的分析解决方案时,面临的挑战可能是评估个人识别信息(PII)的组合,如姓名、地址和社会安全号码是否合法。或者,挑战可能是评估使用一组身份申请贷款的客户是否是身份的合法所有者。或者这两种挑战都可能存在。
  
    他说,第一个挑战是一个“综合身份识别”问题,它需要一个分析模型来评估消费者或PII水平所开发的综合身份识别的风险。第二个挑战是应用程序欺诈问题,需要在应用程序级别上开发评估欺诈风险的分数。Experian必须明白这些是不同的问题,尽管它们最初可能被认为是相同的问题陈述不同,然后创建正确的模型和分析来解决它们。
  
    熊先生说,当一套PII被提交给两家金融机构申请贷款时,通常的要求是将同样的分数用于合成风险,但这通常不是申请欺诈分数的必要特征。
  
    正确的算法必须适用于正确的数据,以提取商业智能并进行准确的预测。 在建模过程中收集和包含相关数据集几乎总是比微调机器学习算法更重要,因此数据工作应该被视为首要任务。
  
    4.构建一个数据湖,并且不像这个术语所暗示的那样节省带宽,大数据包含大量的数据。在过去,很少有组织能够存储如此多的数据,更不用说组织和分析它了。但是今天,高性能存储技术和大规模并行处理在云计算和基于本地的系统中都得到了广泛的应用。
  
    备注:数据湖:最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。
  
    然而,存储本身是不够的。您需要一种方法来处理不同类型的数据,这些数据可以提供给您的大数据分析。这正是Apache Hadoop的天才之所在,它允许存储和映射巨大的、完全不同的数据集。这样的存储库通常被称为数据湖。一个真正的湖泊通常由多个溪流滋养,它包含许多植物、鱼类和其他动物物种;一个数据湖通常由多个数据源提供,并且包含许多类型的数据。
  
    但数据湖不应该成为数据的垃圾场。亚利桑那州立大学的研究计算主任Jay Etchings说,你需要考虑如何收集数据,以一种有意义的方式扩展属性。数据可以是完全不同的,但是如何使用MapReduce和Apache Spark这样的工具来进行数据转换,就应该使用可靠的数据架构。
  
    创建一个数据湖,其中的摄取、索引和规范化都是大数据策略中精心计划的组件。Etchings说,如果没有一个清晰明了的蓝图,大多数数据密集型的计划注定要失败。
  
    同样,拥有足够的带宽也是至关重要的;否则,数据将不会从不同的数据源转移到数据湖和业务用户,这些数据很快就会变得有用。Etchings表示,要实现拥有大量数据资源的承诺,不仅需要快速的磁盘,每秒钟可以有数百万个i/os(IOPS),而且还需要连接节点和处理引擎,这些节点和处理引擎可以在生成数据时方便地访问数据。
  
    速度对于实时分析来说尤其重要,从社交媒体趋势到流量路由。所以,建立你的数据湖,以最快的互连速度。
  
    5.对大数据的每个方面的设计安全性——计算基础设施组件的高度异构性——大大加快了组织从数据中收集有意义的见解的能力。但也有一个缺点:管理和安全的系统要复杂得多,Etchings说。由于大量的数据和大多数大数据分析系统的任务重要性,在保护系统和数据方面没有采取足够的预防措施,在很大程度上是在自找麻烦。
  
    许多公司收集、存储、分析和分享的数据都是客户信息,其中一些是个人信息,也是可识别的。如果这些数据出现在错误的手中,结果是可以预测的:法律上的损失可能来自诉讼,可能是监管罚款,品牌和声誉受损,以及不满意的客户。
  
    您的安全措施应该包括部署基本的企业工具:数据加密,无论何时实用、身份和访问管理,以及网络安全。但是,您的安全措施也应该包括政策执行和培训,以了解适当的访问和使用数据。
  
    6.将数据管理和质量作为首要任务,确保良好的数据管理和质量应该成为所有大数据分析项目的标志——否则失败的可能性就会大得多。
  
    您需要将控件放在适当的位置,以确保数据及时、准确、及时地交付。作为“大数据”计划的一部分,Go Daddy(公司)实现了提醒,如果数据更新失败或正在运行,将通知管理人员。此外,Go Daddy还在关键指标上实现了数据质量检查,当这些指标与预期不符时,就会发出警报。
  
    确保数据质量和治理的一个重要部分是雇佣熟练的数据管理专业人员,包括数据管理部门的主管或其他管理人员来监督这些领域。考虑到这些计划的战略重要性,企业对数据管理、管理、治理和策略拥有真正的需求。
 
责任编辑:李欢
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐