e-works数字化企业网  »  文章频道  »  制造业与信息化  »  行业典型案例

格力空调工业大数据应用实践

—— 访格力电器大数据中心主任谭泽汉

2018/1/11    来源:e-works    作者:e-works  熊东旭      
关键字:工业大数据应用  格力电器  
2017年以来,为提升品质实现差异化产品竞争,格力电器新推出的融入了工业大数据分析功能的多联机商用智能空调,受到了行业的广泛关注。

    如图3所示,采集到的数据在被上传到后端的大数据平台后,会进行及时的处理与分析,并通过客户端、移动应用端进行展现。格力大数据平台主要包括九个部分:
 
 格力大数据分析平台
图 4 格力大数据分析平台
 
    (1) kafka——大数据平台的数据入口,作为采集数据的缓冲。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop这样的日志数据和离线分析系统,但又要求实时处理的限制,Kafka是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群机来提供实时的消费。
 
    (2) Hadoop HDFS+MapReduce。Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统,HDFS是一个高度容错性的系统,适合部署在廉价的机器上,提供高吞吐量的数据访问,非常适合大规模数据集上的应用。MapReduce则是面向大数据并行处理的计算模型、框架和平台,它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群,并提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划分计算数据和计算任务,在集群节点上自动分配和执行任务以及收集计算结果,将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理,大大减少了软件开发人员的负担。
 
    (3) Spark——内存计算引擎。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者不同之处在于Spark不需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
 
    (4) IMPALA——内存数据库实时查询。Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Impala的最大的优势就是查询速度快。
 
    (5) Flume——数据采集通道。Flume可以将应用产生的数据存储到任何集中存储器中,当收集数据的速度超过将写入数据的时候,也就是当收集信息遇到峰值时,这时候收集的信息非常大,甚至超过了系统的写入数据能力,这时候Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供平稳的数据。
 
    (6) Hive——数据仓储。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,也可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
 
    (7) HBASE——列式存储数据库。Hadoop Database是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力。
 
    (8) YARN ——集群资源分配管理。YARN是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
 
    (9) Hue——集成化查询工具。Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。
 
格力大数据平台架构
    图 5 格力大数据平台架构
 
    如图5所示。被采集的数据源通过Kafka集群汇总导入后,这时候数据流有两个方向。一个方向是通过Flume数据采集通道存储到HDFS分布式文件系统上,进入到列式存储数据库HBASE,由HDFS为HBase提供了高可靠性的底层存储支持。然后通过YARN实现对数据及存储资源的统一调度和分配,以供上层应用调用。另一个方向是直接送到内存,利用内存计算引擎Spark进行数据挖掘与机器学习等应用,同时提供交互式查询和优化迭代工作。通过两个方向的数据处理之后,由Hue通过浏览器端的Web控制台与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等,并实现最终的结果展现。
 
    后记
 
    在采访过程中,谭泽汉反复强调的一句话是“数据创造价值”。格力电器在工业大数据领域的应用实践充分证明,未来的制造企业的转型需要重视对生产、销售、安装、调试、维护、运行等一系列数据的积累,只有对生产过程和使用过程的数据采集和分析,才能使产品在每一环节都受控,实现对产品的全方位监控管理。通过搭建工业大数据平台,格力电器实现了空调安装过程的全程跟踪、使用过程的实施监控和售后服务的精准维护,即大幅度的节省了安装调试成本,也提升了客户对产品的满意度,与此同时,也为格力电器进一步打破产品的同质化竞争找到了新的突破口。
 
责任编辑:李欢
本文为e-works原创投稿文章,未经e-works书面许可,任何人不得复制、转载、摘编等任何方式进行使用。如已是e-works授权合作伙伴,应在授权范围内使用。e-works内容合作伙伴申请热线:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐