e-works数字化企业网  »  文章频道  »  管理信息化  »  BI

新的大数据的知识发现和数据挖掘

2017/10/4    来源:中国商业智能网    作者:佚名      
关键字:大数据  数据挖掘  
数据中的强大商业利益已经改变了数据挖掘的领域。

    二十年前,关心所谓的“大数据”的人只是一些科学团体的成员—只有他们有大量的数据集和有动机试图处理这些数据,计算机械协会(ACM)在知识发现和数据挖掘方面的特殊利益集团执行主席和雅虎前任的首席数据官Usama Fayyad说。即使在那时,数据挖掘的结果也是引人注目的。“我们能够解决重大科学问题,立于这个领域30多年,”Fayyad说。

    然而,互联网的爆炸性增长改变了一切。不管喜欢与否,企业发现他们自己在线运营并且积累了大量有关顾客和他们的行为的数据。Fayyad说,数据挖掘的力量变得清晰,投资在这个领域的经济动机也同样变得清晰。

    例如,Netflix,对可能挖掘出有关它的用户信息的任何团队提供了一笔100万美元的奖金,并建立了一个比它已有的一个建议系统更为精确的系统。像这样备受瞩目的例子只触及了数据挖掘应用系统的表面。

    “企业和产业越来越有兴趣利用他们通过业务流程获得的数据,”IBM的分析研究主任和大会主席Chid Apte说。他特别指出了医疗保健、社交媒体和任何发生在网站上的事情。

    目前,互联网巨头从他们收集的用户信息和他们通过对其挖掘获得的洞察力上赚钱。零售商可以访问复杂的购物者行为模式来帮助他们更有利地对商店进货。产业研究人员能基于交流拥堵、天气、一年之间的时间段来预测汽车的交通模式,并提供优质的路线。

    然而,当今的数据,不需以常见的数据库的形式而存在。“信息不是以一种清晰的表格形式出现在你面前,”Apte说。“它以一种网络的形式出现在你面前。”他解释道,数据经常以一种图形形式出现,就像在社交媒体上使用的信息。这些图形常常记录的不仅是节点之间复杂的连接关系,还有其他类型的多元化格式的信息,例如视频、图片和人们贴在社交网络上的评论。

    Apte说,社交媒体可能已开始趋于对这样图形的分析,但是网络数据也可以来自其他数据源—例如,来自诸如电网、配水系统、交通管理系统这样一些复杂的工程系统。这些系统中的分布式传感器网络产生的数据集,在其中位置之间的连接与社交网络中人与人之间的友好关系一样的重要。理解这些连接是优化系统和使他们得以持续的关键,Apte说。

    人们和图形数据打交道已有数百年,但目前来自于社交网络或传感器网络规模的图形规模空前,Apte说。“这些是庞大的图形,”他说。“你正在谈论数以万计的节点和数以千万计的链接。”

    要处理这种规模和范围的图形,并且对它们运用现代分析工具,就要求更好的算法与其他创新。Apte说,大会的目标之一就是为有意向的企业带来学术界和产业界研究实验室的顶尖技术,这样他们可以更快地应用它们。同时,会议的组织者们希望,学者们将感知到大多数极其需要被考虑到的业务挑战。

    Fayyad说数据中的强大商业利益已经改变了数据挖掘的领域。他说,科学家主要处理整齐的,结构形式存储的数据。但大多数企业产生的数据是一种混乱的非结构化的形式。

    “当科学家们正很好地避免了那些混乱无结构的数据时,企业却被迫与它们正面交锋,”Fayyad说。“这驱使企业开始开发没有人尝试过的技术。”

    当然,挑战依然存在,但是Fayyad说:“人们可以想出更多的预测模型,而且更重要的是评价他们以确定他们工作的如何……它将分析带入到一种真正超越人类大脑理解能力的水平上。”

责任编辑:程玥
本文来源于互联网,e-works本着传播知识、有益学习和研究的目的进行的转载,为网友免费提供,并以尽力标明作者与出处,如有著作权人或出版方提出异议,本站将立即删除。如果您对文章转载有任何疑问请告之我们,以便我们及时纠正。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐