e-works数字化企业网  »  文章频道  »  管理信息化  »  BI

非结构化的数据不复存在

2017/10/28    来源:中国商业智能网    作者:佚名      
关键字:数据  非结构化  
从商业战略和运作模式的角度来看,文章分析了公司用来追求一种基于模式的战略(PBS)的一项关键字寻求、模型、适应的技术。

    语言有着多样化的、复杂的语法和词汇;然而,文本分析技术正设法解决一系列具体的众所周知的翻译问题。在一个文本分析系统可以从语言中获得意义之前,它必须能够理解语言的单词、句子和语法规则。有些问题通常存在于所有的语言当中,但是有些问题可能或多或少取决于某种语言。

    作为一种与生俱来的人类特征,语言的复杂程度令人惊奇。人类在语言的发展上已经形成一个惊人的范围,根据美国国际语言暑期学院(SIL INTERNATIONAL)介绍,将近7000种语言现存于世。即使在同一个语种内,国家和区域差异也创造出巨大的词汇和语法的不同。即使完全根据语法规则完成的书面语言,它的意义也可能很复杂,而日常生活遇到的大量文本在结构上并不完美。从文本中推导出意义并不是一个孤立的行为,而且有多种方法可以同时适用。从文本的大量正文中成功地自动化提取出意义是可行的,并且正成为更有价值的业务工具。

    文本分析中高度专业化的术语很容易令人生畏,并且容易被供应商的市场材料所惑,这些市场材料经常混合了技术流程术语和功能性说明,并将它们与供应商所推销的特殊应用系统的焦点和价值取向合并。然而,在每一个文本分析系统的底层有一个基本途径方法来获取文本、处理与分析文本并创建输出显示和额外的分析。

    美国人所消费的单词数量从1980年的4500万亿已经大幅跃升到2008年的10,845万亿。这意味着,美国人均已从每天使用54000个单词作为信息消费到超过每天10万个单词。2009年:美国消费者报告称,这些单词中超过55%来自电视、广播、电影。但正如加州大学圣地亚哥分校(UCSD) 的全球信息产业中心的ROGER E.BOHN和JAMES E.SHORT指出,40.8%的单词来自更加传统的文本成生模式:印刷、电脑和电话。剩下的单词是由计算机游戏和录制的音乐生成的。

    BOHN和SHORT还观察到,随着时间的推移,信息消费已更具交互性。在商业和个人广泛使用IT之前,唯一真正的互动技术模式是电话。而当前基于单词的信息消费上电话只占5%多一点。现在由计算机生成的词语消费达27%,有丰富意义的文本和内容正沿着它的路径同时通过多种渠道进入到几乎每一个业务流程。

    从商业战略和运作模式的角度来看,文本分析是公司用来追求一种基于模式的战略(PBS)的一项关键字寻求、模型、适应的技术。

    由文本分析涉及到的业务问题包括在已知话题或状态中找出更新的信息,或找出在大量高速文本流的背景噪声下出现的新的和意想不到的模式(例如,调查分析,呼叫中心的记录,电子邮件和社交媒体分析)。

    判断是否发现的信息是对现有知识的更新或意外,企业需要有一个维持运行的流程,能在一种稳健的模型环境里掺入这种新知识,来决定它对商业的重要性和影响。此外,企业需要有恰当的管理和运行控制,能够将模型输出转换成具体的操作指导。基于模式的战略(PBS)框架是一种可以探讨文本分析的商业价值的有效途径,因为文本分析是企业期望成功建立寻求、模型和适应能力的最强大的技术之一。

    有许多各种不同的业务功能将文本源作为输入、进程执行的元素或输出纳入到它们的流程中。事实上,毫不夸张地说,任何行业的几乎每一个业务流程都有某种类型的相关文本。

    鉴于文本分析尚处于技术成熟的早期阶段,渗透率相对较低,毫不奇怪它已经被首先和主要用于业务功能和流程,能产出明显而又令人信服的商业价值。随着时间的推移,当文本分析的一种基础功能在企业基础设施中得以建成,文本分析就可能成为一种应用系统的特征,应用于所有的应用程序,为每一种业务流程和功能提供服务。

    值得对横向业务的功能相关问题和垂直行业的特殊相关问题进行区分,因为它使每一个企业在它自身的商业模型和其业界同行的内容基础上对投资文本分析进行评估和考虑优先次序。

    IT专业人员所面临的挑战是获得普通文本的分析能力,并通过应用于多种具体业务的应用系统可重复使用的服务交付它们。这样可以降低现有应用系统的成本,并横跨许多应用系统的场景超越初期的高价值机遇使用文本分析。

    文本分析程序(TAP)文本分析指导框架是一个置于具体工作计划之上的项目管理计划。它最初的意愿是遵循顺序,一个阶段接一个阶段地进行,但随着时间的推移,当企业反复通过采用阶段时,所有的阶段可能都被激活。根据可用的资源情况,第1阶段和第2阶段可以同时进行。

    应该由商业赞助者做出使用一种文本分析程序(TAP)方法的决定,他可以把它当作一个规划和制定决策的平台。IT专业的领导人为文本分析能提供文本分析程序(TAP)日常运作的洞察力负责。其他的本分析程序(TAP)参与者可以包括另外的IT和业务单位的员工。这种编制模式能够适应文本分析程序(TAP)成为 商业智能能力中心(BICC)或文本分析能力中心(TACC) 的一个项目的环境。

    在高层上一个文本分析系统是水平上,一个流水线程序,类似于 数据挖掘(在它的数据准备和数据挖掘阶段)和 数据仓库(在它的操作数据存储;提取、转换和加载阶段)。流水线程序是必要的,因为活动的这三个阶段有很大的不同,需要不同的技术。

    即使在同一个阶段内,基于业务的需求,所用的技术也将不同。例如,一个在社交媒体上分析客户情绪的解决方案,将需要能够从社交软件的网站(例如,QQ 和人人)上获取信息,通过一种特殊的词典了解在社交媒体内使用的流行词(行话)(如:“LOL”可以翻译成“大笑”),再进行某种情绪分析,然后在仪表盘上显示结果让市场人员可以使用。相反,使用一种文本分析组件的电子探索解决方案将需要能够阅读网络上的共享文件和电子邮件系统,使用多种语言学和统计学技术,找寻与案例相关的文件,然后使那些文件可以在一个系统内使用。

    虽然IT专业人士需要理解商业策略和它在IT方面的含义,他们也需要形成一套更实际的业务问题解决方案。文本分析应用程序框架为规划文本分析系统搭出一个框架,将解决方案分解在信息存取的模式里,描述用于系统的信息特征。帮助IT专业人士对他们的文本分析进行分类和组织应用系统之间的组合的文本分析应用框架,为以下几方面提供思路:

    评估他们可能需要哪些类型的提取能力

    考虑适当的分级或分类方案

    决定他们需要创建哪些类型的高级语义分析。

责任编辑:程玥
本文来源于互联网,e-works本着传播知识、有益学习和研究的目的进行的转载,为网友免费提供,并以尽力标明作者与出处,如有著作权人或出版方提出异议,本站将立即删除。如果您对文章转载有任何疑问请告之我们,以便我们及时纠正。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐