电子商务中数据挖掘技术的选择
0 引言
随着网络技术的成熟,电子商务大潮正在全球范围内急速改变传统的商业模式。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保证。数据挖掘涉及的学科领域和方法很多,其核心技术历经了数十年的发展,其中包括统计、近邻、聚类、决策树、神经网络等。结合数据挖掘技术在电子商务中的应用,从挖掘任务和数据信息两个方面分析,指出各种数据挖掘技术适用的场合。
1 数据挖掘的概念
数据挖掘(data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。企业数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。利用功能强大的数据挖掘技术,可以使企业把数据转化为有用的信息帮助决策,从而在市场竞争中获得优势地位。
2 数据挖掘在电子商务中的应用
数据挖掘所能解决的典型商业问题包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为等。在企业市场营销中,它是通过收集、加工和处理涉及消费者消费行为的大量信息,进而推断出相应消费群体或个体
下一步的消费行为,进而对所识别出来的消费群体进行特定内容的定向营销,这样大大节省营销成本,从而为企业带来更多的利润。在金融业,管理者通过对客户偿还能力以及信用的分析,进行分类,评出等级。从而可减少放贷的麻木性,提高资金的使用效率。
3 选择数据挖掘技术的两个重要依据
数据挖掘技术很多,主要包括神经网络方法、遗传算法、决策树方法、粗糙集方法、概率论与数理统计方法、,模糊集方法、关联分析方法。由于每种数据挖掘技术都有其自身的特点和实现的步骤,因此数据挖掘技术的正确选择是一件复杂的事情,主要从挖掘任务和可获得的数据两个角度来讨论数据挖掘技术的选择。
3.1 由挖掘任务选择挖掘技术
根据挖掘任务,数据挖掘可分为概念描述、聚类分析、关联规则发现、分类发现、回归发现和序列模式发现等。在选择使用某种数据挖掘技术之前,首先要将待解决的商业问题转化成正确的数据挖掘任务,然后根据挖掘任务来选择具体哪些挖掘技术。下面具体分析每种挖掘任务采用的挖掘技术。
概念描述就是对某类对象的内涵进行描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。总之,进行概念描述挖掘时一般采用面向数据库的方法,另外还可采用机器学习方法的基于范例学习技术。
聚类分析就是将数据对象组成不同的类,使得不同类对象间的相似性尽量小,而同类对象间的相似性尽量大。聚类分析在多个领域都有应用,如模式识别、市场研究等。在商务上,聚类能帮助市场分析人员从客户基本信息库中发现不同的客户群,并能用不同的购买模式来刻画不同的客户群特征;在地理信息系统中,通过聚类发现特征空间来建立主题索引。聚类方法主要有两类:统计方法和神经网络方法。
关联规则挖掘主要考虑支持度和置信度两个阈值。设X是项集,T是数据库DB中的任意一个记录。X的支持度是指支持X的记录数与全体记录数的比。蕴涵关系X→Y在数据库DB中的置信度是指同时支持X和Y的记录数与支持X的记录数之比。支持度可理解为在DB中随机抽取一个记录,该记录同时支持X和Y的概率。置信度可理解为在支持X的记录全体中随机取一个记录,该记录支持Y的概率。关联规则主要用于事务型数据库,分析售货数据,也称货篮数据。利用关联规则可了解客户的行为,对改进零售业等商业活动的决策很有帮助。
分类发现是把数据项映射到几个预先定义好的类中去。在Web使用分类能将用户配置文件归属到特定的用户类别,建立属于各特定类别的用户概图。分类技术主要有决策树分类法、贝叶斯分类法、最近临分类法和K近临分类器等。在电子商务中分类分析可预测客户响应,如哪些客户最倾向于对直接邮件推销做出回应,又有哪些客户可能会换他的手机服务提供商,或进行商店定位,如按成功的商店、一般商店和失败商店排列得出这3类商店各自具有的属性。然后选择包含位置属性的地理数据库,分析每一预期的商店位置属性,确定预期的商店定位属哪类。只有符合成功要求的商店位置才作为候选。
回归发现是通过已知值来预测未知值。在最简单的情况下,回归采用的是线性回归的标准统计技术。但在现实世界中的问题是不能用简单的线性回归来预测的。如商品的销售量、股票价格、一产品合格率、利润的大小等,很难找到简单有效的方法来预测,因为要描述这些事件的变化所需的变量数以百计,且这些变量一般都是非线性的。为此又出现了许多新手段来解决这个问题,如逻辑回归、决策树、神经网络等。
序列模式发现的描述是:对一个交易数据库D,挖掘序列模式的任务就是在D中找出所有最大序列(在一个序列集合中,如果一个序列不包含在其它任何序列中,则称这个序列为最大序列。),这些序列满足用户指定的最小支持度,这样的一个序列叫一个序列模式。具有最小支持度的序列叫频繁序列。如果一个序列s包含在一个客户的客户序列中,则称这个客户支持序列s。在一个交易数据库中,一个序列的支持度是支持这个序列的客户数占全部交易客户数的比例。
3.2 影响数据挖掘技术选择的数据性质
可能影响技术选择的一些数据性质:3.2.1是种类字段占优势:关联分析和连接分析只适用于种类字段。神经元网络,可以将种类字段转化成数值字段,这样就给种类字段强加了一个先后次序。3.2.2是数值字段占优势:MBR和聚集检测通过距离函数来处理数值字段。决策树可以通过splitter数值来处理数值字段。对于关联分析,则必须将数值变量区间化成种类变量。3.2.3记录中的字段很多:神经元网络、关联规则挖掘和MBR技术会受其影响,而决策树受其影响的程度就比较的小。3.2.4多个依赖变量:最好选择神经元网络。3.2.5变长记录:只有关联规则和连接分析可以直接处理变长记录。3.2.6有时间顺序的数据:神经元网络,关联规则对时间顺序的数据的处理能力比较的好。决策树也能处理时间顺序,但是需要的数据准备相对较多一些。3.2.7自由文本数据:最好选择MBR技术。
4 结束语
只是简单地介绍了数据挖掘技术在电子商务中的选择问题,由于数据挖掘是面向应用的,必须将商业领域的专业知识和挖掘人员的专业技术结合,收集大量的数据、反复实践才能形成一个真正实用的系统。总之在选择一种数
据挖掘技术时我们应根据商业问题的特点来决定采用哪种数据挖掘形式比较合适。
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
- 上一篇文章:电子商务“赶集” CIO浅谈电子商务应用
- 下一篇文章:论企业电子商务经营战略
