e-works数字化企业网  »  文章频道  »  管理信息化  »  BI

图像数据挖掘的模型和技术

2011/1/20    来源:万方数据    作者:于新兴  李明岐  段竹      
关键字:数据挖掘  图像处理技术  关联规则挖掘  
理论上图像数据挖掘是数据挖掘的一个分支,但是由于挖掘对象的复杂性,所以图像数据挖掘不是传统的数据挖掘理论与技术在图像数据上的简单应用和延伸,而是一个具有自己独特研究内容、理论与技术框架的新的研究领域。

    在信息驱动模型中,象素层和对象层主要进行图像处理、对象识别和特征提取,而语义概念层和模式知识层主要进行图像数据挖掘和知识集成,该模型不仅只在图像的高层次进行挖掘,而且还可以扩展此模型以使挖掘能够在每个层次以及不同层次间进行。基于图像的数据挖掘核心技术涉及:图像处理技术,如去噪、对比度增强、图像分割等技术;特征提取和优化技术;分类、规则提取、预测和聚类等。

    数据挖掘的任务是从大量的、不完全的、模糊的和随机的数据中发现隐含在其中的模式、特征、规律和知识。在实际应用中,往往根据模式的实际作用细分为以下几种:分类、聚类、回归、序列、时间序列等。数据挖掘处理的数据类型非常丰富,包括文本数据、关系数据库、多媒体数据、Web页面等。数据挖掘获取的知识可用于信息管理、查询优化、决策支持、过程控制、计算机辅助诊断以及数据自身的维护,其应用领域非常广泛。

    随着数字成像技术和设备的广泛应用,每天都产生大量的图像数据,如数字照片、医学图像、卫星图像等。对这些图像进行大量自动分析以获取有用知识的需求日益增加。图像数据挖掘技术提供了有效的方法和技术。图像数据挖掘是在图像数据库中自动提取隐含的、先前未知的和潜在有用的知识,以及图像数据关系,自动抽取具有语义意义的信息,从而为图像智能化处理服务的非凡过程。它是一个集中了计算机视觉、图像处理、图像检索、数据挖掘、机器学习、数据库和人工智能等技术的多学科交叉的研究领域。

    理论上图像数据挖掘是数据挖掘的一个分支,但是由于挖掘对象的复杂性,所以图像数据挖掘不是传统的数据挖掘理论与技术在图像数据上的简单应用和延伸,而是一个具有自己独特研究内容、理论与技术框架的新的研究领域。它与传统的关系数据库上的挖掘相比存在3个主要特点:①图像数据的值具有相对的含义,而关系型数据的值具有绝对的含义。②图像内容的理解具有主观性的特点,由于用户的目的和兴趣的不同,对于同样的一幅图像内容的理解也不相同,图像中内容的含义也就不相同,也就是说对图像信息可以有多种理解,并依赖于图像表示方法和应用领域知识。③图像信息中包含图像对象的空间关系信息。原始图像不能直接用于图像数据挖掘,必须进行预处理以生成用于高层次挖掘的图像特征库。一个图像挖掘系统应该包括图像的存储、预处理、检索、挖掘和展示等功能。它主要涉及图像数据挖掘模型和图像数据挖掘技术。

1 图像数据挖掘模型

    图像数据挖掘模型主要有功能驱动模型和信息驱动模型。

    功能驱动模型通常图像数据挖掘系统以不同的功能模块来组织,也就是功能驱动模型。功能驱动的图像数据挖掘是针对具体应用的特定要求来设计挖掘系统的驱动框架。MultiMediaMiner是以DBMiner系统和C—BIRD fcontent—based image retrieval from digitallibraries)系统为基础发展起来的图像数据挖掘系统,它是典型的功能驱动模型,如图1所示。它由4个功能模块组成。

    图像采集器(excavator):从多媒体数据库中抽取图像数据。

    预处理器(pre.processor):提取图像特征,并把所计算的特征存放在特征数据库中。检索引擎(search engine):利用图像特征进行匹配询。

    知识发现模块(discovery modules):对图像集进行特征描述、分类、关联规则挖掘、聚类等挖掘。

    信息驱动模型Zhangpl提出的信息驱动模型是针对图像的原始信息,以基于内容的图像处理技术为基础的图像数据挖掘框架,主要强调不同的图像信息层次起到的作用不同。该模型首先根据图像的原始信息,以及基于原始特征的对象或区域信息,利用聚类算法和领域知识将图像分割成有意义的区域或对象,然后进行高层次的推理和挖掘,从而产生高层次的语义概念和有用的、易于理解的模式。该模型中图像信息分为4个层次p1:象素层:由原始图像信息和原始图像特征组成,如象素点、纹理、形状和色彩等。

    对象层:处理基于象素层原始特征的对象和区域信息。

    语义概念层:结合领域知识从识别出的对象和区域中生成高层次的语义概念。

    模式知识层:可结合与某一领域相关的文字和数字信息发现潜在的领域知识和模式。

    在信息驱动模型中,象素层和对象层主要进行图像处理、对象识别和特征提取,而语义概念层和模式知识层主要进行图像数据挖掘和知识集成。该模型不仅只在图像的高层次进行挖掘,而且还可以扩展此模型以使挖掘能够在每个层次以及不同层次间进行。

2 图像数据挖掘技术

    基于图像的数据挖掘核心技术涉及:图像处理技术,如去噪、对比度增强、图像分割等技术;特征提取和优化技术;分类、规则提取、预测和聚类等。

    通过数字图像处理技术,可以对影像进行任意放大、缩小、旋转、对比度调整、三维重建等处理,以利于用户对影像的进一步分析。例如:通过一定的图像处理后,可以得到具有真实感的三维医学图像,弥补影像设备在成像上的不足,便于用户从多角度、多层次对影像进行观察和分析,并使用户能有效地、直观地参与数据挖掘分析过程,能够对病变体以及感兴趣的区域进行定性直至较准确的定量分析,从而提高医疗诊断的准确性和正确性。

    基于图像的智能分类技术是从大型图像库中挖掘有用信息的重要方法,它是一种有监督的学习方法。其过程主要分为3步:建立图像表示模型,对已进行类标记的图像样本进行特征提取,并建立每一图像的属性描述;对每一类样本进行训练和学习,得到各种所需的参数;根据分类函数和模型对未标记的图像进行分类判别。常用的图像分类方法有:决策树、神经网络、Bayes方法、粗糙集方法和支持向量机等方法。图像分类的难点在于低层可视特征和高层语义分类间的映射。

    图像数据挖掘技术中的关联规则挖掘不同于传统的关联规则挖掘,它以可视特征、图像对象、对象空间关系作为特征表示图像,对应于事务数据库中的项,空间关系包括分开、相交、环绕、上、下和包含等。可以在多级分辨率下对图像进行关联规则挖掘,如先在粗分辨率下挖掘,对所发现的频繁项集再在细分辨率下挖掘规则。
 
    聚类是与分类相对应的一种无监督式学习方法。图像聚类是根据没有先验知识图像的内容本身,将给定的无类别标记的图像集分为有含义的簇。它一般包括4个步骤:图像特征提取和选择;建立适合于特定应用的图像相似性度量;图像聚类;分组生成。目前已有许多聚类算法,例如基于划分算法、基于密度算法、基于网格方法和基于模型算法等。

责任编辑:袁琴桃
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐