e-works数字化企业网  »  文章频道  »  基础信息化  »  大数据

人工智能与数据科学在汽车工业中的应用(连载二)

2018/3/3    来源:e-works    专家:胡志强      
关键字:人工智能  数据科学  汽车工业  
数据科学和机器学习对于未来的汽车工业来说,是非常关键的技术,因为这两项技术正在被用于汽车产品、汽车工艺优化和自动学习。在汽车工业研发、采购、物流、制造、市场运营、销售和售后、客户服务等环节,甚至更广泛的领域,工程技术人员正在探索应用人工智能技术的可能性。

    著:(德)Martin Hofmann  (奥地利)Florian Neukart  (德)Thomas Bäck

    编译:胡志强(中国汽车工程学会)

    三、人工智能

    国际神经网络协会委员会对人工智能的早期定义是:人工智能是研究如何使计算机去做过去只有人才能做得更好的智能工作。虽然这一观点今天仍然适用,但目前的研究集中在如何让软件去做过去计算机才能做得更好的工作,如大数据分析软件。数据是发展人工智能软件系统的基础,数据技术不仅是收集信息,还包括自主学习、理解并解释信息、自适应行为、规划、推断、解决问题、抽象思维、理解并解释语言和思想。

    1.机器学习

    一般而言,机器学习算法被分为两类:监督学习和无监督学习,两者区别取决于算法的训练样本是否需要指定一个分类标签。

    (1)监督学习算法

    除了输入变量之外,监督学习算法还需要已知的解决问题目标值。如为了训练一个机器学习模型来识别交通标志,最好有各种不同配置,如使用照相机拍照、扫描交通标志图像等多种配置作为输入变量。在这一案例中,光照条件、观察角度、污渍等综合在一起会使数据产生噪声或失真。不管怎样,在下雨条件下识别的交通标志目标值的精确度应该与在光照充足条件下保证一样。数据通常人为设定。正确的输入变量及其正确的分类构成一组训练数据。虽然每次训练数据集中只有一个图像,但仍然需要多个输入变量,这有利于机器学习算法在测试中找到相关特性,并利用这些特性进行分类,发现内在逻辑关系。监督学习主要用于预测(回归)和分类,而相应的数据并不局限于特定的格式,机器学习算法具有的能力远远超过处理图像、音频文件、视频、数字数据和文本。分类示例包括对象识别(交通标志、车辆前面障碍物等)、人脸识别、信用风险评估、语音识别和客户流失等,现在能定义出来的只是一小部分。

    回归的例子包括在多个变量基础上确定连续数值,有时是成百上千输入变量,如无人驾驶汽车不仅要计算其理想速度、道路和环境条件,还要考虑财务指标,如当考虑国内生产总值是输入变量也随之发生改变,可使用开垦的土地、人口教育水平、工业生产等都是变量,然后再确定潜在的市场份额和推出的新车型。这些问题都是高度复杂的,不能用简单的线性关系来表示。或者,换句话说,就是目前面临的巨大挑战是:必要的专业知识甚至并不存在。

    (2)无监督学习算法

    无监督学习算法不关注单个目标变量,而是关注数据集的总体特征。无监督的机器学习算法通常用于分组数据集,即识别单个数据点之间的关系,它包含任意数的属性,把具有相同属性的单个数据组成集群。在某些情况下,无监督机器学习算法的输出可以作为监督学习算法的输入。无监督学习的例子有根据消费者的购买行为或人口统计数据分类客户群,或聚类时间序列,以便将数百万来自传感器的时间序列进行分组,而以前这些分组并不明显。

    机器学习属于人工智能领域,它能让计算机在没有明确编程的情况下进行学习。机器学习的重点是在提供新数据的同时,开发和改变自己的程序。因此,可以用流程图表示的过程不适合用机器学习,相反,所有需要动态的、不断变化的解决方案,并且不能被限制为静态规则的东西都有可能适合于用机器学习来解决。例如,在下列情况下可使用机器学习:?没有相关的人类专业知识;?人们无法表达他们的专业知识;?解决方案随着时间的推移而改变;④解决方案需要适应特定的情况。

    机器学习是数据挖掘的工具,虽然两者都是在数据中寻找模型,但机器学习和数据挖掘不是一回事。机器学习应用程序来提供自己对数据的理解,而不是提取人们能理解的现有数据。机器学习算法软件能够识别数据模型,并根据模型进行动态的调整。例如自动驾驶,或者说拥有计算机视觉软件的摄像机,在有行人出现启动制动系统的训练中,无论行人身材高低、胖瘦,穿的何种衣服,从哪个方向来,汽车都要启动制动系统;而在路边有固定垃圾桶的时候,车辆是不能启动制动系统的。

    现实世界往往比机器学习模型复杂得多,这就是为什么大多数情况下要把一个问题细分为多个子问题,然后用相应的机器学习模型来解决这些子问题,然后对这些模型进行集成,以便在结构化或非结构化的环境中实现复杂的任务,自动驾驶汽车就是典型案例。

    2.计算机视觉

    计算机视觉大多数情况用英文缩写CV表示,是一个涉及领域非常广的研究课题,它起始于生物学、神经科学和心理学,然后又扩展到了计算机科学、数学、物理学等,是一个多领域交叉的学科。理解图像的物理特性非常重要,光具有折射、散射、反射、被吸收等特性,计算机视觉利用了光的特性,二维阵列感光传感器通过测量图像中每个像素的亮度、颜色等信息,来进行尺寸、形状、颜色等判别。目前,计算机视觉关注三个焦点:?在图像、图像序列或视频的基础上重新构建场景,观察场景上的要点;?模拟生物视觉,了解哪些物理过程和生物过程起作用,湿件(指动物脑)如何工作,以及相应地解释和理解工作;?技术研究和开发的重点是高效的算法解决方案,当涉及到计算机视觉软件时,通常只研发与生物有机体的视觉感知有特定关联的解决方案。

    以上三个要素相互关联相互影响。如在自动驾驶汽车项目中,关注的焦点是障碍物识别,行人出现在车辆之前时,汽车要启动制动系统,最关键的事情是识别行人作为障碍物。在这个案例中不需要解释整个场景,例如,在汽车行驶的方向上的田野里有一家人在野餐,在障碍物识别中要计算机视觉系统理解这个场景是没有必要的。相比之下,如果周边环境也被作为输入,那么理解场景就非常重要的先决条件,比如开发家用机器人时,家庭成员躺在地板上,机器人只是会避让还远远不够,还要理解该成员可能是出现了医疗紧急情况而不是在地板上睡觉。

    生物有机体的视觉系统被认为是一个活跃的过程,传感器控制与动作的成功执行紧密相关,因此,计算机视觉系统并不是被动的,它必须:?通过传感器不断提供数据流;?依据数据流执行动作。

    但是,计算机视觉系统的目标并不是要理解图像中的场景,而是要首先从场景中提取有关信息,这意味着它必须对图像中的“感兴趣区域”做出标识,并且在非常短的时间内做出响应,因为场景很有可能随时变化,延迟过久会使操作失去预期的效果。目前,计算机视觉研究有很多不同的方法用于图像目标识别(即寻找在场景的什么位置有什么特征)。

    (1)目标检测

    目标检测器的镜头在图像上移动,通过比较子图像(窗口内容)和样本的差异确定每个位置的滤波器响应。每个新目标需要单独扫描并确定参数值。装有多种复杂算法的检测器能使用多个学习了大量图像的滤波器并可以同时基于多种尺度进行计算。

    (2)分割方法

    分割方法通过对图像中不同区域内的像素进行分类获得目标的几何描述。在此基础上,计算出图像固定的特征集,图像即使进行各种变换,例如光条件变化,缩放或旋转,特征集仍然保持相同的性质。特征集可以用于清晰地标识目标或目标类别,典型应用案例是识别交通标志。

    (3)对齐方法

    对齐方法使用参数目标模型,这一模型已经经过数据训练。算法寻找适应图像最佳特征的参数,如缩放、平移、旋转等,通过交互程序找到近似方案,即图像的特征,如轮廓、角度或其他能与图像特征相匹配的参数方案中的可选特征。

    在目标识别中,有必要决定算法是解决目标的二维图形还是三维图形,因为二维图形经常是准确率和可行性之间的折中选择。目前的研究(深度学习)表明,甚至从不同点捕获的两个二维图形上的两个点之间的距离都可以被准确地确定为一个输入。日光条件下有相当好的可见度,利用激光和雷达等设备获取数据可以提高输入精度。当然,一个摄像机也足以生成所需的数据。与三维图形相比,二维图形没有形状、深度或方向等直观的编码信息。深度可以用多种方式获得编码,如使用激光、立体相机(可模仿人类视觉)和结构光方法(例如Kinect技术)。目前,最精深的研究方向是用公式定义拥有几何形状的超二次曲面,它使用任意数量的指数来确定形状,是圆柱体、立方体、圆椎体还是棱锥体。这允许用一小组参数来描述各种不同的基本形状。如果使用立体照相机获取三维图形,则要使用统计方法(如生成立体点云)代替上述方法,因为使用立体照相机获得的数据质量比用激光扫描差很多。

    其他计算机视觉研究方向还包括跟踪技术、前后场景理解、监测研究等,不过这些方向目前对汽车工业来说不如前几项那么迫切。

    3.推理和决策

    这一研究领域被称为“知识表示与推理”,用英文缩写KRR表示,其专注于设计和开发数据结构和推理算法。在需要与物理世界(如人类)进行交互的应用案例中,问题的解决方案通常会通过推理来获得,如生成诊断、规划、处理自然语言、回答问题等。KRR为人工智能达到人类水平奠定了基础。

    KRR范畴中的推理是指在没有人为干预或帮助的情况下,找到基于数据的答案,而数据在形式系统中呈现出确切而清晰的语义。自1980以来,人们一直认为数据是简单与复杂结构的混合物。前者具有较低的计算复杂度,并形成大型数据库的研究基础;后者以一种表达能力更强的语言呈现,它需要更少的表达空间,它们对应的是泛化和细粒度信息。

    如当智能机器人试图像人一样完成任务时,决策是在两个或多个活动中解决取向问题的推理过程。在不断变化的状态下,要非常频繁地做出决策,即要在瞬息万变的时间里做出决断。非常典型的案例就是自动驾驶汽车需要对实时的交通变化做出反应。

    逻辑与组合

    数学逻辑是现实世界中许多应用的形式基础,如计算理论、法律体系和相应的论证,以及在研究和发展领域中的理论发展和证据。最初的设想是用逻辑的形式来表示每种类型的知识,并用通用的算法来进行推理,但也遇到了一些挑战,例如并非所有类型的知识都可以简单地表示出来。此外,编写复杂应用程序所需的知识可能会非常复杂,而且要以一种逻辑性的、具有高度表达性的语言来学习这种知识并不容易。再者,使用具有高度表达性的语言来进行推断也不容易。即使这两个挑战都已经克服了,这种情况也无法用计算实现。

    目前,关于这个问题的争论有三个。第一个争论是逻辑无法代表许多概念,如空间、类比、形状、不确定性等,因此它不能将人工智能发展到人类的水平。相反的观点认为,逻辑只是众多工具中一种简单的工具。目前,逻辑汇聚了表达性、灵活性和清晰性的优势,其他任何方法或系统都无法替代。第二个争论关注的焦点是:逻辑对于推理来说太慢,因此永远不会在生产系统中发挥作用。相反的观点认为,逻辑有近似推理过程的方法,因此可以在规定的时间限制内完成处理过程,并且逻辑在推理方面正在取得进展。第三个争论的焦点是:基于逻辑原理开发出在现实世界中应用的系统是极其困难的,甚至是不可能的。反对观点主要来自于当前从自然语言文本中学习逻辑原理方法的个人研究。

    逻辑原则上有四种不同类型:?命题逻辑;?一阶谓词逻辑;?模态逻辑;④非单调逻辑。

    自动决策也是基于逻辑的研究方向。自动决策与运用逻辑和自动化的专家决策过程紧密相关。自动决策要经常考虑周围环境的动态变化,如工厂的运输机器人常常需要避开另一个运输机器人。当然,这也不是必要条件,如当对未来发展没有清晰的计划时,决策不用考虑环境变化,例如需要在特定地点以特定价格租用仓库的决策。决策涉及多个研究领域,如计算机科学、心理学、经济学和所有工程学科。

    要实现自动化决策系统的开发,需要回答几个基本问题:?域是动态的还是静态的?动态是指在一定程度上需要做出一系列的决定,静态是指需要做出一个决定或同时做出多个决定;?域是确定性的、非确定性的还是随机的??是优化还是实现目标?④域是全部已知还是部分已知。

    就规划和冲突行为而言,逻辑决策问题本质上是非随机的。两者都要求初始状态和中间状态的可用信息是完整的,行为具有完全的确定性,效果已知,并且有特定的目标。这些问题类型通常应用于现实世界中,例如机器人控制、物流、互联网中的复杂行为以及计算机和网络安全

    一般来说,规划议题包括初始的已知情况、特定的目标和一组允许的操作或步骤之间的转换。规划的过程是一系列或一组动作,当执行正确时,执行实体将从初始状态更改为满足目标条件的状态。但在计算上,即使使用简单的问题规范语言,规划也是一个难题。当规划受到有关问题影响时,即使问题很简单,定义域状态的搜索量也是指数级的,搜索不能覆盖到所有状态空间表示。因此,我们的目标是开发出有效的子表示算法,以便通过搜索来实现相关的目标。目前的研究主要集中在开发新的搜索算法和新的动作和状态表示,这将使规划更容易。当多智能体相互作用时,在学习和决策之间找到平衡是至关重要的,为了学习而进行探索,做出决策则可能导致不满意的结果。

    在现实中,许多问题是随机的、不确定的。比如如何买一款性价比非常好的汽车这件事,我们常常没有任何头绪。购买决策常常受到很多方面的影响,因此有必要考虑它的风险和不确定性。对于所有意图和目的,在决策时随机域更具挑战性,但他们比近似值的确定域更加灵活。简化掉假设条件使在实践中进行自动化决策成为可能。大量的问题公式化可以用来表示随机域中的多个层面和决策过程,最著名的是决策网络和马尔可夫决策过程。

    许多应用程序需要逻辑(非随机)和随机元素的组合,如机器人的控制需要高层次的逻辑规范与低级别的概率传感器模型表示组合。处理自然语言是另一个应用这一假设的领域,因为高层次的逻辑知识需要与低层次的文本和口头信号进行组合。

    4.语言和交互

    处理语言是人工智能领域的基础之一,它分为两个领域:计算语言学(CL)和自然语言处理(NLP)。两者的不同之处在于,计算语言学研究专注于使用计算机进行语言分析,而自然语言处理包括所有应用研究,如机器翻译、提问与回答(Q&A)、文档汇总、信息提取、命名等。换言之,自然语言处理需要一个特定的任务,并不是研究学科本身。自然语言处理包括:词性标注,自然语言理解,自然语言生成,自动汇总,命名实体识别,解析,语音识别,情绪分析,语言、主题和词分割,参考解析,话语分析,机器翻译,词义消歧,形态学分割,提问和回答,关系提取,句子分割等。

    人工智能的核心观点认为,一阶谓词逻辑(一阶谓词演算,FOPC)足以表示语言和知识。本文认为逻辑适用于自然语言的语义。虽然尝试使用逻辑语义作为表示内容的关键在人工智能和语言学领域取得了进展,但在将英语转换成形式逻辑的程序上却收效甚微。迄今为止,心理学界还没有提供证据证明这种转换成逻辑的方式与人们储存和操纵“意义”的方式相一致。因此,将一种语言转换成一阶谓词演算的能力仍然是一个难以捉摸的目标。毫无疑问,自然语言处理应用程序需要在句子表示之间建立逻辑推理,但是,如果这些只是应用程序的一部分,则不清楚它们与对应的自然语言的基本含义有什么关系,因为逻辑结构最初的任务是推理。这和其他因素一起促成了三种不同的立场。

    立场一:逻辑推理与句子的意思紧密相连,知道句子的意思等同于认为:推理和逻辑是自然语言处理最好的方法;

    立场二:意义存在于逻辑之外,因为许多语义标记或标注被附加到词语上以表达它们的意义,这种注释的形式现在非常普遍。

    立场三:一般来说,逻辑和形式系统的谓词似乎与人类语言不同,其术语是实际上出现的词。

    将统计和人工智能方法引入自然语言处理领域是最新的发展趋势。一般的策略是学习语言是如何处理的,最好是以类人的方式来处理,尽管这不是一个前提条件。机器学习要基于人工翻译的一个极其庞大的语言库。这通常意味着有必要学习注释是如何分配的,或者如何将词类(单词和标点符号分类成单词类型)、语义标记、标注添加到语言库中,这些都是基于由人类编写的语言库,因此可以保证是正确的。在监督学习情况下,机器学习能够学习部分语音标记与人们在文本中注释过的单词之间的潜在联系,从而使算法也能够注释新的、以前未知的文本。轻监督和无监督学习方式与之相同。当没有人为注释时,所呈现的唯一数据就是语言中的文本,只要该文本与其他语言中的内容相同,或能在没有明确目标的同义词库数据中找到相关文本集,就可使用无监督学习。关于人工智能和语言,信息检索(IR)和信息提取(IE)起着重要作用。信息检索的主要任务是根据内容对文本进行分组,而信息提取则从文本中提取类似的事实元素,或者用来回答关于文本内容的问题,两者之间有很强的相关性。不仅是长文本,单个句子也可以被视为一个文档。这一方法正被用于客户和系统之间的相互交流,如当驾驶者询问车载电脑车主的旅程手册内容,一旦语言输入被转换成文本中的问题,问题的语义内容可被用作在手册中查找答案的基础,然后提取答案并反馈给驾驶者。

    5.智能体和行为

    在传统的人工智能中,人们主要集中在单个的、孤立的软件系统上,由于预先定义了规则,这些系统表现得相当不灵活。然而,新技术及其应用需要建立人工实体,这些实体的灵活性、适应性和自主性更高,并且可作为多智能体系统中的社会单元。传统人工智能,如“物理符号系统假说”或审议系统认为:行为理论建立了系统决策和动作的方式,在逻辑上一定能够体现在必须执行动作的独立系统中。基于以上规则,系统必须接受这样的描述,在这个世界里,它正在发现自己,包括所需的目标状态,一组动作,以及执行这些动作的先决条件和每个动作的结果列表。事实证明,即使在处理简单问题时,计算复杂性使得任何有时间限制的系统都变得毫无用处,这对符号人工智能产生了巨大的影响,从而导致了反应式架构的发展。这些架构遵循“if-then”规则,将输入直接转换为任务。这样导致的问题是系统学习的是程序而不是陈述性知识,因此他们学习的属性不容易在类似的情况下得到推广。许多人试图将审议和反应系统结合起来,但似乎把重点放在审议系统上或者松散发展的反应系统上都不切实际,两者都侧重也不是最佳选择。

    (1)以智能体为中心的新方法

    该方法遵循如下原则:

    自执行

    自执行描述了系统自决策和执行任务的能力,其目标是让系统在自我控制的情况下自主行动。传统的软件执行指定的调用程序,没有其他选择,而智能体基于自己的信仰(Beliefs)、愿望(Desires)和意图(Intentions)做出决定,这一智能体被称为BDI智能体。

    自适应

    由于不可能预测智能体会遇到的所有情况,这些智能体必须能够灵活地行动。他们必须能够从环境中学习并适应环境。如果不只是自然环境不确定,而且这一智能体也是多极智能体系统的一部分,任务将更加困难。只有非静态和自足的环境BDI智能体才被允许有效使用,如增强学习,其可以用来弥补对世界知识的缺乏。智能体位于一个由一组可能的状态描述的环境中,增强学习中由环境提供奖励(强化)信号对智能体产生动作的好坏做出一种评价,这将导致一系列的状态、动作和奖励,而迫使智能体决定一个奖励最大化的行动过程。

    社会化

    在一个多实体运行的环境中,如果需要一个共同的目标,智能体必须认清他们的组织和参与者。基于智能体的系统可被用于个性化用户界面,如中间件,也可用于竞赛中,如机器人世界杯。在道路上只有自动驾驶汽车的情况下,智能体的自主性不是唯一不可缺少的组成部分,车辆之间的通信也很重要。车辆之间实现信息交换并作为一个群体运行,车辆互联同样重要。自动驾驶汽车之间的协调将导致交通流量的优化,使得交通阻塞和事故几乎不会发生。

    (2)多智能体

    在实现多智能体行为的过程中,存在各种各样的方法,主要区别在于设计人员对单个智能体的控制程度。最典型的两个系统是:分布式问题解决系统(DPS)、多智能体系统(MAS)。

    DPS系统允许一个设计人员控制域中的每个单独的智能体,从而分布解决多智能体任务。相比之下,MAS系统有多个设计者,每个设计者只能影响他们自己的智能体,不能访问任何其他智能体。在这种情况下,交互协议的设计非常重要。在DPS系统中,智能体共同努力实现一个目标或解决问题,然而在MAS系统中,每个智能体都有单独的动机,希望实现自己的目标并自己的利益最大化。DPS研究的目标是找到解决问题的协作策略,同时使为实现目的所需的通信水平最小化。与此同时,MAS研究者正在研究协调交互,即如何为自执行智能体沟通找到共同的基础,并采取一致的行动。在理想的情况下,道路上只有一种自动驾驶汽车的世界将会是一个DPS世界。然而,目前OEM的竞争意味着MAS世界将会首先成为现实。换句话说,汽车制造商之间的沟通和谈判将占据中心地位(参见纳什均衡)。

    (3)多智能体学习

    多智能体学习(MAL)最近才被给予一定程度的关注。这一领域的主要问题包括确定应该使用哪些技术以及“多智能体学习”的确切含义。目前的机器学习方法是为了培训单个智能体而开发的,而MAL专注于分布式学习。“分布式”并不一定意味着使用了一个神经网络,而是许多相同的操作运行过程可以被并行化训练,也就是:?一个问题被分解为子问题,单个智能体学习这些子问题以便多智能体利用综合知识来解决主要问题;?许多智能体试图通过相互竞争来独立解决同一问题;?增强学习是在此背景下使用的一种方法。

    人工智能与数据科学在汽车工业中的应用(连载一)

    人工智能与数据科学在汽车工业中的应用(连载三)

    人工智能与数据科学在汽车工业中的应用之愿景篇

责任编辑:张瑾
本文为e-works原创投稿文章,未经e-works书面许可,任何人不得复制、转载、摘编等任何方式进行使用。如已是e-works授权合作伙伴,应在授权范围内使用。e-works内容合作伙伴申请热线:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐