1. e-works数字化企业网
  2. 文章频道
  3. IT基础架构
  4. 大数据

机器学习初学者必须知道的十大算法

2017年11月19日 来源:36大数据 作者:Dr. Jason Brownlee  
关键字:机器学习  数据  
哈佛商业评论称数据科学家是21世纪最性感的工作。所以,对于那些ML刚刚开始的人来说,这篇博客机器学习算法工程师需要知道的十大算法是非常有用的。
    哈佛商业评论称数据科学家是21世纪最性感的工作。所以,对于那些ML刚刚开始的人来说,这篇博客机器学习算法工程师需要知道的十大算法是非常有用的。
 
    ML算法是可以从数据中学习并从中改进的算法,无需人工干预。学习任务可能包括将输入映射到输出,在未标记的数据中学习隐藏的结构,或者“基于实例的学习”,其中通过将新实例与来自存储在存储器中的训练数据的实例进行比较来为新实例生成类标签。
 
    1.ML算法的类型
 
    有三种ML算法:
 
    1.监督学习:
 
    监督学习可以理解为:使用标记的训练数据来学习从输入变量(X)到输出变量(Y)的映射函数。
 
    Y = f(X)
 
    监督学习问题可以有两种类型:
 
    分类:预测输出变量处于类别形式的给定样本的结果。例如男性和女性,病态和健康等标签。
 
    回归:预测给定样本的输出变量的实值结果。例子包括表示降雨量和人的身高的实值标签。
 
    在这篇博客中介绍的前5个算法——线性回归,Logistic回归,CART,朴素贝叶斯,KNN都是监督学习。
 
    人工智能领域的大牛吴恩达曾在他的公开课中提到,目前机器学习带来的经济价值全部来自监督学习。
 
    2.无监督学习:
 
    无监督学习问题只有输入变量(X),但没有相应的输出变量。它使用无标签的训练数据来模拟数据的基本结构。
 
    无监督学习问题可以有两种类型:
 
    1.关联:发现数据集合中的相关数据共现的概率。它广泛用于市场篮子分析。例如:如果顾客购买面包,他有80%的可能购买鸡蛋。
 
    2.群集:对样本进行分组,使得同一个群集内的对象彼此之间的关系比另一个群集中的对象更为相似。
 
    3.维度降低:维度降低意味着减少数据集的变量数量,同时确保重要的信息仍然传达。可以使用特征提取方法和特征选择方法来完成维度降低。特征选择选择原始变量的一个子集。特征提取执行从高维空间到低维空间的数据转换。例如:PCA算法是一种特征提取方法。
 
    Apriori,K-means,PCA是无监督学习的例子。
 
    3.强化学习:
 
    强化学习是一种机器学习算法,它允许代理根据当前状态决定最佳的下一个动作。
 
    强化算法通常通过反复试验来学习最佳行为。它们通常用于机器人的训练,机器人可以通过在碰到障碍物后接收负面反馈来学习避免碰撞。近期的alphago zero就是采用的强化学习的方法,来完成实验的。
 
    监督学习算法
 
    1.线性回归
 
    在ML中,我们有一组输入变量(x)用于确定输出变量(y)。输入变量和输出变量之间存在某种关系,ML的目标是量化这种关系。
 
    机器学习初学者必须知道的十大算法
 
    图一
 
    在线性回归中,输入变量(x)和输出变量(y)之间的关系表示为形式为y = ax + b的方程。因此,线性回归的目标是找出系数a和b的值。这里,a是截距,b是线的斜率。
 
    图1显示了数据集的绘制x和y值。目标是拟合最接近大部分点的线。
 
    2. Logistic回归
 
    逻辑回归最适合二进制分类(y = 0或1的数据集,其中1表示默认类)例如:在预测事件是否发生时,发生的事件被分类为1。在预测人会生病或不生病,生病的实例记为1)。它是以其中使用的变换函数命名的,称为逻辑函数h(x)= 1 /(1 + e ^ x),它是一个S形曲线。
 
    在逻辑回归中,输出是以缺省类别的概率形式出现的。因为这是一个概率,所以输出在0——1的范围内。输出(y值)通过对数转换x值,使用对数函数h(x)= 1 /(1 + e ^ -x)来生成。然后应用一个阈值来强制这个概率进入二元分类。
 
   机器学习初学者必须知道的十大算法
 
    图二
 
    在图2中,为了确定肿瘤是否是恶性的,默认变量是y = 1(肿瘤=恶性);x变量可以是肿瘤的量度,例如肿瘤的大小。如图所示,逻辑函数将数据集的各种实例的x值转换成0到1的范围。如果概率超过阈值0.5(由水平线示出),则将肿瘤分类如恶性。
 
    逻辑回归的目标是使用训练数据来找到系数b0和b1的值,以使预测结果与实际结果之间的误差最小化。这些系数是使用最大似然估计技术估计的。
 
    3. CART
 
    分类和回归树(CART)是决策树的一个实现方式。
 
    非终端节点是根节点和内部节点,终端节点是叶节点。每个非终端节点表示单个输入变量(x), 叶节点表示输出变量(y)。该模型用于做出如下预测:遍历树的分裂到达一个叶节点,并输出叶节点上存在的值。
 
    图3中的决策树根据年龄和婚姻状况分类是否购买跑车或小型货车。如果这个人30多年没有结婚,我们可以如下预测:“30多年? – >是 – >’已婚? – >不。因此,该模型输出一个跑车。
 
    机器学习初学者必须知道的十大算法
 
    图三
 
    4.朴素贝叶斯
 
    为了计算事件发生的概率,假设已经发生了另一个事件,我们使用贝叶斯定理。为了计算给定某个变量值的结果的概率,也就是说,根据我们的先验知识(d)计算假设(h)为真的概率,我们使用贝叶斯定理如下:
 
    P(h | d)=(P(d | h)* P(h))/ P(d)
 
    · P(h | d)=后验概率。
 
    · P(d | h)=可能性。数据d的概率假设h是真的。
 
    · P(h)=类别先验概率。假设h的可能性为真(不考虑数据)。
 
    · P(d)=预测值先验概率。数据的可能性(与假设无关)。
 
    机器学习初学者必须知道的十大算法
 
    图四
 
    以图4为例,如果天气=“阳光”,结果如何?
 
    为了确定结果play =’yes’或’no’,给定变量weather =’sunny’的值,计算P(是| sunny)和P(no | sunny),并选择结果的概率较高。
 
    P(是|晴天)=(P(晴天|是)* P(是))/ P(晴天)
 
     =(3/9 * 9/14)/(5/14)
 
     = 0.60
 
    P(no | sunny)=(P(晴天)* P(no))/ P(晴天)
 
     =(2/5 * 5/14)/(5/14)
 
     = 0.40
 
    因此,如果天气=“晴天”,结果是play =’是’。
 

责任编辑:李欢
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
您可以:
排行榜
  1. 丽台 Quadro P5000 专业显卡评测报告
  2. 已有ERP和MES,为什么还需要质量管理系统(QMS)?-(1)提高供应商质量
  3. 西门子MES里面有质量模块,为什么还要收购质量管理软件(QMS)?
  4. 中外主流PCB设计软件大盘点(2011版)
  5. 数据库实时同步技术解决方案
  6. 工厂管理心得
  7. 车间管理方法
  8. 基于Solidworks有限元静应力分析使用要点综述
  9. 格力:携手浪潮,让世界爱上中国造
  10. 华为数智引擎,驱动长安汽车智造革新之路
编辑推荐
• 工厂人必看!MES和WMS别再傻傻分不清
• “超级生产团队”上线:懂生产,更懂怎么干
• 安徽芯纪元:打造具有中国“魂”的DSP“芯”
• 西门子EDA:构建数字化创新“底座”,驱动智能...
• 从定制化到高多层,嘉立创持续引领PCB创新时代
• 别把生命当“公测”:造车新生代狂飙下的安全...
• PTC:高科技企业数字化转型的4个案例
• 会叠衣服的中美机器人,谁离具身智能更近?
• 钣金加工企业数字化管理系统的研究与应用
• 疲劳仿真:产品寿命的“预言家”
• 什么是线束设计?
• 大型PLC市场萎缩,但头部企业仍在死磕国产化?
新闻推荐
• 联想中国交出第二财季成绩单:个人AI业务持续领跑,企业AI业务增势强劲
• Fortinet 发布《2026年度CISO预测报告》
• PTC深化与Garrett Motion的合作关系,加速新产品开发转型
• 对话Gian Paolo:SOLIDWORKS 2026创新密码与AI战略
• Fortinet 发布安全人工智能数据中心解决方案
• 智算时代,企业需要怎样的AI基础设施?
• 2025年第十六届德国工业4.0考察正式启航
• 艾默生公布 2025 财年第四季度和全年业绩,并对 2026 财年做出初步展望
• 和利时智能仪表与XMagital®智能系统解决方案交流会圆满落幕
• ManageEngine卓豪:聚力IT管理革新,驱动企业数智升级
• ABB电气连续21年荣登中国电气工业百强榜,多领域斩获十强殊荣
• 中国经济增速继续领跑 制造业将现跃迁式提升

系列微信

数字化企业网
PLM之神
e-works制信科技
MES百科
工业自动化洞察
智能制造IM
AI智造圈
智能工厂前线
工业机器人洞察
智造人才圈
工业软件应用
智能制造网博会
ERP之家
供应链指南针
© 2002-2025  武汉制信科技有限公司  版权所有  ICP经营许可证:鄂B2-20030029-1(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号 法律声明及隐私权政策     投诉举报电话:027-87592219

关于我们    |    联系我们    |    隐私条款

ICP经营许可证:鄂B2-20080078
(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号
© 2002-2025  武汉制信科技有限公司  版权所有
投诉举报电话:027-87592219

扫码查看