e-works数字化企业网  »  文章频道  »  管理信息化  »  BI

5个开源预测分析工具

2017/6/26    来源:互联网    作者:佚名      
关键字:预测分析  开源预测分析工具  
预测分析项目可以说是昂贵的,幸运的是,有一些很好的开源预测分析工具可以帮助你。

H2O

    有时数据科学家想在微软Excel和R Studio之中建模大数据。在这方面有一个不错的工具,H2O。他们可以连接HDFS,S3,SQL和NoSQL数据源中的大数据,然后比较预测的结果。在Windows 7,OS X 10.9,Ubuntu 12.04或RHEL/CentOS 6上运行H2O需要安装Java。在Ubuntu的命令行上有一个安装教程演示视频。可以右击下载的H2O文件在Windows中解压。在本地主机可以在Ubuntu或Windows中执行命令行或打开可执行文件创建H2O Flow Web UI。

    H2O Flow提供了交互,帮助使用数据科学家的或演示的数据(压缩)导入文件,建立解析选项,构建模型并改进预测。有编程经验的数据科学家可以选择在Python,R和Hadoop中安装H2O。

    H2O的NanoFastTM计分引擎用于启动业务应用程序。算法包括分布式树和回归,如梯度提升机,随机森林,广义线性模型和成分分析。

KNIME

    如果数据科学家做预测时倾向于模块化,那他们可以考虑KNIME(Konstanz Information Miner)。这个工具集成组件用于机器学习并通过模块化数据流水线概念进行数据挖掘。它的图形用户界面使数据科学家更容易装配节点构建模型,分析数据和可视化结果。

    KNIME分析平台可以运行在Windows、Linux和Mac OS上。它提供了1000多个数据分析例程,不论是本地或通过R和Weka,针对如单变量和多变量统计,数据挖掘,网络分析,网络分析,和社交媒体分析等领域。

    KNIME大数据扩展是商业化的KNIME.com AG产品的一部分。这个扩展提供了一组节点用于从KNIME中通过Hive访问Hadoop/HDFS。

HP Haven预测分析

    R是一个受欢迎的、灵活的开放源码工具,但一些数据科学家发现它很慢,不能很好地扩展并受数据集大小的限制。更大的数据集分析可以用HP Haven预测分析。有HP Vertica和Distributed R的技术支持,这个工具集成了大规模并行处理平台可以在R中更快的进行分析。为了减少执行时间,分布式R在多个处理节点上分割任务。数据科学家可以使用R控制台和R Studio分析数据,在Red Hat/CentOS和Ubuntu的平台上建立模型。他们可以选择 和开发人员一起 建设定制的并行算法或使用预包装的并行算法。

Actian Vortex Express

    一些数据科学家想在Hadoop中做大规模预测分析--但没有编码。可以试试Actian Vortex Express (Hadoop SQL版),它是一款免费的图形社区版分析平台,在Linux的Vortex支持下运行多达500 GB的数据。

    这个工具分析工作流的运行速度是MapReduce的10倍以上。它使用柱状分析数据库运行在一个无数量限制的Hadoop HDFS的节点上使用YARN进行资源管理。柱状数据库运行速度远远超过基于行的数据库。

    使用Actian Vortex Express的图形界面,数据科学家可以选择数以百计的分析函数在适当的地方通过拖拽来构建工作流。

PredictionIO

    有时数据科学家与软件开发商合作,创建基于客户之前行为的预测分析应用程序。一个最适合的工具是PredictionIO,它是一款机器开源的机器学习的服务器,允许数据科学家重复使用组件,构建和部署预测应用。开发人员可以从库中选择下载预测引擎模板并定制它们。

    PredictionIO的核心部分是一个建于Apache Spark之上的引擎部署平台。事件服务器作为数据收集和分析层在Apache HBase之上。PredictionIO运行在Linux/Mac OS x上,它可以从源代码安装或Docker(社区)或Vagrant上安装。它还可以在AWS上启动。

责任编辑:程玥
本文来源于互联网,e-works本着传播知识、有益学习和研究的目的进行的转载,为网友免费提供,并以尽力标明作者与出处,如有著作权人或出版方提出异议,本站将立即删除。如果您对文章转载有任何疑问请告之我们,以便我们及时纠正。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐