糖果派对官方网站_可以赌钱的糖果游戏_手机版
bb电子糖果派对:【干货】GitHub上最流行的叁十二个开源机器学习项目

bb电子糖果派对:【干货】GitHub上最流行的叁十二个开源机器学习项目

作者:Web前端    来源:未知    发布时间:2020-01-14 12:55    浏览量:

bb电子糖果派对 1

1. TensorFlow

 

 

 

 

20 个顶尖的 Python 机器学习开源项目
机器学习   2015-06-08 22:44:30 发布
您的评价:   

0.0 
收藏     1收藏
我们在Github上的贡献者和提交者之中检查了用Python语言进行机器学习的开源项目,并挑选出最受欢迎和最活跃的项目。”




图1:在GitHub上用Python语言机器学习的项目,图中颜色所对应的Bob, Iepy, Nilearn, 和NuPIC拥有最高的价值。

1. Scikit-learn

www.github.com/scikit-learn/scikit-learn

Scikit-learn 是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量机,逻辑回归,朴素贝叶斯分类器,随机森林,Gradient Boosting,聚类算法和DBSCAN。而且也设计出了Python numerical和scientific libraries Numpy and Scipy


2.Pylearn2

www.github.com/lisa-lab/pylearn2

Pylearn是一个让机器学习研究简单化的基于Theano的库程序。


3.NuPIC

www.github.com/numenta/nupic

NuPIC是一个以HTM学习算法为工具的机器智能平台。HTM是皮层的精确计算方法。HTM的核心是基于时间的持续学习算法和储存和撤销的时空模式。NuPIC适合于各种各样的问题,尤其是检测异常和预测的流数据来源。


4. Nilearn

www.github.com/nilearn/nilearn

Nilearn 是一个能够快速统计学习神经影像数据的Python模块。它利用Python语言中的scikit-learn 工具箱和一些进行预测建模,分类,解码,连通性分析的应用程序来进行多元的统计。


5.PyBrain

www.github.com/pybrain/pybrain

Pybrain是基于Python语言强化学习,人工智能,神经网络库的简称。 它的目标是提供灵活、容易使用并且强大的机器学习算法和进行各种各样的预定义的环境中测试来比较你的算法。


6.Pattern

www.github.com/clips/pattern

Pattern 是Python语言下的一个网络挖掘模块。它为数据挖掘,自然语言处理,网络分析和机器学习提供工具。它支持向量空间模型、聚类、支持向量机和感知机并且用KNN分类法进行分类。


7.Fuel

www.github.com/mila-udem/fuel

Fuel为你的机器学习模型提供数据。他有一个共享如MNIST, CIFAR-10 (图片数据集), Google's One Billion Words (文字)这类数据集的接口。你使用他来通过很多种的方式来替代自己的数据。


8.Bob

www.github.com/idiap/bob

Bob是一个免费的信号处理和机器学习的工具。它的工具箱是用Python和C++语言共同编写的,它的设计目的是变得更加高效并且减少开发时间,它是由处理图像工具,音频和视频处理、机器学习和模式识别的大量软件包构成的。


9.Skdata

www.github.com/jaberg/skdata

Skdata是机器学习和统计的数据集的库程序。这个模块对于玩具问题,流行的计算机视觉和自然语言的数据集提供标准的Python语言的使用。


10.MILK

www.github.com/luispedro/milk

MILK是Python语言下的机器学习工具包。它主要是在很多可得到的分类比如SVMS,K-NN,随机森林,决策树中使用监督分类法。 它还执行特征选择。 这些分类器在许多方面相结合,可以形成不同的例如无监督学习、密切关系金传播和由MILK支持的K-means聚类等分类系统。


11.IEPY

www.github.com/machinalis/iepy

IEPY是一个专注于关系抽取的开源性信息抽取工具。它主要针对的是需要对大型数据集进行信息提取的用户和想要尝试新的算法的科学家。


12.Quepy

www.github.com/machinalis/quepy

Quepy是通过改变自然语言问题从而在数据库查询语言中进行查询的一个Python框架。他可以简单的被定义为在自然语言和数据库查询中不同类型的问题。所以,你不用编码就可以建立你自己的一个用自然语言进入你的数据库的系统。

现在Quepy提供对于Sparql和MQL查询语言的支持。并且计划将它延伸到其他的数据库查询语言。


13.Hebel

www.github.com/hannes-brt/hebel

Hebel是在Python语言中对于神经网络的深度学习的一个库程序,它使用的是通过PyCUDA来进行GPU和CUDA的加速。它是最重要的神经网络模型的类型的工具而且能提供一些不同的活动函数的激活功能,例如动力,涅斯捷罗夫动力,信号丢失和停止法。


14.mlxtend

www.github.com/rasbt/mlxtend

它是一个由有用的工具和日常数据科学任务的扩展组成的一个库程序。


15.nolearn

www.github.com/dnouri/nolearn

这个程序包容纳了大量能对你完成机器学习任务有帮助的实用程序模块。其中大量的模块和scikit-learn一起工作,其它的通常更有用。


16.Ramp

www.github.com/kvh/ramp

Ramp是一个在Python语言下制定机器学习中加快原型设计的解决方案的库程序。他是一个轻型的pandas-based机器学习中可插入的框架,它现存的Python语言下的机器学习和统计工具(比如scikit-learn,rpy2等)Ramp提供了一个简单的声明性语法探索功能从而能够快速有效地实施算法和转换。


17.Feature Forge

www.github.com/machinalis/featureforge

这一系列工具通过与scikit-learn兼容的API,来创建和测试机器学习功能。

这个库程序提供了一组工具,它会让你在许多机器学习程序使用中很受用。当你使用scikit-learn这个工具时,你会感觉到受到了很大的帮助。(虽然这只能在你有不同的算法时起作用。)


18.REP

www.github.com/yandex/rep

REP是以一种和谐、可再生的方式为指挥数据移动驱动所提供的一种环境。

它有一个统一的分类器包装来提供各种各样的操作,例如TMVA, Sklearn, XGBoost, uBoost等等。并且它可以在一个群体以平行的方式训练分类器。同时它也提供了一个交互式的情节。


19.Python 学习机器样品

www.github.com/awslabs/machine-learning-samples

用亚马逊的机器学习建造的简单软件收集。


20.Python-ELM

www.github.com/dclambert/Python-ELM

这是一个在Python语言下基于scikit-learn的极端学习机器的实现。

 

ITeye消息火爆月刊总第110期公布了!制作能够,内容丰裕,为您计算7个月最精美的技巧情报。精粹内容推荐: 日管理20亿数码,实时顾客作为服务系统结构履行最近系统每一日管理20亿左右的数据量,数据从上线到可用的日子在300纳秒左右。查询服务每一日服务8000万左右的呼吁,平均延迟在6微秒左右。本文从实时性/可用性/品质/安插多少个维度来注明系统的陈设性。 28款GitHub流行的开源机器学习项目:TensorFlow排第一名如今机械学习渐渐改为同行当火爆,经过三十几年的进步,机器学习近日也是有了万分广大的利用。这里收拾了当下GitHub上最受应接的28款开源的机器学习项目,以供开拓者仿效运用。

GitHub项目地址:

 

在这样的背景下, InfoWorld近日公布了机器学习领域11个最受欢迎的开源项目,这11个开源项目大多与垃圾邮件过滤、人脸识别、推荐引擎相关。它们大多数基于现今最流行的语言以及平台,推广以及扩展了机器学习领域的很多重要算法。从中,用户不但可以找到LDA等主题模型,也可以找到HMM等隐马尔科夫模型。这些模型都是应用领域的热点,也是研究者们最需要的。

Scikit-learn
Scikit-learn是一个非常强大的Python机器学习工具包。它通过在现有Python的基础上构建了NumPy和Matplotlib,提供了非常便利的数学工具。这个工具包包括了很多简单且高效的工具,很适合用于数据挖掘和数据分析。

在主页中,可以看到User Guide,这是整个机器学习的索引,其中用户可以学到各种有效的方法。在Reference里,用户可以找到各个类具体的用法索引。

Shogun
Shogun是一个基于C++的最古老的机器学习开源库,它创建于1999年。作为一个SWIG库,Shogun可以轻松地嵌入Java、Python、C#等主流处理语言中。它的重点在于大尺度上的内核方法,特别是“支持向量机”的学习工具箱。其中,它包括了大量的线性方法,如LDA、LPM、HMM等等。

Accord Framework/AForge.net
Accord是AForge.net的扩展,是一个基于.Net的机器学习与信号处理框架。它包括了一系列的对图像和音频的机器学习算法,如人脸检测、SIFT拼接等等。同时,Accord支持移动对象的实时跟踪等功能。它提供了一个从神经网络到决策树系统的机器学习库。

Mahout
Mahout是一个广为人知的开源项目,它是Apache Software旗下的一个开源项目,提供了众多的机器学习经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout内包含了聚类、分类、推荐等很多经典算法,并且提供了很方便的云服务的接口。

MLlib
MLlib是Apache自己的Spark和Hadoop机器学习库,它被设计用于大规模高速度地执行MLlib所包含的大部分常见机器学习算法。MLlib是基于Java开发的项目,同时可以方便地与Python等语言对接。用户可以自己设计针对MLlib编写代码,这是很具有个性化的设计。

H2O
H2O是0xdata的旗舰产品,是一款核心数据分析平台。它的一部分是由R语言编写的,另一部分是由Java和Python语言编写的。用户可以部署H2O的R程序安装包,之后就可以在R语言环境下运行了。H2P的算法是面向业务欺诈活着趋势预测的,目前正在新一轮的融资中。

Cloudera Oryx
Oryx也是由Hadoop所设计的机器学习开源项目,由Cloudera Hadoop Distribution的创造者所提供。Oryx能够让机器学习的模型使用在实时的数据流上,如垃圾邮件过滤等。

GoLearn
GoLearn是谷歌所构建的Go语言的一体化机器学习库,目标是简单并且可定制。Go语言是谷歌的主打语言,目前使用已经越来越广泛。GoLearn的简单在于数据在库内被加载和处理,因此能够可定制地扩展数据结构以源码。

Weka
>Weka是使用Java开发的用户数据挖掘的开源项目。Weka作为一个公开的数据挖掘工作平台,集合了大量能够承担数据挖掘人物的机器学习算法,包括了对数据进行预处理、分类、回归、聚类等等。同时,Weka实现了对大数据的可视化,通过Java设计的新式交互界面上,实现人与程序的交互。

CUDA-Convnet
CUDA是我们众所周知的GPU加速套件。而CUDA-Convnet是一个基于GPU加速的神经网络应用程序机器学习库。它使用C++编写,并且使用了NVidia的CUDA GPU处理技术。

目前,这个项目已经被重组成为CUDA-Convnet2,支持多个GPU和Kepler-generation GPUs. Vuples项目与之类似,使用F#语言编写,并且适用于.Net平台上。

ConvNetJS
ConvNetJS是一款基于JavaScript的在线深度学习库,它提供了在线的深度学习训练方式。它能够帮助深度学习的初学者更快、更加直观的理解算法,通过一些简单的Demo给用户最直观的解释。

 

最牛逼的开源机器学习框架,你知道几个
0条评论2015-12-31 10:23    来源:开发者头条  作者: 大白鲸团队 编辑: 崔月
  【IT168 评论】机器学习毫无疑问是当今最热的话题,它已经渗透到生活的方方面面,在移动互联网中混不懂点机器学习都不好意思,说几个能看的到的,经常用邮箱吧,是不是感觉垃圾邮件比N年前变少了,无聊了和siri聊过天不,想坐一下无人驾驶汽车吗,手累了用脸解个锁,智能化产品推荐是不是让你更懒了。看不到的就更多了:信用卡欺诈监测保证你的交易安全,股票交易/量化投资(知道你的高收益理财怎么来的吗?),手势识别(用过海豚浏览器的手势吗),还有医学分析等等,巨头们为了在未来占领先机,前仆后继的开源他们的机器学习框架,加速了人类进入智能时代的步伐(说什么,机器人?)
  Facebook:用于Torch的模块库fbcunn (2015-01-17 开源)
  fbcunn可以替代Torch的默认模块,它们构建在Nvidia的cuFFT库(一个基于CUDA的库,用于深度神经网络)之上,可以在更短的时间内训练更大规模的神经网络模型,它对NVIDIA的GPU进行了优化。一部分可以用来训练大型计算机视觉系统。部分模块也可以用来训练处理不同类型数据的模型。既可以进行文本识别、图像识别,也能用于语言模型的训练。部分模块将大型卷积神经网络模型的训练速度提升了23.5倍。
  fbcunn基于Fast Training of Convolutional Networks through FFTs这篇论文中的想法构建了这些模块,FAIR(Facebook人工智能实验室)的主任Yann LeCun是论文的合著者之一。与cuDNN相比,在卷积核较小的情况下(3x3),fbcunn的速度提升可达1.84倍;而在卷积核较大的情况下(5x5),速度提升可达23.5倍。
  Torch和fbcunn的最早的用途之一:图片分类,它分类过ImageNet的120万张图片,可以参考这个地址:https://github.com/soumith/imagenet-multiGPU.torch
  参考:
http://torch.ch
https://github.com/torch/
https://github.com/facebook/fbcunn
https://research.facebook.com/blog/879898285375829/fair-open-sources-deep-learning-modules-for-torch/
  微软:DMTK(2015-11-16 开源)
  DMTK由参数服务器和客户端SDK两部分构成。参数服务器支持存储混合数据结构模型、接受并聚合工作节点服务器的数据模型更新、控制模型同步逻辑;客户端SDK负责维护节点模型缓存(与全局模型服务器同步)、本地训练和模型通讯之间的流水线控制以及片状调度大模型训练。它包含DMTK框架、LightLDA和分布式词向量(Word Embedding)三个组件。
  DMTK采用了传统的客户端/服务器架构,有多个服务器实例运行在多台机器上负责维护全局模型参数,而训练例程(routines)则使用客户端API访问并更新这些参数。为了适应不同的集群环境,DMTK框架支持两种进程间的通信机制:MPI和ZMQ。应用程序端不需要修改任何代码就能够在这两种方式之间切换。DMTK支持Windows和Linux两种操作系统。
  DMTK则是使用C++编写的,提供了一个客户端API和SDK。 DMTK的官网 对DMTK框架、LightLDA、分布式词向量的应用场景、下载、安装、配置、运行以及性能等方面都做了详尽的介绍(见参考部分)。
  DMTK主要用于自然语言处理方面,比如:文本分类与聚类、话题识别以及情感分析等
  参考:
http://www.dmtk.io
https://github.com/Microsoft/DMTK
  Google:TensorFlow(2015-11-10 开源)
  TensorFlow 是一个用来编写和执行机器学习算法的工具。计算在数据流图中完成,图中的节点进行数学运算,边界是在各个节点中交换的张量(Tensors--多维数组)。TensorFlow负责在不同的设备、内核以及线程上异步地执行代码,目前支持CNN、RNN和LSTM等图像、语音和自然语言处理(NLP)领域最流行的深度神经网络模型。
  Google已将TensorFlow用于GMail(SmartReply)、搜索(RankBrain)、图片(生成图像分类模型--Inception Image Classification Model)、翻译器(字符识别)等产品。
  TensorFlow能够在台式机、服务器或者移动设备的CPU和GPU上运行,也可以使用Docker容器部署到云环境中。在处理图像识别、语音识别和语言翻译等任务时,TensorFlow依赖于配备图像处理单元(GPU)的机器和被用于渲染游戏图像的芯片,它对这些芯片依赖度比想象中的高。当前开源的版本能够运行在单机上,暂不支持集群。操作系统方面,TensorFlow能够运行在Linux和MacOS上。
  TensorFlow的核心是使用C++编写的,有完整的Python API和C++接口,同时还有一个基于C的客户端API。
  参考:
https://www.tensorflow.org
https://github.com/tensorflow/tensorflow
  IBM:SystemML (2015-06 开源)
  SystemML是灵活的,可伸缩机器学习(ML) 语言,使用Java编写。可实现 可定制算法(述性分析、分类、聚类、回归、矩阵分解及生存分析等), 多个执行模式(单独运行、Hadoop 和 Spark ), 自动优化。它由 IBM 的 Almaden 实验室花了近 10年开发而成的机器学习技术。
  SystemML语言,声明式机器学习 (DML)。SystemML 包含线性代数原语,统计功能和 ML 指定结构,可以更容易也更原生的表达 ML 算法。算法通过 R 类型或者 Python 类型的语法进行表达。DML 通过提供灵活的定制分析表达和独立于底层输入格式和物理数据表示的数据显著提升数据科学的生产力。
  SystemML 运行环境支持 Windows、Linux 及 MacOS,可支持单机和分布式部署。单机部署显然有利于本地开发的工作,而分布式部署则可以真正发挥机器学习的威力,支持的框架包括 Hadoop 和 Spark
  众所周知的IBM AIWaston融入了不少SystemML技术(不了解的同学可以看下《Jeopardy!》节目,来领教到沃森的威力)
  参考:
http://systemml.apache.org
https://github.com/apache/incubator-systemml
  三星:VELES
  VELES 是分布式深度学习应用系统,号称:用户只需要提供参数,剩下的我来搞,VELES使用 Python 编写,使用OpenCL 或者 CUDA,利用基于Flow 的编程方式。
  参考:
https://velesnet.ml
https://github.com/Samsung/veles
  百度:期待ING。。。
  巨头之所以开源自己耗时多年打造的机器学习框架,是希望能够加速在人工智能方面的部署,在人工智能日益重要的未来抢占更多的主导权。而对于机器人创业公司来说,当这么多巨头将机器学习平台开源后,还有什么理由做不好机器人。

 

盘点 | 今年GitHub排名前20的Python机器学习开源项目
机器之心2016-11-27 13:05:06数据分析 技术 阅读(2277) 评论(0)
选自KDnuggets
作者:Prasad Pore
机器之心编译
参与:杨旋、吴攀
当今时代,开源是创新和技术快速发展的核心。本文来自 KDnuggets 的年度盘点,介绍了2016 年排名前 20 的 Python 机器学习开源项目,在介绍的同时也会做一些有趣的分析以及谈一谈它们的发展趋势。和去年一样,KDnuggets 介绍了 GitHub 上最新的并且排名前 20 的 Python 机器学习开源项目。令人吃惊的是,去年一些最活跃的项目已经停滞不前了,也有一些项目跌出了前 20 名(在 contribution 和 commit 方面),当然,也有 13 个新项目进入了前 20。
  
2016 年排名前 20 的 Python 机器学习开源项目
1.Scikit-learn是一种基于 NumPy、SciPy 和 matplotlib 的用于数据挖掘和数据分析的工具,其不仅使用起来简单高效,而且还是开源的,可供所有人使用,并且拥有商业可用的 BSD 许可证,在不同的环境下都能很好的被使用。
  提交:21486,贡献者:736
  链接:http://scikit-learn.org/
2.TensorFlow 最初由 Google 机器智能研究机构的 Google Brain 团队的研究人员和工程师开发。该系统旨在促进对机器学习的研究,同时也让机器学习研究原型过渡到生产系统更加高效容易。
提交:10466,贡献者:493
链接:https://www.tensorflow.org/
3.Theano 能让您更加高效地定义、优化和评估涉及多维数组的数学表达式。
提交:24108,贡献者:263
链接:http://deeplearning.net/software/theano/
4.Caffe是一个由伯克利视觉与学习中心(BVLC)和社区贡献者开发的深度学习框架,它兼具表现力和速度,还有模块化的优点。
提交:3801,贡献者:215
链接:http://caffe.berkeleyvision.org/
5.Gensim 是一个免费的 Python 库,它具有诸如可扩展的统计语义等特征,它可用于分析纯文本文档的语义结构和检索语义相似的文档。
提交:2702,贡献者:145
  链接:https://radimrehurek.com/gensim/
6.Pylearn2 是一个机器学习库。它的大部分功能都是建立在 Theano 的基础之上。这意味着你可以使用数学表达式编写 Pylearn2 插件(新模型、算法等),然后 Theano 将为你优化这些表达式让其更加稳定,并将根据你的选择把它编译适配相应的后端(CPU 或 GPU)。
提交:7100,贡献者:115
链接:http://github.com/lisa-lab/pylearn2
7.Statsmodels 是一个允许用户挖掘数据、估计统计模型和执行统计测试的 Python 模块。描述性统计、统计测试、绘图函数和结果统计的详细列表可用于不同类型的数据和估计器。
提交:8664,贡献者:108
链接:https://github.com/statsmodels/statsmodels/
8.Shogun是一种提供大量高效且统一的机器学习(ML)方法的机器学习工具箱。它能容易地把多种数据表示,算法类和通用工具紧密地联系起来。
提交:15172,贡献者:105
链接:https://github.com/shogun-toolbox/shogun
9.Chainer 是一个基于 Python 并且独立的深度学习模型开源框架。Chainer 提供一种灵活、直观且高效的方法来实现整个深度学习模型,包括如循环神经网络和变分自动编码器等最先进的模型。
提交:6298,贡献者:84
链接:https://github.com/pfnet/chainer
10.NuPIC是一个基于一种被称为分层式即时记忆(HTM/ Hierarchical Temporal Memory)的新皮质理论的开源项目。HTM 理论中的一部分已经在应用中被实现、测试和使用了,而其他部分仍在开发中。
提交:6088,贡献者:76
链接:http://github.com/numenta/nupic
11.Neon 是 Nervana (http://nervanasys.com/) 公司的一个基于 Python 的深度学习库。它提供易用性的同时也提供了最高的性能。
提交:875,贡献者:47
链接:http://neon.nervanasys.com/
12.Nilearn 是一个用于在 NeuroImaging 数据上快速轻松地进行统计学习的 Python 模块。它利用 scikit-learn Python 工具箱来处理如预测建模、分类、解码或连接分析等多变量统计信息。
提交:5254,贡献者:46
链接:http://github.com/nilearn/nilearn
13.Orange3是一个新手和专家都可以使用的开源机器学习和数据可视化工具。在交互式数据分析工作流程中拥有大型的工具箱。
提交:6356,贡献者:40
链接:https://github.com/biolab/orange3
14.Pymc 是一个实现贝叶斯统计模型和拟合算法的 Python 模块,其中包括马尔可夫链和蒙特卡罗方法。其灵活性和可扩展性使其适用于大量问题。
提交:2701,贡献者:37
链接:https://github.com/pymc-devs/pymc
15.PyBrain是 Python 的一个模块化机器学习库。它的目标是为机器学习任务提供灵活且易于使用但仍然强大的算法,以及各种预定义环境来对你的算法进行测试和比较。
提交:984,贡献者:31
链接:http://github.com/pybrain/pybrain
16.Fuel是一个数据管道框架(data pipeline framework),它为你的机器学习模型提供所需的数据。它将被 Blocks 和 Pylearn2 神经网络库使用。
提交:1053,贡献者:29
链接:http://github.com/mila-udem/fuel
17.PyMVPA 是一个用于简化大型数据集的统计学习分析 Python 包。它提供了一个可扩展的框架,具有大量用于分类、回归、特征选择、数据导入和导出等算法的高级接口。
提交:9258,贡献者:26
链接:https://github.com/PyMVPA/PyMVPA
18.Annoy(Approximate Nearest Neighbors Oh Yeah)是一个绑定 Python 的 C ++库,用来搜索在空间中距离给定查询点较近的点。它还创建了基于大型只读文件的数据结构,这些数据结构被映射到内存中,以便许多进程可以共享相同的数据。
提交:365,贡献者:24
  链接:https://github.com/spotify/annoy
19.Deap 是一个用于快速原型和测试思想的新颖的进化计算框架。它试图使算法更加浅显易懂,数据结构更加透明。它与并行机制(例如 multiprocessing 和 SCOOP)能完美协调。
提交:1854,贡献者:21
链接:https://github.com/deap/deap
12.Pattern 是 Python 编程语言的 Web 挖掘模块。它捆绑了数据挖掘(Google + Twitter +维基百科 API、网络爬虫、HTML DOM 解析器)、自然语言处理(词性标记、n-gram 搜索、情感分析、WordNet)、机器学习(向量空间模型、k-means 聚类、朴素贝叶斯+ k-NN + SVM 分类器)和网络分析(图形中心性和可视化)等工具。
提交:943,贡献者:20
  链接:https://pypi.python.org/pypi/Pattern
从下面的图表中我们可以得知,与其它项目相比,PyMVPA 具有最高的贡献率。令人吃惊的是,相比于其它项目,尽管 Scikit-learn 的贡献者最多,但是它的贡献率比较低。这背后的原因可能是因为 PyMVPA 是一个新的项目,经历了早期的发展阶段,由于新的想法/功能开发,缺陷修复,重构等原因导致了许多提交。而 Scikit-learn 是一个早期的并且比较稳定的项目,所以拥有较少的改进或缺陷修复等提交。
  
我们对 2015 年和 2016 年的项目进行了比较,它们都是排名前 20 名的项目。我们可以看到 Pattern、PyBrain 和 Pylearn2 的贡献率没有明显的改变,也没有新的贡献者。此外,我们可以在贡献者的数量和提交的数量中看到一个显著的相关性。贡献者的增加可能会导致提交的增加,这也是我认为开源项目和社区神奇的地方;它可以导致头脑风暴,产生新想法以及创造更好的软件工具。
  
以上就是 KDnuggets 团队根据贡献者数量和提交数量对 2016 年排名前 20 的 Python 机器学习开源项目的分析。
开源和知识共享是令人快乐的一件事!
  原文连接:http://www.kdnuggets.com/2016/11/top-20-python-machine-learning-open-source-updated.html

 

28款GitHub最盛行的开源机器学习项目

后天机械学习渐渐变为行当火热,经过三十几年的迈入,机器学习近期也会有了丰盛宽广的施用,如:数据开采、Computer视觉、自然语言管理、生物特征辨识、找出引擎、法学确诊、DNA类别测序、语音和手写识别、美少女游戏和机器人等地点。

翻译整理了脚下GitHub上最受应接的28款开源的机械学习项目,以供开垦者参照他事他说加以考察运用。

TensorFlow是谷歌(Google卡塔尔国发布的第二代机器学习体系。

1. TensorFlow

 

bb电子糖果派对 2

TensorFlow 是谷歌(Google卡塔尔发布的第二代机器学习体系。据谷歌(GoogleState of Qatar声明,在有的条件测量试验中,TensorFlow的管理速度比第一代的DistBelief加速了2倍之多。
切切实实的讲,TensorFlow是两个使用多少流图(Data Flow Graphs)进行数值总括的开源软件库:图中的节点( Nodes)代表数学运算操作,同不平日间图中的边(Edges)表示节点之间互相流通的多维数组,即张量(Tensors)。这种灵活的结构能够让使用者在各个化的将总括布署在台式机、服务器只怕移动器材的二个或八个CPU上,而且没有必要重写代码;同一时候任黄金时代基于梯度的机械学习算法均可够借鉴TensorFlow的自动不同(Auto-differentiation);别的通过灵活的Python接口,要在TensorFlow中公布主见也变得非常轻松。
TensorFlow最早由Google Brain小组(该小组附归于Google's Machine Intelligence研商部门)的商讨员和技术员开荒出来的,开辟指标是用以举行机器学习和纵深神经互连网的商讨。但该类别的通用性足以使其广大用于其余计量领域。
前段时间谷歌(Google卡塔尔 内部已在大方应用 AI 手艺,包蕴 谷歌 App 的口音识别、Gmail 的自行回复功效、谷歌 Photos 的图片检索等都在动用 TensorFlow 。

支出语言:C++
许可公约:Apache License 2.0 
GitHub项目地址:https://github.com/tensorflow/tensorflow

2. Scikit-Learn

2. Scikit-Learn

Scikit-Learn是用来机器学习的Python 模块,它独当一面在SciPy之上。该品种由David Cournapeau 于2006年创设,这时候项目名称叫Google Summer of Code,今后之后,众多志愿者都为此做出了贡献。
要害特色:

  • 操作简易、高效的数量开采和数据剖析
  • 无访问约束,在其他境况下可再度利用
  • 建立在NumPy、SciPy 和 matplotlib基础上

Scikit-Learn的基础用首要被分成七个部分:分类、回归、聚类、数据降维、模型接收、数据预管理,具体能够参见官网上的文书档案。经过测验,Scikit-Learn可在 Python 2.6、Python 2.7 和 Python 3.5上运行。除了那些之外,它也理应可在Python 3.3和Python 3.4上运维。
注:Scikit-Learn在此在此之前被称得上Scikits.Learn。

支付语言:Python
许可左券:3-Clause BSD license
GitHub项目地址: https://github.com/scikit-learn/scikit-learn

GitHub项目地址:

3.Caffe

Caffe 是由神经网络中的表明式、速度、及模块化产生的深度学习框架。后来它经过Berkeley视觉与学习为主((BVLC)和社区参预者的进献,得以发展产生了以一个Berkeley主导,然后付与Github和Caffe-users邮件所结合的一个相比较松散和任性的社区。
Caffe是二个基于C++/CUDA构造框架,开拓者能够选用它大肆的组织互联网,如今援救卷积神经网络和全连接神经网络(人工神经网络)。在Linux上,C++能够经过命令行来操作接口,对于MATLAB、Python也可能有特别的接口,运算上支撑CPU和GPU直接无缝切换。

Caffe的特点

  • 易用性:Caffe的模子与相应优化都以以文件情势而非代码方式提交, Caffe给出了模型的概念、最优化设置以致预练习的权重,方便高效利用;
  • 进程快:能够运营最佳的模型与海量的数额;
  • Caffe可与cuDNN结合使用,可用来测量试验亚历克斯Net模型,在K40上拍卖一张图纸只须求1.17ms;
  • 模块化:便于扩充到新的职责和设置上;
  • 使用者可因此Caffe提供的各层类型来定义自身的模型;

时下Caffe应用施行第生龙活虎有多少收拾、设计网络布局、练习结果、基于现存训练模型,使用Caffe直接识别。

支付语言:C++
许可左券: BSD 2-Clause license
GitHub项目地址: https://github.com/BVLC/caffe

Scikit-Learn是用于机器学习的Python模块,它创造在SciPy之上。

4. PredictionIO

PredictionIO 是面向开垦职员和数码化学家的开源机器学习服务器。它援助事件访问、算法调解、评估,以致经由REST APIs的预测结果查询。使用者能够经过PredictionIO做一些估摸,举例天性化推荐、开掘内容等。PredictionIO 提供十多少个预设算法,开采者可以一贯将它们运转于本身的数目上。大致任何利用与PredictionIO集圣何塞能够变得更“聪明”。其根本特色如下所示:

  • 基于原来就有多少可预测客户作为;
  • 使用者可选用你和煦的机器学习算法;
  • 不要忧郁可扩充性,扩张性好。

PredictionIO 基于 REST API(应用程序接口)标准,但是它还包括Ruby、Python、Scala、Java 等编制程序语言的 SDK(软件开辟工具包)。其开垦语言是Scala语言,数据库方面选取的是MongoDB数据库,计算连串使用Hadoop系统结构。 

支出语言:Scala
许可左券: Apache License 2.0
GitHub项目地址: https://github.com/PredictionIO/PredictionIO

3. Caffe

5. Brain

Brain是 JavaScript 中的 神经网络库。以下例子表明使用Brain来就好像 XOEnclave成效:

var net = new brain.NeuralNetwork();

net.train([{input: [0, 0], output: [0]},

           {input: [0, 1], output: [1]},

           {input: [1, 0], output: [1]},

           {input: [1, 1], output: [0]}]);

var output = net.run([1, 0]);  // [0.987]

当 brain 用于节点中,可选择npm安装:

npm install brain

当 brain 用于浏览器,下载最新的 brain.js 文件。锻炼总结代价相比较昂贵,所以应该离线操练网络(恐怕在 Worker 上),并动用 toFunction(卡塔尔(قطر‎ 或许 toJSON(State of Qatar选项,以便将预练习互联网插入到网址中。

付出语言:JavaScript
GitHub项目地址: https://github.com/harthur/brain

GitHub项目地址:

6. Keras

Keras是极端简洁并中度模块化的神经互连网库,在TensorFlow 或 Theano 上都能够运转,是三个莫斯中国科学技术大学学模块化的神经互连网库,辅助GPU和CPU运算。Keras能够说是Python版的Torch7,对于急速营造CNN模型特别便于,同临时间也含有了一些新型文献的算法,举例Batch Noramlize,文书档案教程也很全,在官英特网作者都以平素给例子浅显易懂。Keras也支撑保存演练好的参数,然后加载已经练习好的参数,实行持续训练。
Keras侧重于开拓急速实验,用大概最少延迟实现从意见到结果的变型,即为做好生龙活虎项研商的主要。
当必要如下供给的吃水学习的库时,就足以思量采纳Keras:

  • 构思到归纳高效的原型法(通过风姿罗曼蒂克体化模块性、简洁明了性以致可扩大性);
  • 并且支持卷积网络和递归互联网,甚至两个之间的结合;
  • 支撑大肆连接方案(包蕴多输入多输出练习);
  • 可在CPU 和 GPU 上无缝运转。

Keras近些日子支撑 Python 2.7-3.5。

支出语言:Python
GitHub项目地址:https://github.com/fchollet/keras

7. CNTK

CNTK(Computational Network Toolkit )是多少个统大器晚成的纵深学习工具包,该工具包通过贰个有向图将神经互连网描述为大器晚成类别计算步骤。在有向图中,叶节点表示输入值或网络参数,别的节点表示该节点输入之上的矩阵运算。
CNTK 使得完毕和烧结如前馈型神经网络DNN、卷积神经互连网(CNN)和循环神经互连网(LX570NNs/LSTMs卡塔尔等风靡方式变得极其轻便。同时它达成了跨多GPU 和服务器自动分歧和并行化的专擅梯度下落(SGD,截断误差反向传来)学习。
下图将CNTK的管理速度(每秒管理的帧数)和此外几个名牌的工具包做了相比较了。配置使用的是四层全连接的神经网络(参见基准测量试验脚本)和多个轻重是8192 的便捷mini batch。在相通的硬件和相应的风靡公共软件版本(二零一五.12.3前的版本)的功底上得到如下结果:

bb电子糖果派对 3

CNTK自二〇一六年二月就已开源。

支出语言:C++
GitHub项目地址:https://github.com/Microsoft/CNTK

Caffe是由神经互联网中的表明式、速度、模块化产生的深浅学习框架。

8. Convnetjs

ConvNetJS是使用Javascript完毕的神经互联网,相同的时候还会有所极其正确的依靠浏览器的德姆o。它最紧要的用项是帮扶深度学习初读书人更加快、越来越直观的通晓算法。
它目前支撑:

  • 科学普及的神经互联网模块(全连接层,非线性);
  • 分类(SVM/ SOFTMAX)和回归(L2)的本钱函数;
  • 钦点和教练图像管理的卷积互联网;
  • 依照Deep Q Learning的试验加强学习模型。

4. PredictionIO

部分在线示例:

  • Convolutional Neural Network on MNIST digits
  • Convolutional Neural Network on CIFAR-10
  • Toy 2D data
  • Toy 1D regression
  • Training an Autoencoder on MNIST digits
  • Deep Q Learning Reinforcement Learning demo +Image Regression ("Painting") +Comparison of SGD/Adagrad/Adadelta on MNIST 开采语言:Javascript 许可协商:MIT License GitHub项目地址:https://github.com/karpathy/convnetjs

GitHub项目地址:

9. Pattern

 

bb电子糖果派对 4

Pattern是Python的四个Web发现模块。具有以下工具:

  • 多少发掘:网络服务(谷歌(GoogleState of Qatar、Instagram、Wikipedia)、互联网爬虫、HTML DOM深入分析;
  • 自然语言管理:词性评释工具(Part-Of-Speech TaggerState of Qatar、N元搜索(n-gram searchState of Qatar、心思分析(sentiment analysis卡塔尔、WordNet;
  • 机械学习:向量空间模型、聚类、分类(KNN、SVM、 Perceptron);
  • 网络深入分析:图形中央性和可视化。

其文书档案康健,近期有着50三个案例和350多个单元测量检验。 Pattern近来只扶助Python 2.5+(尚不匡助Python 3),该模块除了在Pattern.vector模块中利用LSA外未有其他任何外部供给,由此只需安装 NumPy (仅在Mac OS X上暗许安装)。

支付语言:Python
许可左券:BSD license
GitHub项目地址:https://github.com/clips/pattern

10. NuPIC

 

bb电子糖果派对 5

NuPIC是八个兑现了HTM学习算法的机械智能平台。HTM是三个关于新(大脑)皮质(Neocortex)的亲力亲为人工智能算法。HTM的中坚是依附时间的接连学习算法,该算法能够积攒和调用时间和空中二种形式。NuPIC能够适用于消除每一样难点,特别是那二个检查实验和流数据源预测方面。
NuPIC Binaries文件近期可用于:

  • Linux x86 64bit
  • OS X 10.9
  • OS X 10.10
  • Windows 64bit

NuPIC 有温馨的独辟蹊径之处。多数机械学习算法无法适应新模式,而NuPIC的运作相近于人脑,当形式转换的时候,它会遗忘旧格局,回想新格局。

付出语言:Python
GitHub项目地址:https://github.com/numenta/nupic

PredictionIO是面向开采人士和多少化学家的开源机器学习服务器。它帮助事件访谈、算法调解、评估,以至经由REST APIs的远望结果查询。

11. Theano

Theano是八个Python库,它同意使用者有效地定义、优化和评估涉及多维数组的数学表达式,同临时间支持GPUs和高效符号分裂操作。Theano具备以下特征:

  • 与NumPy紧凑有关--在Theano的编写翻译功用中利用了Numpy.ndarray ;
  • 晶莹剔透地行使GPU--实施多少密集型总计比CPU快了140多倍(针对Float32);
  • 快捷符号差距--Theano将函数的导数分为二个或三个例外的输入;
  • 速度和安宁的优化--即便输入的x非常的小也得以拿走log(1+x卡塔尔国准确结果;
  • 动态生成 C代码--表明式计算更加快;
  • 大范围的单元测量试验和自家验证--开外不当类型的检验和判别。

自2005年起,Theano平素从事于大型密集型科学总括钻探,但它最近也很被遍布应用在堂上之上( 如Montreal高校的深度学习/机器学习课程)。

开辟语言:Python
GitHub项目地址:https://github.com/Theano/Theano

5. Brain

12. MXNet

 

bb电子糖果派对 6

MXNet是三个兼有功用和灵活性的深度学习框架。它同意使用者将标记编制程序和命令式编程相结合,以追求功效和坐褥力的最大化。其主干是动态正视调节程序,该程序能够动态自动举办并行化符号和下令的操作。此中安顿的图样优化层使得符号操作更加快和内部存款和储蓄器利用率更高。该库轻量且便带领,况兼可增加到四个GPU和多台主机上。
要害特征:

  • 其设计表达提供了卓有功用的观点,能够被再度使用到别的DL项目中;
  • 轻巧总计图的利落配置;
  • 结合了各个编制程序方法的优势最大限度地拉长灵活性和作用;
  • 轻量、高效的内部存款和储蓄器以致扶持便携式的智能器具;
  • 多GPU扩充和分布式的全自动并行化设置;
  • 支持Python、R、C++和 Julia;
  • 对“云总括”友好,直接包容S3、HDFS和Azure。

MXNet不唯有是二个纵深学习项目,它更是一个起家深度学习系统的蓝图、带领陈设以至红客们对纵深学习种类非常见解的结合体。

开采语言:Jupyter Notebook
开源许可:Apache-2.0 license
GitHub项目地址:https://github.com/dmlc/mxnet

GitHub项目地址:

13. Vowpal Wabbit

Vowpal Wabbit是一个机械学习种类,该种类推动了如在线、散列、Allreduce、Learning2search、等方面机器学习前沿才干的向上。 其操练进程非常快,在20亿条锻炼样板,各类演练样品大约九十七个非零特征的情景下:假设特征的总位数为风华正茂万时,锻炼时间为20分钟;特征总位数为1000万时,练习时间为2个钟头。Vowpal Wabbit扶助分类、 回归、矩阵分解和LDA。
当在Hadoop上运转Vowpal Wabbit时,有以下优化学工业机械制:

  • 懒惰初步化:在开展All Reduce早前,可将一切数额加载到内部存款和储蓄器中并开展缓存。纵然某少年老成节点现身了不当,也足以因而在其它一个节点上行使不当节点的多寡(通过缓存来收获)来三番两次锻练。
  • Speculative Execution:在广大集群在这之中,少年老成三个超级慢的Mapper会影响整个Job的质量。Speculative Execution的思维是当大多数节点的任务完毕时,Hadoop能够将剩余节点上的天职拷贝到其余节点实现。

 

支出语言:C++
GitHub项目地址:https://github.com/JohnLangford/vowpal_wabbit

14. Ruby Warrior

透过两全了贰个游乐使得Ruby语言和人工智能学习更是有意趣和互相起来。
使用者扮演了多个勇士通过爬上意气风发座高塔,达到顶层获取高昂的红宝石(Ruby)。在每意气风发层,必要写四个Ruby脚本引导战士制伏敌人、营救俘虏、到达楼梯。使用者对每生龙活虎层都有局地认知,不过你永世都不领悟每层具体会生出怎么着状态。你必得给战士丰富的人造智能,以便让其机动物检疫索应对的章程。
勇士的动作相关API:

  • Warrior.walk: 用来调控勇士的位移,暗中同意方向是往前;

  • warrior.feel:使用勇士来感知前方的景况,比如是空格,照旧有怪物;

  • Warrior.attack:让勇士对怪物实行抨击;

  • Warrior.health:获取勇士当前的生命值;

  • Warrior.rest:让勇士安息一回合,复苏最大生命值的一成。

Brain是JavaScript中的神经网络库。

硬汉的感知API:

  • Space.empty:感知前方是或不是是空格;

  • Space.stairs:感知前方是否是楼梯;

  • Space.enemy: 感知前方是还是不是有怪物;

  • Space.captive:感知前方是不是有俘虏;

  • Space.wall:感知前方是不是是墙壁。

 

支出语言:Ruby
GitHub项目地址:https://github.com/ryanb/ruby-warrior

6. Keras

15. XGBoost

XGBoot是统筹为高速、灵活、可移植的优化遍布式梯度 Boosting库。它落成了 Gradient Boosting 框架下的机械学习算法。XGBoost通过提供互相树Boosting(也被称之为GBDT、GBM),以大器晚成种高效且正确的办法解决了无数数码准确难题。相同的代码能够运作在巨型布满式情形如Hadoop、SGE、MP上。它近似于梯度上涨框架,不过越来越便捷。它兼具线性模型求解器和树学习算法。
XGBoot最少比现存的梯度回升达成存最少10倍的升官,同时还提供了三种对象函数,满含回归、分类和排序。由于它在前瞻品质上的无敌,XGBoot成为多数竞技的卓绝采用,其还具有做交叉验证和发掘主要变量的额外功效。
值得注意的是:XGBoost仅适用于数值型向量,由此在应用时索要将富有其余花样的数额转变为数值型向量;在优化模型时,那些算法还会有非常多的参数必要调节。

付出语言:C++
开源许可:Apache-2.0 license
GitHub项目地址:

GitHub项目地址:

16. GoLearn

GoLearn 是Go 语言中“功用齐全”的机器学习库,轻松性及自定义性是其开辟指标。
在装置 GoLearn 时,数据作为实例被加载,然后能够在其上操作矩阵,并将操作值传递给猜想值。GoLearn 完毕了Fit/Predict的Scikit-Learn界面,由此客商可轻便地由此一再试验置换出推测值。其它,GoLearn还包罗用于数据的帮助作用,比如交叉验证、练习以至爆裂测量检验。

支付语言:Go
GitHub项目地址: 

17. ML_for_Hackers

ML_for_哈克ers 是本着骇客机器学习的代码库,该库包涵了有着针对黑客的机械学习的代码示例(二零一二)。该代码大概和文中出现的并不完全相仿,因为自出版以来,恐怕又增加了附加的评释和修正部分。
怀有代码均为Odyssey语言,借助广大的奥迪Q5程序包,涉及大旨包罗分类(Classification卡塔尔国、排行(Ranking卡塔尔、甚至回归(Regression卡塔尔国的全数大范围的职务和主成分深入分析(PCAState of Qatar和多维尺度(Multi-dimenstional Scaling卡塔尔(قطر‎等计算划办公室法。

开采语言:宝马X3
开源许可:Simplified BSD License
GitHub项目地址: 

Keras是非常轻巧并中度模块化的神经互联网库,在TensorFlow或Theano上都能够运维,是叁个冲天模块化的神经网络库,援助GPU和CPU运算。

18. H2O-2

H2O使得Hadoop能够做数学生运动算!它能够透过大数据权衡总计数据、机器学习和数学。H2O是可扩充的,顾客能够在中央区域使用简便的数学模型创设立模型块。H2O保留着与Portofino、Excel 和JSON等相似佛的熟习的界面,使得大数据爱好者及读书人们可由此使用一文山会海由轻便到高等的算法来对数据集实行探寻、转变、建立模型及评分。搜罗数据很简短,但评判难度却非常的大,而H2O却因此更敏捷、更优化的预测模型,能够更进一层简明便捷地从数额中拿到深切见解。
0xdata H2O的算法是面向业务流程——欺骗或动向远望。Hadoop专家能够动用Java与H2O相互作用,但框架还提供了对Python、PAJERO以致Scala的包扎。

付出语言:Java
GitHub项目地址: 

7. CNTK

19. neon

neon 是 Nervana 基于 Python 语言的深度学习框架,在多数大规模的深层神经网络中都能够得到较高的性质,譬如亚历克斯Net、VGG 只怕GoogLeNet。在筹算 neon 时,开辟者丰硕酌量了之类效果:

  • 支撑常用的模型及实例,比如 Convnets、 MLPs、 奥迪PB18NNs、LSTMs、Autoencoders 等,此中不菲预锻炼的兑现都能够在模型库中发觉;
  • 与迈克斯韦GPU中fp16 和 fp32(基准卡塔尔国 的nervanagpu 内核紧密集成;
    • 在Titan X(1 GPU ~ 32 hrs上可完全运会作)的亚历克斯Net上为3s/macrobatch(3072图像);
    • 飞速印象字幕模型(速度比基于 NeuralTalk 的CPU 快200倍)。
  • 协理宗旨活动微分;
  • 框架可视化;
  • 可沟通式硬盘后端:三遍编写代码,然后配置到 CPU、GPU、也许 Nervana 硬盘。

在 Nervana中,neon被用来缓和客商在多少个域间存在的各类难题。

支付语言:Python
开源许可:Apache-2.0 license
GitHub项目地址: 

GitHub项目地址:

20. Oryx 2

开源项目Oryx提供了简短且实时的宽广机器学习、预测深入分析的根底设备。它可达成部分常用于生意利用的算法类:合营式过滤/推荐、分类/回归、集群等。别的,Oryx 可使用 Apache Hadoop 在左近数据流中创造模型,还足以经过HTTP REST API 为这几个模型提供实时查询,同期随着新的数据持续注入,能够接近地自动更新模型。这种总结了总括层和服务层的双重设计,能够分别达成二个拉姆da 构造。模型在PMML格式调换。

bb电子糖果派对 7

Oryx本质上只做两件事:建立模型和为模型服务,那就是总结层和服务层五个单身的风姿洒脱部分各自的职责。总括层是离线、批量的历程,可从输入数据中确立机器学习模型,它的经纪收益在于“代”,就可以使用某一点处输入值的快速照相建模,结果就是随着连续失败入的丰裕,任何时候间生成一形形色色输出;服务层也是叁个基于Java短时间运维的服务器进度,它公开了REST API。使用者可从浏览器中访问,也可接收别的能够发送HTTP央求的言语或工具举办访问。
Oryx的一贯不是机器学习算法的程序库,Owen关心的显要有八个:回归、分类、集群和合作式过滤(也等于推荐)。在这之中推荐系统非常走俏,欧文正在与多少个Cloudera的客商协作,帮他们运用Oryx铺排推荐系统。

支出语言:Java
GitHub项目地址: 

21. Shogun

Shogun是三个机器学习工具箱,由Soeren Sonnenburg 和Gunnar Raetsch(创制,其根本是大规格上的基本学习方法,极度是协理向量机(SVM,Support Vector Machines)的学习工具箱。它提供了叁个通用的三番两次到多少个例外的SVM实现方式中的SVM对象接口,如今发展最早进的LIBSVM和SVMlight 也坐落中间,每一个SVM都得以与种种根基相结合。工具箱不仅仅为常用的内核程序(如线性、多项式、高斯和S型核函数)提供了急忙的兑现路线,还自带了有个别近年来的字符串内核函数,举例局地性的改正、Fischer、TOP、Spectrum、加权度内核与移动,后来立见成效的LINADD优化内核函数也风华正茂度完结。
另外,Shogun还提供了动用自定义预计算内核职业的大肆,在那之中多个十分重要特色正是能够透过八个子内核的加权线性组合来构造的结合核,每一种子内核不供给专门的学问在同贰个域中。通过使用多水源学习可见最优子内核的加权。
一时一刻Shogun可以减轻SVM 2类的归类和回归难题。其余Shogun也加多了了像线性决断剖析(LDA)、线性规划(LPM)、(内核)感知等多量线性方法和有些用以练习隐马尔可夫模型的算法。

付出语言:C/C++、Python
许可协议:GPLv3 
GitHub项目地址: 

CNTK(Computational Network Toolkit State of Qatar是一个会集的深浅学习工具包,该工具包通过八个有向图将神经互联网描述为后生可畏多元计算步骤。

22. HLearn

HLearn是由Haskell语言编写的高品质机器学习库,近日它对随便维度空间有所最快最近邻的兑现算法。
HLearn一样也是多少个研究型项目。该品种的研商对象是为机械学习钻井“最棒或者”的接口。那就关系到了多少个相互矛盾的渴求:该库应该像由C/C++/Fortran/Assembly开辟的尾巴部分��那样运维高效;相同的时候也理应像由Python/奥迪Q5/Matlab开采的高等库那样灵活多变。Julia在这里个主旋律上收获了心里还是惊恐的上进,但是HLearn“野心”越来越大。更值得注意的是,HLearn的对象是比低等语言速度越来越快,比高档语言更是灵活。
为了落实那意气风发对象,HLearn采取了与行业内部学习库完全两样的接口。在HLearn中H代表着五个不等的定义,那八个概念也是HLearn设计的主干要求:

  • H代表Haskell。机器学习是从数据中预测函数,所以功能性编制程序语言适应机器学习是一心说的通的。但功效性编制程序语言并没分布应用于机器学习,那是因为它们固来缺少支撑学习算法的敏捷数值计算技艺。HLearn通过利用Haskell中的SubHask库得到了迅猛数值总计能力;

  • H同临时候代表着Homomorphisms。Homomorphisms是空洞代数的基本概念,HLearn将该代数结构用于学习种类中;

  • H还代表着History monad。在开采新的学习算法进度中,最为困难的职分之生机勃勃就是调弄收拾优化进程。在此之前,是未曾主意减轻调节和测验进度的职业量的,但History monad正在试图减轻该难题。它能够令你在整个线程优化代码的长河中无需修改原代码。别的,使用该工夫时从没扩展别的的运转费用。

 

支出语言:Haskell
GitHub项目地址:

8. Convnetjs

23. MLPNeuralNet

MLPNeuralNet是贰个针对iOS和Mac OS系统的迅猛多层感知神经网络库,可经过已锻练的神经互联网预测新实例。它选取了向量运算和硬盘加快效能(假诺可用),其确立在苹果公司的加快框架之上。

bb电子糖果派对 8

若您曾经用Matlab(Python或LAND)设计了三位展览馆望模型,并期望在iOS应用程序加以运用。在此种状态下,赶巧要求MLP NeuralNet,而MLP NeuralNet只好加载和平运动转前向传播形式的模子。MLP NeuralNet 有如下多少个特征:

  • 分拣、多类分类以至回归输出;
  • 向量化完毕方式;
  • 双精度;
  • 多重隐含层数或空(那时候一定于逻辑学/线性回归)。

 

支出语言:Objective-C
许可左券:BSD license
GitHub项目地址: 

GitHub项目地址:

24. Apache Mahout

Mahout 是Apache Software Foundation(ASF) 旗下的四个开源项目,提供部分可扩充的机器学习园地卓越算法的落到实处,目的在于救助开采人士越发方便迅速地创造智能应用程序。Mahout包罗众多完毕,包蕴聚类、分类、推荐过滤、频仍子项开掘。其它,通过利用 Apache Hadoop 库,Mahout 能够使得地增至云中。Apache Mahout项目标靶子是白手立室三个能够飞速成立可扩充、高质量机器学习应用的条件。
纵然如此在开源领域中相对比较年轻,但 Mahout 已经提供了汪洋意义,非常是在集群和 CF 方面。Mahout 的要害特征包涵:

  • Taste CF,Taste是SeanOwen在SourceForge上提倡的三个针对性CF的开源项目,并在2010年被捐募Mahout;
  • 一些辅助 Map-Reduce 的集群完毕满含 k-Means、模糊 k-Means、Canopy、Dirichlet 和 Mean-Shift;
  • Distributed Naive Bayes 和 Complementary Naive Bayes 分类实现;
  • 本着进步编程的布满式适用性效能;
  • Matrix 和矢量库。

选择 Mahout 还可完结内容分类。Mahout 方今支撑二种依据贝氏总结来促成内容分类的办法:第生龙活虎种艺术是应用简便的支撑 Map-Reduce 的 Naive Bayes 分类器;第三种情势是 Complementary Naive Bayes,它会尝试改进Naive Bayes方法中的一些题目,同有的时候候还能够维持轻便性和进度。

支出语言:Java
许可公约:Apache
GitHub项目地址: 

25. Seldon Server

Seldon是贰个开放式的展望平台,提供内容建议和平日的作用性预测。它在Kubernetes集群内运营,因而得以调配到Kubernetes范围内的任生机勃勃地址:内部安插或云安顿(举例,AWS、谷歌(Google卡塔尔国云平台、Azure)。别的,它还是能权衡大型集团安装的急需。

付出语言:Java
GitHub项目地址: 

ConvNetJS是利用Javascript完毕的神经网络,同一时候还具有特别精确的依赖浏览器的德姆o。

26. Datumbox - Framework

Datumbox机器学习框架是用Java编写的三个开源框架,该框架的带有多量的机械学习算法和总计划办公室法,并能够管理大尺寸的数额集。
Datumbox API提供了海量的分类器和自然语言管理服务,能够被使用在众多天地的采取,包涵了心绪解析、话题分类、语言检验、主观解析、垃圾邮件检查评定、阅读评估、关键词和文书提取等等。近来,Datumbox全数的机器学习服务都可以由此API获取,该框架能够让客户连忙地付出和谐的智能应用。前段时间,基于GPL3.0的Datumbox机器学习框架已经开源並且可以从GitHub上开展下载。
Datumbox的机械学习平台异常的大程度上业已能够替代普通的智能应用。它具犹如下多少个赫赫有名的助益:

  • 强硬而且开源。Datumbox API使用了刚劲的开源机器学习框架Datumbox,使用其入骨可相信的算法能够高效地创设立异的使用;
  • 轻易使用。平台API拾贰分便于使用,它使用了REST&JSON的本领,对于具备的分类器;
  • 敏捷选取。Datumbox去掉了那么些很花时间的繁杂机器学习操练模型。客户能够因而平台直接采纳分类器。

Datumbox首要能够利用在几个地点:三个是应酬媒体的监视,评估客户意见可以预知通过机器学习解决,Datumbox能够协理客户营造筑组织调的对峙媒体监视工具;第二是探寻引擎优化,当中年耄耋之年大有效的点子正是文书档案中驷不比舌术语的固定和优化;第三点是品质评估,在在线报纸发表中,评估客户发生内容的材质对于去除垃圾邮件是特别重大的,Datumbox能够活动的评分何况核查那么些剧情;最终是文件解析,自然语言管理和文件拆解分析工具拉动了英特网多量使用的发生,平台API能够相当轻巧地拉拉扯扯客商实行那几个解析。

支付语言:Java
许可合同:Apache License 2.0
GitHub项目地址: 

9. Pattern

27. Jubatus

Jubatus库是一个运行在布满式情形中的在线机器学习框架,即面向大数目数据流的开源框架。它和Storm某些相近,但能够提供更加多的法力,首要功用如下:

  • 在线机器学习库:包涵分类、聚合和推荐介绍;
  • Fv_converter: 数据预管理(用自然语言);
  • 在线机器学习框架,扶助容错。

Jubatus感觉以往的数码解析平台应该并且向三个趋向进行:管理越来越大的多少,深档期的顺序的分析和实时管理。于是Jubatus将要线机器学习,分布式总计和随机算法等的优势整合在协作用于机器学习,并协助分类、回归、推荐等大旨要素。依据其设计指标,Jubatus有如下的特点: 

  • 可扩展:协理可扩充的机械学习处理。在普通硬件集群上拍卖数量速度高达100000条/秒; +实时总计:实时深入分析数据和换代模型;
  • 深档期的顺序的数据深入分析:协助各样解析计算:分类、回归、总括、推荐等。

如果有依靠流数据的机器学习方面包车型客车要求,Jubatus值得关心。

开垦语言:C/C++
许可公约:LGPL
GitHub项目地址: 

GitHub项目地址:

28. Decider

Decider 是另一个 Ruby 机器学习库,兼具灵活性和可扩充性。Decider内置了对纯文本和UKoleosI、填充词汇、结束词删除、字格等的支撑,以上那个都足以相当的轻便地在甄选中组成。Decider 可支撑Ruby中别的可用的储存机制。如若你欢快,能够保存到数据库中,达成布满式分类。
Decider有多少个标准,也兼作合蓬蓬勃勃测量试验。那一个都以期限运转并用以查明CPU和RAM的瓶颈。Decider能够拓宽大量数学生运动算,计算卓殊密集,所以对进程的渴求比较高。那是一时利用Ruby1.9和JRuby测量试验其总括速度。别的,客户的数据集应该完全在内存中,不然将会遇见麻烦。

 

 

日前,Google 开源了 TensorFlow(GitHub),此举在深度学习园地影响庞大,因为 Google 在人工智能领域的研究开发收获颇丰,有着足够的颜值储备,何况 Google本身的 Gmail 和搜求引擎都在行使机动研究开发的深浅学习工具。

确实,来自 谷歌(Google卡塔尔(قطر‎ 武器库的 TensorFlow 必然是开源深度学习软件中的歌唱家成品,登录 GitHub 当天就成为最受关切的项目,当周收获评星数就自在高出 1 万个。

bb电子糖果派对 9

对于期待在利用中组成深度学习效果的开辟者来讲,GitHub 上其实还会有相当多不易的开源项目值得关注,首先大家引入近年来范围人气最高的 TOP3:

一、Caffe。源自加利福尼亚州Berkeley分校的 Caffe 被布满应用,包蕴 Pinterest 那样的 web 大户。与 TensorFlow 雷同,Caffe 也是由 C++ 开荒,Caffe 也是 谷歌 二零一五年早些时候公布的 DeepDream 项目(能够分辨小猫的人工智能神经网络)的根底。

二、Theano。2009年名落孙山于卡拉奇理教院,Theano 派生出了大量纵深学习 Python 软件包,最显赫的不外乎 Blocks 和 Keras。

三、Torch。Torch 诞生已经有十年之久,可是真正起势得益于二零一八年 脸谱(TWTHighlander.US卡塔尔国 开源了汪洋 Torch 的纵深学习模块和扩充。Torch 其余二个异样之处是使用了稍微流行的编程语言 Lua(该语言曾被用来开采视频游戏)。

除此之外以上三个相比较成熟谙名的花色,还会有许多有特色的纵深学习开源框架也值得关怀:

四、Brainstorm。来自Switzerland智能AI实验室 IDSIA 的一个要命发展前途十分不错的吃水学习软件包,Brainstorm 能够管理上百层的特级深度神经网络——所谓的公路互联网 Highway Networks。

五、Chainer。来自一个扶桑的深度学习创办实业公司Preferred Networks,二〇一两年 6 月揭橥的一个 Python 框架。Chainer 的准备基于 define by run 原则,也正是说,该网络在运作中动态定义,并不是在运营时定义,这里有 Chainer 的详细文书档案。

六、Deeplearning4j。 看名就能够猜到其意义,Deeplearning4j 是”for Java”的纵深学习框架,也是第三个商用等第的深度学习开源库。Deeplearning4j 由创办实业集团 Skymind 于 二〇一六 年 6 月公布,使用 Deeplearning4j 的美妙绝伦埃森哲、雪Fran、博斯咨询和 IBM 等大拿公司。

DeepLearning4j 是二个面向生产条件和小购买贩卖利用的高成熟度深度学习开源库,可与 Hadoop 和 Spark 集成,即插即用,方便开采者在 APP中急忙集成深度学习效果,可选用于以下深度学习园地:

· 人脸/图像识别

· 语音寻觅

· 语音转文字(Speech to text)

· 垃圾消息过滤(至极侦测)

· 电商诈欺侦测

七、Marvin。是Prince顿学院视觉工作组新临蓐的 C++ 框架。该团伙还提供了贰个文件用于将 Caffe 模型转变成语 Marvin 宽容的情势。

八、ConvNetJS。那是加州Davis分校大学学士生 安德雷j Karpathy 开垦浏览器插件,基于万能的 JavaScript 能够在您的游历器中练习神经网络。Karpathy 还写了三个 ConvNetJS 的入门教程,以致七个简单的浏览器演示项目。

九、MXNet。出自 CXXNet、Minerva、Purine 等档期的顺序的开辟者之手,主要用 C++ 编写。MXNet 重申坚实内存使用的效用,以至能在智能手提式有线电话机上运转诸如图像识别等职责。

十、Neon。由创办实业公司 Nervana Systems 于今年满月开源,在有些原则测量试验中,由 Python 和 Sass 开垦的 Neon 的测量检验战表以至要优于 Caffeine、Torch 和Google的 TensorFlow。

Pattern是Python的多个Web发现模块。

10. NuPIC

GitHub项目地址:

上一篇:没有了
下一篇:没有了
友情链接: 网站地图
Copyright © 2015-2019 http://www.tk-web.com. bb电子糖果派对有限公司 版权所有