开源是技术创新和快速发展的核心。这篇文章向您展示了Python机器学习开源项目以及在分析过程中发现的非常有趣的见解和趋势。我们分析了GitHub上排名前20的Python机器学习项目,发现scikit-Learn、PyLearn2和NuPic是贡献最活跃的项目。让我们一起探索Github上的这些热门项目吧!1Scikit-learn:Scikit-learn是基于Scipy构建的用于机器学习的Python模块。它具有多种分类、回归和聚类算法,包括支持向量机、逻辑回归、朴素贝叶斯分类器、随机森林、梯度提升、聚类算法和DBSCAN。并且还设计了Python数值和科学库Numpy和Scipyhttps://github.com/scikit-learn/scikit-learn2Pylearn2:Pylearn是一个基于Theano的库程序,可以简化机器学习研究。https://github.com/lisa-lab/pylearn23NuPIC:NuPIC是一个以HTM学习算法为工具的机器智能平台。HTM是Cortex的一种精确计算方法。HTM的核心是基于时间的连续学习算法和存储和调用的时空模式。NuPIC适用于各种各样的问题,尤其是流数据源的异常检测和预测。https://github.com/numenta/nupic4Nilearn:Nilearn是一个Python模块,可实现神经影像数据的快速统计学习。它使用Python语言的scikit-learn工具箱和多个用于多元统计的预测建模、分类、解码和连接分析的应用程序。https://github.com/nilearn/nilearn5PyBrain:Pybrain是基于Python的语言强化学习、人工智能和神经网络库的简称。它的目标是提供灵活、易于使用且功能强大的机器学习算法,并在预定义的环境中执行各种测试以比较您的算法。https://github.com/pybrain/pybrain6Pattern:Pattern是Python语言的网络挖掘模块。它提供用于数据挖掘、自然语言处理、Web分析和机器学习的工具。它支持向量空间模型、聚类、支持向量机和感知器,并使用KNN分类法进行分类。https://github.com/clips/pattern7Fuel:Fuel为您的机器学习模型提供数据。它有一个共享数据集的界面,如MNIST、CIFAR-10(图像数据集)、Google的十亿词(文本)。您可以使用它以多种方式替换您自己的数据。http://www.github.com/mila-udem/fuel8Bob:Bob是一个免费的信号处理和机器学习工具。它的工具箱是用Python和C++共同编写的。它旨在提高效率并缩短开发时间。它由大量处理图像工具、音视频处理、机器学习和模式识别的软件包组成。的。www.github.com/idiap/bob9Skdata:Skdata是一个用于机器学习和统计的数据集库。该模块为玩具问题、流行的计算机视觉和自然语言数据集提供标准的Python语言用法。www.github.com/jaberg/skdata10MILK:MILK是Python语言的机器学习工具包。它主要使用许多可用分类中的监督分类方法,例如SVMS、K-NN、随机森林和决策树。它还执行特征选择。这些分类器以多种方式组合形成不同的分类系统,例如MILK支持的无监督学习、affinitygoldpropagation、K-meansclustering等。www.github.com/luispedro/milk11IEPY:IEPY是一个专注于关系抽取的开源信息抽取工具。它主要面向需要对大型数据集进行信息提取的用户和想要试验新算法的科学家。www.github.com/machinalis/iepy12Quepy:Quepy是一个Python框架,用于通过转换自然语言问题在数据库查询语言中进行查询。可以简单定义为自然语言和数据库查询中不同类型的问题。因此,您可以构建自己的系统,无需编码即可使用自然语言输入数据库。现在Quepy提供了对Sparql和MQL查询语言的支持。并计划将其扩展到其他数据库查询语言。www.github.com/machinalis/quepy13Hebel:Hebel是一个使用Python语言进行神经网络深度学习的库程序。它使用PyCUDA来加速GPU和CUDA。它是神经网络模型最重要的一类工具,可以为几种不同的活动函数提供激活函数,例如动力学、Nesterov动力学、信号丢失和停止方法。www.github.com/hannes-brt/hebel14mlxtend:这是一个库程序,由用于日常数据科学任务的有用工具和扩展组成。www.github.com/rasbt/mlxtend15nolearn:这个包包含大量实用模块,可以帮助您完成机器学习任务。这些模块中有大量与scikit-learn一起使用,而其他模块通常更有用。www.github.com/dnouri/nolearn16Ramp:Ramp是一个库程序,用于制定解决方案以加速Python语言下机器学习中的原型制作。他是一个轻量级的基于pandas的可插件式机器学习框架。其现有的Python语言的机器学习和统计工具(如scikit-learn、rpy2等)Ramp提供了简单的声明式语法探索功能,能够快速有效地实施算法和转换。www.github.com/kvh/ramp17FeatureForge:一组用于通过兼容scikit-learn的API创建和测试机器学习功能的工具。该库程序提供了一组工具,您可以在许多机器学习程序中使用这些工具。当你使用scikit-learn这个工具的时候,你会觉得自己得到了很大的帮助。(尽管这仅在您使用不同的算法时才有效。)www.github.com/machinalis/featureforge18REP:REP是一种以和谐、可重现的方式指导数据移动驱动程序的环境。它有一个统一的分类器包装器来提供各种操作,如TMVA、Sklearn、XGBoost、uBoost等。它可以在一个群体上以并行方式训练分类器。它还提供了一个交互式情节。www.github.com/yandex/rep19PythonLearningMachineSamples:一组使用亚马逊机器学习构建的简单软件。www.github.com/awslabs/machine-learning-samples20Python-ELM:这是一个基于Python语言scikit-learn的极限学习机的实现。www.github.com/dclambert/Python-ELM
