业内知名数据科学网站KDnuggests昨日评选出《4月你不能忽视的5个机器学习项目》。您可能没有听说过它们,但您可能会考虑立即开始使用。至于不同生态、不同编程语言的工具——对于高手来说,即使没有使用的必要,学习他们的代码执行,也能为自己的产品开发带来不少灵感。1.Scikit-plot一群缺乏艺术功底的数据科学家突然恐惧地意识到,可视化是数据科学中最关键的东西之一,而不仅仅是加分项。这导致了Scikit-plot的诞生。“我注意到Scikit-plot是因为我在Reddit上看到了它的作者的一篇帖子,几乎立即就把它捡起来了,”KDnuggests的副主编MatthewMayo说,KDnuggests是一个旨在为Scikit-learn用户提供一套标准、实用图表的项目.这包括:弯头图特征重要性图PCA投影图ROC曲线轮廓图Scikit-plot库有两个API,其中一个与Scikit-learn紧密集成以控制对其API(工厂API)的调用。另一个更传统(FunctionsAPI)。但是任何一个都应该足以满足您的使用需求。它的快速入门指南在这里。2.Scikit-featureScikit-feature是一个开源的Python特征选择资源库,由亚利桑那州立大学数据挖掘与机器学习实验室开发。它基于scikit-learn、Numpy和Scipy。Scikit-feature内置了大约40种常用的特征选择算法,包括传统算法和一些结构化和流式特征选择算法。所有的特征选择方案都有一个共同的目标:找到冗余和不相关的特征。这是一个相当热门的研究领域,针对它的算法数不胜数。Scikit-feature不仅适用于实际的特征选择工程,也适用于算法研究。有关它支持的算法列表,请单击此处。一位名叫RubensZimbres的数据科学家曾经说过:“在获得经验并尝试各种事物(例如堆叠神经网络、并行神经网络、非对称配置、简单神经网络、多层、dropout、激活函数等)之后,我得出了一个结论:就效果而言,没有什么比好的特征选择更好的了。”3.SmileSmile(StatisticalMachineIntelligenceandLearningEngine)是一个快速而全面的机器学习系统。得益于先进的数据结构和算法,Smile拥有最好的性能。Smile涵盖了机器学习的方方面面,包括分类、回归、聚类、关联规则挖掘、特征选择、流形学习、多维尺度分析(MDS)、遗传算法、缺失值插补、最近邻搜索等等。对于使用Java和Scala的开发者来说,Smile是目前最适合的机器学习库。您可以将其视为JVMScikit-learn。该项目有非常全面的官方教程,地址:http://haifengl.github.io/smile/。本教程不仅涵盖了Smile的使用技巧,还是非常优质的机器学习算法入门资料。如果你用JVM开发机器学习,Smile绝对值得一试。事实上,如果你在这个生态系统中并且没有听说过Smile,那它就是一个轶事。4.GensimGensim是一个Python算法库,用于大型语料库中的主题建模、文档索引和相似性检索。目标受众是自然语言处理和信息检索社区。Gensim是一个多面手,以完整性为目标。据其开发团队介绍,它为“潜在语义分析(LSA/LSI/SVD)、潜在狄利克雷分配(LDA)、随机投影(RP)、分层狄利克雷过程(HDP)或word2vec深度学习。”Gensim的文档在这里。KDnuggets之前为初学者发布了使用Gensim进行主题建模的教程,请单击此处。5.Sonnet本月初,DeepMind在官方博客上公布了开源Sonnet的消息。雷锋网最新报道:DeepMind发布Sonnet,助你用TensorFlow快速搭建神经网络。DeepMind在博客中表示:“对于TensorFlow,自2015年底开源以来,围绕它快速发展了一个由高级算法库组成的多样化生态系统。这些高级工具让常见任务更容易、更快地完成,这极大地节省了开发者的时间和精力。作为生态的新成员,Sonnet也一样,它与现有的神经网络算法库有很多相似之处,但有些功能是专门为DeepMind的研究需求而设计的。”Sonnet是一个基于TensorFlow的高级算法库。DeepMind承认它与现有的一些产品类似,但集成了DeepMind研究的必要功能和特性,例如允许特定模块运行在随机聚合的Tensor组上:“RNN的状态最适合异构Tensor将它们表示为集合,并将它们表示为平面列表很容易导致错误。Sonnet提供了处理这些随机层次结构的能力,因此将您的实验更改为使用另一个RNN不需要繁琐的代码更改。DeepMind对CoreTensorFlow进行了修改以更好地支持这一点用例。”***,希望这篇文章能帮到你。让你知道一些你以前没有听说过的算法库,或者你没有意识到你实际需要的功能。
