,即将召开半年会。老板说大家要做好计划。未来我们的方向不再是机器学习,而是人工智能。忘记原话是怎么说的了。只记得当时听着很不舒服,就当场问了一句,什么是机器学习?黑板上画了三个正方形。类似如下:这不是原图,类似这个意思,比较简单的关系。(记忆力真是个不靠谱的东西!)我没当回事。我想到的图就是题图,就索性画在了白板上。大家各抒己见,引来一片笑声。虽然这件事已经过去了,但是作为一个人,我在这种情况下是没有“过去”的,因为我是一个特别纠结于观念的人。回来一查,原来不知道这些名词界限的人还真不少。他们中的许多人是该领域的学者和研究人员。也就是说,即使是专业人士,也有不同的意见,不能相互说服。这太有趣了。是的,甚至还有一篇文章,叫做《Battle of the Data Science Venn Diagrams》[1],这篇文章收集了很多维恩图,不打算一一转载。你可以自己看。挑一些我个人比较感兴趣的图片说说。这张图也是题图。据说是出自SAS在KDD1998*[2]中提供的数据挖掘基础课程中的一张图片。很多分析这些领域的Slides,以及一些技术人员做的PPT,都会引用这张图,因为SAS是全球最大的软件公司之一,是商业智能和数据分析软件的领导者。因此,他们的观点不能说是不权威的。在这张图中,数据挖掘(DataMining)是核心。当然因为这是KDD大会的演讲,所以图片里也有一圈KDD,哈。PatternRecognition和Neurocomputing基本不了解,就不展开讨论了。这张图中有趣的是统计学、机器学习和人工智能(AI)之间的关系。从SAS的角度来看,人工智能完全包含了机器学习的内容,机器学习基本上是人工智能的一个子学科。而统计基本上和这两者没有交集,但仔细看也不是完全没有关系。跟数据库(Databases)的表达完全无关,那是很遥远的,也就是说,机器学习和人工智能跟统计有关系。关系只是一点点,哈!另一张图是从这张图衍生出来的。这张图的作者BrendanTierney查过了,也是业内资深人士。曾在甲骨文工作,现为顾问。Quroa上有很多回答,行业文章,很多参考这张图。这张照片本质上不是。从标题也能看出来,说的是属于自己的边界问题,不过也引发了不少讨论(呵呵)。Brendan在2012年发表了一篇博客[3],2016年回来更新,中间的文氏图是数据挖掘领域很常见的图(不过我没有找到原图)。他随便引用的,他认为是从上图的KDD1998图导出的(但我觉得不是),他加了外圈,表达了他想表达的意思。这张图取消了数据挖掘和模式识别的交集,中间换了数据。可惜加了可视化,真的……2010年有一篇博客[4]引用了这张图,分析了数据科学。数据挖掘和机器学习这三者也值得一看。下面的维恩图定义了什么是数据科学。这幅画是由一个名叫DrewConway的人画的,他是纽约科技界的一个固执己见的人物。维基百科对他的介绍[5],他因画了上图而名声大噪,并被维基百科收录。另一个因素是大数据在恐怖主义研究中的应用。当然,画这张图还是排在研究恐怖主义之前,你看得懂吗?据Battle文章介绍,这张图是2010年画的,但2013年才在博客上发表[6]。博客的存档时间和声称的发布时间,确实可以在这两个时间点上看到。据说这是点燃巴特尔的画面,也是巴特尔文字中的第一张图。在这张图片中,有两点让人关注。第一个是专业知识,第二个是危险地带!哈哈,前者的感觉是“草,什么鬼,我不懂英文啊”,后者的感觉是“神秘!”。你不必因为看不懂英语而脸红。战文作者也认为这两个词选得不好。例如physics),他把SubstantiveExpertise这个名字选的很差。)当然,还有一个很重要的可能,那就是我们当中没有一个人像康威哥那样受过教育,他的另一个身份是博士。纽约大学政治学博士!所以没有文化的技术民工把康威哥的头像改得有点可爱[7]。我觉得这张图有点多嘿嘿。当然,值得肯定的是,在我4级的英语能力下,三个圈子确实比较容易理解。但是数据科学到底是怎么从中心移除的呢?放在中间的到底是什么?出色地。“数理统计知识”被“定量方法”取代?“黑客能力”被“计算机科学”取代?从这两种替换方式来看,基本可以判断是替换了第三种,而高明哪里也没去,所以这老头因为这张图没有被维基百科收录。问号据说是危险区域不能接受的,所以换成了问号。看看大师的照片[8]。干脆加个圈子叫Evil(魔鬼?),当然鬼英文也不少,看不懂,难不成邦德哥也来客串了?又或者是他沉迷于数据科学领域的Battle,束手无策。这张图也出自那篇文章。这张照片是最贴切的一张。大数据、数据挖掘、机器学习、人工智能都提到了,应该是题图吧!(我也很无奈)[9]。我觉得这张图提供了一个看问题的新视角。在康威哥那幅名画里,那些比较主观和模糊的东西都被砍掉了,留下客观的、数据相关的、技术相关的相关的东西,几个名词,确实可以在一个层次上进行比较。这篇文章声称可以解决部分大难题。文章识别了几个术语的一些含义和简要历史,还提供了另一张我非常喜欢的图片。老实说,这是迄今为止我最喜欢的照片。它不仅提供了作者对概念的内涵和外延的解释,还解释了不同概念之间的功能关系。真的很棒!还有一篇文章我也很喜欢,比如这篇[10],区分了机器学习和统计学的异同。文章认为统计学和机器学习都有相同的目标(在这方面我们正在讨论),就是“我们能从数据中学到什么”,不同的是两者的方法不同。本文也引用了题图。文中引用的一个观点认为,机器学习方法不需要任何预先假设,不关心各种变量的内在联系,只要把一个脑袋投入到算法中,算法更像是一个黑盒子。您拥有的数据越多,您的预测就越好。机器学习方法通??常应用于一些高维数据集。而统计,要特别注意数据的收集方式和样本各种属性的分布。您必须确切地知道您在做什么以及那里有哪些变量可以提供预测能力。统计方法通常应用于低维数据集。当然,结合目前的工作,不难发现,虽然我们使用了机器学习的方法,但是我们非常关注统计所需要的领域,同时我们也关注数据的获取方式,属性的分布特征,等等。因此,正如文章的结论一样,两者的区别越来越小,未来可能会越来越难以区分。(而且这半句话是我加的,我想工业界都会这样)还有一张图,我也很喜欢。这张图介绍了机器学习的全过程[11]。我认为这也很重要。总结基本上,数据科学学科所涵盖内容的界限是模糊的。对于一门新兴学科,这一点也不奇怪。我们有一点可以肯定,这是一门综合性很强的交叉学科。大数据也是一个广义的概念。机器学习和深度学习在内涵和外延上都是比较明确的概念,公认存在包含关系。人工智能是一个更大的范畴,但人工智能、大数据、数据科学不是一回事。[1]数据科学维恩图之战,http://www.prooffreader.com/2016/09/battle-of-data-science-venn-diagrams.html[2]向后看,向前看:SAS,数据挖掘和机器学习,https://blogs.sas.com/content/subconsciousmusings/2014/08/22/looking-backwards-looking-forwards-sas-data-mining-and-machine-learning/[3]Data科学是多学科的,http://www.oralytics.com/2012/06/data-science-is-multidisciplinary.html[4]数据科学、机器学习和数据挖掘的区别,https://www.datasciencecentral.com/profiles/blogs/difference-of-data-science-machine-learning-and-data-mining[5]https://en.wikipedia.org/wiki/Drew_Conway[6]数据科学维恩图,http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram[7]商业中的数据科学/学术界中的计算社会科学?http://giventhedata.blogspot.ca/2013/03/data-science-in-businesscomputational.html[8]http://joelgrus.com/2013/06/09/post-prism-data-science-venn-diagram/[9]数据科学难题,解释,https://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html[10]http://www.edvancer.in/machine-learning-vs-statistics/[11]https://imarticus.org/what-is-machine-learning-and-does-it-matter/[*]KDDisSIGKDD简写,知识发现和数据挖掘特别兴趣小组(SIG)
