当前位置: 首页 > 科技观察

三种理解贝叶斯定理的数据科学决策方法_0

时间:2023-03-11 23:29:44 科技观察

译者|朱宪忠审稿人|孙淑娟1.引言考虑我们先前信念的强度。使用贝叶斯定理,您可以尝试回答以下问题:根据新证据,我的假设有多大可能?在本文中,我们将讨论贝叶斯定理改进数据科学实践的三种方式:更新通信分类到本文结束时,我相信您会对贝叶斯定理涉及的基本概念有扎实的理解。2.方法1:更新贝叶斯定理提供了一种检验假设的结构,同时考虑了先前的假设和新证据的强度,这一过程称为贝叶斯更新。贝叶斯定理:其中A表示假设,B表示与假设相关的新证据换句话说,这个公式是“给定B,A发生的概率等于给定A时B发生的概率乘以A的概率由B发生的概率发生。”让我们更深入地研究一下这个公式(注意它包含随机变量的定义):“基于新证据做出假设的概率等于新证据为真的概率(假设假设成立)乘以在观察到新证据之前假设为真的概率除以新证据为真的概率。”这个表达式可以进一步缩短为:“后验概率等于似然(likelihood)乘以先验概率除以边际似然(marginallikelihood)。”不管贝叶斯定理现在听起来是否直观,我保证你会一直使用它。真实世界的例子假设你的朋友打电话告诉你她很抱歉她今晚不能来吃晚饭。她最近收养了一只宠物考拉感冒和流鼻涕。她真的需要呆在家里并监测考拉的症状。你的假设是你的朋友不会无缘无故地抛弃你。所以,考虑到她的新宠物的最新症状,可能性有多大你的假设成立?为了估计我们的朋友因为照顾考拉而不在家吃饭的后验概率,我们需要考虑你的朋友需要和考拉呆在家里的概率,假设你的朋友是一个正直的人不会无缘无故不吃晚饭的人。你可能会得出这样的结论,一个最好的朋友,通常是负责人,很可能会留在家里照顾宠物。接下来,我们将可能性乘以先验概率。你有多自信你朋友的迪她打电话之前的计划?如果你认为你的朋友坚如磐石,通常不愿意在最后一刻改变计划,那么你的先验概率就很高,而且无论有什么新证据出现,你都不太可能改变这种观点。另一方面,如果你的朋友很脆弱,而你已经在想她是否会打电话取消,那么你的先验概率就很小,这也可能会质疑她关于和考拉呆在家里的说法。最后,我们将上述计算除以您的朋友和考拉待在家里的边际可能性。贝叶斯推理建立在这种灵活的、常识性的方法之上,根据我们先验知识的强度和新证据的可能性来更新我们关于世界的模型。事实上,贝叶斯定理最初的应用是评估上帝的存在。当谈到生命和数据科学中的关键问题时,您不能抨击贝叶斯定理作为评估信念如何随时间变化的直观方法。3.方法2:交流正如贝叶斯定理可以帮助您理解和阐明如何在面对新证据时更新您的理论一样,贝叶斯可以使您成为更强大的数据科学交流者。数据科学从根本上说是一门关于应用数据改进决策制定的科学。“只有两件事决定了你的人生结果:运气和你的决定质量。你只能控制这两件事之一。”-AnneDuke,扑克冠军和作家提高决策质量通常意味着说服决策者。与每个人的情况一样,您组织中的决策者正在参与对话。真实世界的例子我曾经是一家热气球制造商的顾问。我的职责是帮助建立数据库,以提高客户对其供应链、制造流程和销售的端到端了解。第一天,厂长带我们参观了工厂,自豪地描述了一份涉及更轻、更便宜原材料的新供应商合同。但有一个问题。当我的团队连接来自整个企业不同来源的数据表时,我们发现新供应商的材料与2.5%的废料增加之间存在明确的联系。工厂经理有一种非常强烈的预感,即新供应商将有利于他的业务。然而,我们提供了一些相反的证据——我们使用贝叶斯定理,因为我们明白先验越强,改变它就需要越多的证据。在将我们的发现提交给工厂经理之前,我们需要收集一些额外的证据来证明其他因素(例如磨损的机器、新员工、环境条件等)。最后,我们为经理提供了更多证据并帮助他重新谈判供应商合同。4.方法3:分类贝叶斯定理可以应用于文本分析场景,这种技术称为朴素贝叶斯,因为它天真地假设数据集中的每个输入变量(在本例中为每个单词)都是独立的。现实世界的例子假设你找到一堆你祖父母写的信。他们有一段“动荡”的关系,并且有足够的戏剧性浪漫——不仅限于真人秀中年轻人之间发生的那种。您需要构建一个情感分类器来确定大部分内容是正面的还是负面的。一种方法是使用朴素贝叶斯定理。像朴素贝叶斯这样的生成分类器对一个类别(在本例中为正或负)建模;然后它会根据该类别生成一些输入数据。给定一个观察结果(来自字母测试语料库的一个新句子),它返回最有可能产生该观察结果的类别。这与学习输入特征的预测能力的判别模型分类器(例如逻辑回归)形成对比。朴素贝叶斯基于词袋技术。基本思想是将文档转换成直方图,以便统计每个词被使用的次数。您可以使用我们在第1部分中学习的稍微修改过的贝叶斯推理公式来计算每个观察的最可能类别。其实,上面的简单修改就是朴素贝叶斯的朴素部分:即假设每个词在给定类别中的概率是独立的,因此我们可以将它们相乘生成与类别概率“落下”的句子。语音和语言处理公式(作者:DanielJurafsky和??JamesH.Martin)在上面的公式中,wi表示文档c中的单词数。公式的分母是属于给定类别的词的条件概率之和。如果在类别中没有观察到单词,公式中的+1可以防止乘以零的可能性。这种加一的技术称为拉普拉斯平滑。最后,|V|由所有类别中所有单词的并集组成。贝叶斯定理相关词汇后验概率:根据新证据做出假设的可能性。可能性:假设假设为真,证据为真的可能性。先验概率:在新证据可用之前相信假设是正确的。边际可能性:证据。朴素贝叶斯:一种假设数据集特征之间朴素独立性的分类器算法。生成分类器:对特定类建模以确定如何生成输入数据;也就是说,已知类别确定的样本。Bag-of-Words:将文档转换为直方图的简化文本表示。拉普拉斯平滑:一种简单的附加平滑技术,可避免乘以零。5.总结我有一个强烈的先验信念,即贝叶斯定理对数据科学家很有用;但是,我会根据您在评论中给我的反馈更新后验概率。最后,我期待收到您的来信并告诉我您如何在生活和工作中使用贝叶斯定理。原文链接:https://www.kdnuggets.com/2022/06/3-ways-understanding-bayes-theorem-improve-data-science.html译者介绍朱宪忠,51CTO社区编辑,51CTO专家博主,讲师,潍坊大学计算机老师,自由编程的老手。早期专注于各种微软技术(编译成三本与ASP.NETAJX和Cocos2d-X相关的技术书籍)。/ESP32/RaspberryPi等物联网开发技术和Scala+Hadoop+Spark+Flink等大数据开发技术。