当前位置: 首页 > 科技观察

数据骗子无处不在,教你拆解所谓“一刀切”

时间:2023-03-17 01:21:11 科技观察

是不是很玄乎?但要小心别被骗了!在高薪的诱惑下,也隐藏着很多数据骗子,这些骗子败坏了守法数据从业者的好名声。数据骗子非常善于隐藏自己,以致于您甚至可能没有意识到他们的存在。易于识别。第一条线索是他们不了解分析和统计是两个截然不同的学科。不同学科统计学家受训推断数据之外的内容,而分析师受训探索数据集中的内容。换句话说,分析师根据数据中包含的内容得出结论,而统计学家根据数据中未包含的内容得出结论。分析师帮助你提出好的问题(假设生成),而统计学家帮助你得到好的答案(假设检验)。也有一些神奇的“混血儿”,会同时拥有这两种身份……但他们不会同时扮演这两种角色。为什么?数据科学的核心原则是,如果您要处理不确定性,则不能使用相同的数据点进行假设生成和假设检验。当数据有限时,不确定性会迫使您在统计和分析之间做出选择。没有统计数据,就无法知道您刚刚提出的意见是否有效。没有分析,只能摸索前行,几乎不可能掌握未知的未知。这是一个艰难的选择!你是睁开眼睛寻找灵感(分析),发誓放弃知道新发现是否成立的满足感,还是冒着冷汗祈祷你选择问(没有任何数据,一个人在思考中思考的问题)扫帚壁橱)值得他回答(统计数据)的严谨性吗?后见之明“兜售”的小贩骗子通过忽略它并发现薯片和猫王一样长,然后假装对事实感到惊讶而摆脱了这种困境。(统计假设检验的逻辑归结为:我们的数据是否足以让我们惊讶到改变我们的想法。如果我们已经看到它们,我们怎么可能对它们感到惊讶呢?)在你看来,云彩和薯片看起来像兔子还是喜欢猫王?还是喜欢某个总统?说谎者找到一个模式并从中获得灵感,然后用相同的模式测试相同的数据,以便使用一个或两个合理的p值生成验证他们理论的结果,这样做实际上是在愚弄你(可能还有他们自己)。这样的p值没有任何意义,除非在查看数据之前对假设做出承诺。骗子在不理解原因的情况下模仿分析师和统计学家的一举一动,给整个数据科学领域带来了坏名声。真正的统计学家总是谨慎行事因为统计学家在严谨推理方面享有近乎神秘的声誉,所以“万事通”在数据科学领域的涌现率空前高涨。这种欺骗可能不会引起注意,尤其是当毫无戒心的受害者认为这是关于方程式和数字的时候。数据集就是数据集,对吧?不,这取决于您如何使用数据集。这些骗子都带有假货的特征,您只需要一条线索就可以看出他们的真面目:事后诸葛亮的骗子——使用数学重新发现他们已经知道数据中存在的现象——而统计学家提供的是一种有先见之明的测试。与江湖骗子不同,优秀的分析师是思想开放的典范,他们总是将鼓舞人心的见解与提醒人们观察到的现象可能有多种解释相结合,而优秀的统计学家会谨慎地做出你的决定。分析师带来灵感分析师不必掌管一切,他们根据数据中包含的内容得出结论。如果他们想对他们没见过的东西发表看法,那对他们来说就是另一份工作。他们应该摘下分析师的帽子,戴上统计学家的头盔。毕竟,无论您的正式职位是什么,都没有规定您不能从事两种职业。你可以随心所欲地做,只是不要混淆它们。诈骗者如何检验假设擅长统计并不意味着你擅长分析,反之亦然。如果有人告诉你不是这样,你自己想想。如果此人告诉您可以对所研究的数据进行统计推断,请再问问自己。他很有可能是个骗子。隐藏在炒作解释背后如果你在现实生活中观察数据骗子,你会发现他们喜欢编造炒作故事来“解释”观察到的数据:故事听起来越学术越好,并且不在乎他们只是(过度)与事后数据一致。骗子这样做完全是胡说八道。没有任何方程式甚至花言巧语可以弥补这样一个事实,即他们没有证据表明他们知道他们在数据范围之外谈论的内容。不要被他们的炒作解释所迷惑。在统计推断的情况下,他们必须在看到数据之前做出谨慎的决定。相当于炫耀他们的“通灵”能力,偷看你的牌,就能预测出你拿着什么……不管你拿着什么牌,他们都能预测出来。准备好听听他们的花言巧语:您的面部表情如何让他们知道您手中的牌。这是后见之明的偏见,在数据科学中随处可见。分析师说:“这是你刚刚画的立方体皇后。”统计学家说:“在比赛开始之前,我把我的假设写在了这张纸上。我们开始吧,看一些数据,看看我的假设有多好。对吧。”骗子说,“我知道你会做一个方块皇后,因为……”机器学习说,“我会一直提前调用它,看看我做得如何。然后重复再重复。我可能会调整自己的反应以适应有效的策略。但我会用算法来做到这一点,因为手动跟踪这个太烦人了,“当让骗子远离你生活的数据量是太多要处理,你必须在统计和分析之间做出选择。幸运的是,如果你有很多数据,那么你就有很好的机会使用自己的分析和统计而不会被骗。你也可以保护自己免受骗子有一个完美的技巧叫做“数据拆分”,我认为这是数据科学中最强大的想法。为了保护自己免受骗子的侵害,你所要做的就是确保一些测试数据超出他们的范围,并将其他一切视为分析(不要认真对待)。当你面对一个你可能会一心一意地接受,用它来为你做主,然后打开你的秘密测试数据,看看理论是不是狗屁。这是一个巨大的文化转变,从人们习惯的时代到“小数据”时代,你必须以一种轻松的方式解释你如何知道你所知道的——让人们相信你可能确实知道一些事情。这同样适用于机器学习/人工智能。一些伪装成机器学习/人工智能专家的骗子很容易被发现。你可以通过观察他们的本来面目来发现糟糕的工程师:他们反复尝试构建无法交付的“解决方案”。(早期的警告信号是他们缺乏使用行业标准编程语言和库的经验。)但是构建看起来有效的系统的人呢?你怎么知道东西是否可疑?这也一样!诈骗者是阴险的,会使用他们用来制作模型的相同数据向您展示他们的模型有多好。如果你构建了一个极其复杂的机器学习系统,你怎么知道它是否有效?除非你能证明它适用于它以前从未见过的新数据,否则你无法知道。当有足够多的数据可以拆分时,项目就可以在不改变整洁公式的情况下被证明是合理的(这仍然是一种古老的做法,随处可见,而不仅仅是在科学中)。做统计或保持谦虚套用经济学家保罗·萨缪尔森的一句俏皮话:骗子成功预测了过去五次衰退中的九次。我对数据骗子没有耐心。那么“知道”一些看起来像猫王的薯片又如何呢?没人在乎你的看法是否符合原版的“薯片”。不管怎么解释,作者都不为所动。对这个想法的真正考验是看这个理论/模型是否适用(并继续适用)一组全新的前所未见的“芯片”。给数据科学专业人士的建议数据科学专业人士,如果你想被那些理解这里幽默的人认真对待,请停止使用花哨的方程式来支持你的个人偏见。让我们看看你真正的才华。如果您希望您的理论/模型被那些“了解”它们的人视为鼓舞人心的诗歌,那么请继续在他们面前用全新的数据集做一个很棒的演示!给领导者的建议领导者不愿意认真对待任何与数据相关的“洞察力”,除非这些洞察力已经用新数据进行了测试。不想付出努力?继续使用分析,但不要依赖洞察力——它们是脆弱的,而且它们的可信度还没有经过检验。此外,当一家公司拥有大量数据时,将数据分割作为科学文化的核心部分,甚至通过控制对专门用于统计的测试数据的访问,将其应用于基础设施也无妨。这是将万事通扼杀在萌芽状态的好方法!只有当数据太少无法分离时,数据骗子才会严格遵循他们的灵感,从数学上重新发现他们已知存在于数据中的现象,并宣称他们的惊人发现具有统计显着性,事后诸葛亮。这使他们有别于思想开放的分析师和细心的统计学家。当数据充足时,需要养成数据切分的习惯,需要对原始数据堆的不同子集分别进行分析统计。这样你就可以拥有双重优势而不被骗!