当前位置: 首页 > 科技观察

究竟什么时候不应该使用机器学习?

时间:2023-03-18 19:45:16 科技观察

BigDataDigest来源:towardsdatascience作者:lin,Andy很多人犹豫和担心什么时候应该使用机器学习/AI,而作者正是因为各种顾虑,才把经验总结成这篇文章,文摘菌整理了这篇文章,希望大家可以减少顾虑,更好地享受机器学习或者AI的学习之旅。想象一下,您正要开始分析来自临床试验的数据集。为了让大家有沉浸感,我自己做了一个类似的数据:假设这些数据列出了患者在60天疗程内接受治疗的天数(输入特征)和某种疗法的正确剂量(输出预测)之间的对应关系。现在假设您正在治疗一位患者,今天是第二天,您会推荐多少剂量的药物?您肯定会回答“17毫克”,因为它非常简单,白纸黑字。第四天呢?看图表,41毫克?确切地!那么现在,如果您被要求编写一个软件来输出第1-5天的正确剂量怎么办?你会使用机器学习吗?换句话说,你会尝试先在数据中寻找模式,然后将其转化为从输入到输出的模型吗?不,当然不是,只是个傻子!您让软件像以前一样做:只需转到表格并查看结果。这样,您将在全部60天内获得100%的正确答案。无需模式搜索,也无需机器学习。在什么情况下你需要像现在这样的机器学习,第61天怎么样?正确答案是什么?好吧,首先,我们从来没有看到第61天的数据,所以我们无法查找答案。那我们该怎么办呢?是不是运气不好,第61天没有数据?或者我们应该专注于机器学习?这取决于实际情况。如果输入和输出之间没有模式可言,那就忘掉机器学习吧。遇到这种情况,基本上就很难办了……如果你觉得机器学习可以搞定,那就赶快放弃这个想法吧!那么什么时候可以考虑机器学习呢?首先,你必须找到有用的模式:如果数据中有一个模式(比如是否),并且你可以发现它,然后尝试用它来预测或猜测第61天的结果。这就是机器学习派上用场的地方。第二,schema必须是可泛化的:现在的问题是数据中有schema是不够的,太简单了。我们还需要知道该模型在60天后是否仍然适用。如果第61天的条件完全不同,以至于该模式无法推广怎么办?因为你知道,也许在第61天所有患者都治愈或死亡,或者开始服用不相容的药物。那么在这一点上,在之前的数据中找到的模式就没有多大用处了。第三,非静止的世界:如果你的数据不能很好地反映未来——可能是因为一场流行病改变了世界的一些运行规则,那么你之前获得的最好的数据也没有什么价值。如果你生活在宇宙不稳定的角落,你将很难验证通常所说的遍历性和平稳性假设,也就是“我相信规则没有改变”。在这里,我说的不稳定并不是别人眼中所谓的不稳定现象,比如通货膨胀导致的物品平均价格随时间的波动。这种简单的不稳定性(随时间变化的可预测函数)是时间序列分析领域要处理的问题。其实我想说的是那种你几乎无能为力的极度不稳定,因为系统的规则在本质上是变化的,所以不可能从一个周期预测下一个周期。如果你过去的数据突然不能应用到不确定的未来,你就很难冷静地用昨天来预测明天。也许你很幸运。如果现在有一个模型,并且这个模型适用于新的条件,那么就可以直接启动。用现有的数据找出这个规律,做一个模型,然后用它来得到第61天和之后每一天的数据!寻找模式并使用它们称为机器学习。何时使用机器学习当应用机器学习和人工智能时,你并不是在简单地重复你以前见过的例子——这根本不是机器学习做的,看看下表就知道了!记住,你是来让模型学习的。只是重复旧答案?不,ML可以做得更好!它也可以预测新实例。你的任务?构建一个可以成功推广的解决方案,或者……放弃治疗。换句话说,如果你的解决方案不能处理以前从未见过的新例子,那么它不是一个好的解决方案。当然,这个新例子并没有完全打破稳定宇宙的所有规则,只是对相关学习主题做了一些小改动。我们不是鹦鹉学舌,而是需要泛化到新的情况。这就是机器学习的力量和魅力。如果您从未见过特定的数据组合(例如第61天的数据),您如何得到它的答案?好吧,也许这需要将旧模式总结成一个模型,然后用它来预测。例如,如果你从数千张动物照片中训练了一个猫分类器,你可以让它告诉你一张新照片中是否有一只猫,但你不应该让它告诉你一幅画是否是立体派的。机器学习适合你吗?如果你讨厌我称机器学习为事物的标记器,或另一种编写代码的方式,那么让我称之为另一种方式。机器学习是一种自动化重复决策的方法,包括使用算法在数据中寻找模式并使用这些模式正确处理新数据。为了确定机器学习是否适合您,我提供了您可能会喜欢的三个指南:ML/AI项目入门?22实用清单:http://bit.ly/quaesita_realitycheck查找ML/AI用例建议:http://bit.ly/quaesita_islandML/AI入门?从这里开始:http://bit.ly/quaesita_dmguide那么,是否有有用的模式?仍然对第61天的结果感到好奇?那么我可以告诉你,事实上,样本数据中有一个模式。我知道这一点,因为那是我设置的。我什至可以向你保证,它会泛化到你能想到的最大数加上一天,因为在这个极度不稳定的时代,我觉得使用一个像这样变化规律的数据是一种奢侈,所以让每个人都有太奢侈了。喜欢挑战的小伙伴,试试看你最喜欢的机器学习算法能不能在这个数据中找到规律?让我知道您认为第61天的答案是什么。大约一周后,我会在评论中添加用于生成这些数据的代码,这样你们就可以看看自己做的是否正确。我还怀疑大多数人会通过分析而不是机器学习来解决它。祝你好运!最佳方法获胜!如果您真的想尝试ML,请不要忘记以正确的顺序开始,一个好的方法会让您前进。相关报道:https://towardsdatascience.com/when-not-to-use-machine-learning-or-ai-8185650f6a29【本文为栏目组织大数据文摘原创翻译,微信公众号“大数据文摘(id:BigDataDigest)》】点此查看作者更多好文