天使投资人、企业中层管理人员、黑客马拉松裁判或“技术”相关人员,都有可能面临这样的情况:有人试图“推销”他们的“人工智能产品”、“机器学习软件”或其他流行语的花哨组合。当您处于这种情况时,有时您会觉得自己不具备做出正确决策的专业知识。坚守阵地,不要被吓倒!这里有七个常识提示,可以帮助您从发现信号、夸大其词到欺骗和谎言。1.“我们用人工智能来……”爱因斯坦说,“如果你不能简明扼要地解释一件事,那就意味着你对它的了解还不够。”如果有人说“AI”是一个包罗万象的概念,请小心,这可能是一个花哨的推销词。当然,也有可能省略了令人痛苦的复杂细节以避免惹恼客户。假设他们无罪是可以的,但要深挖细节,多了解具体使用了哪种机器学习模型,请他们举一反三。你可以问他们这些问题:为什么选择这个选项而不是其他选项?为什么这个选项在这个数据上优于其他选项?有没有人解决过类似的问题?如果是这样,他们使用了什么方法?您是否尝试过另一种方法(模型/算法/技术)?结果与当前解决方案有何不同?(如果可以,求图为证)虽然一开始没必要把所有问题的答案都看懂,但是我们应该问问题,尽可能的清晰和理解。我还没有遇到无法类比解释的机器学习概念。因此,如果您觉得谈论太多技术细节太困难,请寻求进一步的解释。这样细心的推敲,既加深了理解,又展示了节目的思路。2.无用输入,无用输出图片来源:https://media.tenor.com《除了上帝,我只相信(高质量的)数据。-EdwardsDeming只有高质量的数据才能获得优秀的模型。因此,您应该确认用于训练机器学习模型的数据质量。虽然“质量”很难定义,但有一种简单的方法可以了解训练数据的质量,只要问他:训练数据与模型在“真实世界”中处理的数据相比有多相似和具有代表性“?一台机器无论学习模型多么花哨、多么前沿,如果用于训练的数据质量堪忧,那结果一定是极其糟糕的。3.适者生存在1990年代和2000年代初,电子邮件收件箱垃圾邮件过滤器会查找拼写错误和其他明显迹象,自动将垃圾邮件放入垃圾邮件文件夹。现在,垃圾邮件发送者变得越来越聪明,垃圾邮件也越来越难以检测。今天的电子邮件服务提供商必须适应这一趋势,使用更复杂的机器学习模型来准确识别垃圾邮件。来源:unsplash有一件事我们必须明白:随着时代的变化和输入数据的迭代,机器学习模型是否可以无障碍地用新数据重新训练,或者换成更好的模型。重要的是,客户要知道他们购买的计划是否有“到期日”。4.用正确的标准衡量正确的事情。图片来源:在unsplash衡量机器学习模型的分类性能标准中,准确率是一个非常普遍的标准。例如,对于对猫狗图片进行分类的机器学习模型,96%的准确率相当可观。这意味着在100张猫狗图片中,模型能够正确猜出其中的96张。现在,假设一家银行应用相同的标准来识别欺诈交易。欺诈检测器可以轻松达到96%的准确率,因为欺诈交易非常罕见。但是,仅靠96%的正确识别率还不足以识别欺诈交易,而是要降低错误率。错误识别4%的欺诈交易将带来巨大的危害。对于银行欺诈示例,漏报率是比准确率更好的模型性能指标。根据不同问题的要求,准确率可以用其他标准代替,如准确率、召回率、特异度、F1值等。你要注意他是否使用了正确的指标,如果可能的话,使用多个指标。5.更多,更多,更多!一般来说,在其他条件相同的情况下,用于训练的数据越多,模型的性能就越好,对于深度学习模型尤其如此。这就像准备SAT考试的高中生一样。如果他们做大量的练习并练习各种各样的问题,他们就更有可能在SAT考试中取得好成绩。资料来源:Unsplash在拥有(足够的)数据之前形成理论是一个重大错误。重要的是要确保任何机器学习模型都有足够的数据用于训练。多少数据就足够了?越多越好!理想情况下,数据应来自可靠来源,并且必须尽其所能使用。6.可解释性在机器学习中,往往需要在追求卓越的模型性能和简明扼要地解释模型运行之间保持平衡,尤其是对于低性能模型。一般来说,对于复杂的数据,模型越精密复杂越好。然而,由于这些模型更为复杂,因此更难以解释输入数据对输出结果的影响。例如,假设你想使用一个非常复杂的机器学习模型来预测某种产品的销售情况。输入模型的数据是电视、报纸和广播的广告支出。这个复杂的模型可以给出非常准确的销售预测,但它无法解释电视、广播和报纸三种促销渠道中哪一个对销售的影响最大,哪个更值得投资。另一方面,更简单的模型可能不那么准确,但可以说明哪个渠道值得投资。客户必须了解模型性能和可解释性之间的平衡。这很重要,因为如何在可解释性和性能之间取得平衡取决于目的,因此使用模型的人必须做出决定。7.那么……你的长处和短处是什么?Source:https://i2.wp.com这是企业面试时经常被问到的问题。在评估机器学习解决方案时,优势和劣势问题非常有用。如果有人推荐机器学习解决方案,请务必询问他们该解决方案的局限性:采用该解决方案的好处是否大于风险?解决方案的局限性是否会影响其未来的表现?成功的关键是了解自己的弱点并成功弥补弱点。缺乏这种能力的人总是失败。从采用高效且可持续的机器学习解决方案的角度来看,了解其局限性对其成功至关重要。不仅如此,要求推荐人解释协议的局限性也能反映出透明度问题。这反映了推荐它的人是多么周到和值得信赖。如您所见,识破谎言的关键是不要惊慌,要问问题!询问、澄清和审查所有不确定的事情。通过这7个技巧,您可以加深理解并全面评估机器学习解决方案。无法回答这些问题的业务员,速速现身!
