据外媒报道,人工智能领域专家吴恩达向IEEE表示,深度学习未来的发展路径应该从利用大数据训练模型转变为利用高质量的数据,为无法获取大数据集的行业提供应用深度学习模型的机会。吴恩达曾任斯坦福人工智能实验室主任,此前领导过谷歌的谷歌大脑项目。吴恩达认为,深度模型的训练应该从调整代码转向调整数据。通过调整影响训练结果的噪声数据(无意义的数据),只需要少量的高质量数据集就可以完成模型的更新。与调整代码或直接提供海量数据的方式相比,这种方式更具针对性。LandingAI是一家由吴恩达于2017年创立的公司,目前提供用于制造产品检测的计算机视觉工具。该工具可以快速标记噪声数据,允许客户通过更改数据标签来独立更新模型,而无需更新模型本身。调整。1.深度学习潜力巨大。大数据训练与主流人工智能融合的目标是让机器像人一样“思考”和“行动”。机器学习是实现这一愿景的重要途径,而深度学习是机器学习的重要组成部分。2012年,Hinton教授凭借机器学习方法在ImageNet图像识别竞赛中获得第一名,深度学习逐渐受到广泛关注。它在很多领域取代了传统的机器学习方法,成为人工智能领域的热门研究领域。近十年来,深度学习取得了飞速发展,深度学习模型正朝着越来越大的方向发展。以OpenAI的自然语言处理模型GPT系列模型为例,2018年GPT-1参数规模突破1亿。到2020年GPT-3问世时,参数规模已经超过100亿,超大模型的不断涌现,显示了深度学习的发展潜力。不过,吴恩达认为,虽然深度学习方法已经在很多面向消费者的公司得到广泛应用,这些公司往往拥有庞大的用户基础,能够获得大数据集进行模型训练,但对于很多无法获得大数据集的公司来说,其他行业,重点需要从提供大量数据转向提供高质量数据。2.从代码到数据,用少量数据训练高质量模型过去十年,训练深度学习模型的主流方法是下载数据集,然后着重改进代码,但如果一个机器学习modelisformostdatasets通常情况下,只有一个数据集会出现偏差,改变整个模型架构来适应这个数据集是低效的。另一种方法是从数据入手。这类方法被称为“Data-centricAI”(以数据为中心的人工智能)。一般的方法是通过加入更多的数据来提高模型的准确率。对此,吴恩达表示,如果他试图为所有情况收集更多的数据,工作量会非常大,因此他致力于开发标记噪声数据(无意义数据)的工具,并为模型提供有针对性的训练方法提供了少量但高质量的数据。吴恩达说,他通常采用的方法是数据增强或者提高数据标签的一致性。比如一个有10000张图片的数据集,其中30张相同的图片有不同的数据标签,他希望建立识别标签。针对不一致图像的工具允许研究人员快速重新标记它们,而不是收集大量数据用于模型训练。3.LandingAI提供数据标注工具,让用户自主实现模型更新2017年,吴恩达成立了LandingAI,一家为制造企业提供产品检测的计算机视觉工具的公司,为制造商的产品提供视觉检测。吴恩达在公司主页上介绍,用人眼检测电路板上的划痕,已经超出了人眼观察能力的极限,但用AI识别的准确率要高得多。LandingAI的重点是让客户能够自己训练机器学习模型。公司主要为他们提供相关工具,在数据出现异常时可以标记数据,方便公司自己快速更新模型。吴恩达表示,这不仅仅是制造业的问题。以医疗卫生领域为例,每个医院的电子版健康档案都有自己的格式。期望每个医院的程序员开发不同的模型是不现实的,唯一的方法是为客户提供工具,让他们能够构建适应的模型。落地AI目前正在计算机视觉领域推广这类工具,其他AI领域也需要做这样的工作。结论:深度学习方法可能转向,数据细化不够。长期以来,深度学习模型的更新和优化主要依靠模型的调整,或者直接增加更多的数据,反复训练模型来提高模型的准确率。吴恩达建议对少量噪声数据进行数据标注和更新,以实现更有针对性的模型优化。此前,吴恩达在推特上发起了“Data-centricAI”竞赛,让更多的从业者关注到通过数据优化模型的方法,越来越多的研究者使用数据增强(dataaugmentation)、合成数据(syntheticdata)和其他方法来实现更有效的模型训练。未来,数据优化是否会成为实现模型迭代的主流手段,值得期待。
