要深入了解创建AI和ML模型所需的技能集,需要了解模型创建过程,该过程由机器学习软件逐步学习,并生成满足预定义成功标准的模型的挑战。机器学习软件使用数据来训练构成AI产品的模型,该产品可以通过定期更新AI输入数据随时间重复使用。机器学习软件中有四种基本的学习类型:监督式:涉及让算法从数据中学习,同时使用数据上的标签提供正确答案。这实质上意味着要预测的类或值从一开始就已知,并且算法定义明确。无监督:与监督方法不同,该算法不提供正确答案或任何答案,由算法收集相似数据并理解它。半监督学习:监督学习和无监督学习的混合体。强化:在强化学习中,每个正确的预测都会奖励给算法,从而提高准确性。需要数据科学专业知识来确定在机器学习软件中使用的最佳统计算法以适应特定数据集。在众多的统计算法中,比较流行的有:用于情感分析、垃圾邮件检测和推荐的朴素贝叶斯算法;用于结果预测的决策树;可以组合多个决策树以改进预测的随机森林;对于二元分类(A或B)逻辑回归;AdaBoost、GaussianMixed、Recommender和K-Means聚类来重组市场细分等数据。训练AI和机器学习模型机器学习具有三个不同的学习(也称为训练)阶段:训练、验证和测试。在开始之前,您必须确保您的数据组织良好且没有错误。尽管概念很简单,但将数据转换为顺序可能是一个耗时且注重细节的过程,可能需要手动处理。目标是使数据没有重复、拼写错误和断开连接。清洗后,数据随机分为三组进行三个训练阶段。随机数据分区的目的是阻止选择数据偏差。下面是一些与模型创建相关的定义:参数。模型参数是机器学习软件在训练过程中自动从AI输入数据中学习到的值,尽管用户可以在训练过程中手动更改参数值。例如,会话期间要进行的最大传递次数和训练数据的最大模型大小(以字节为单位)。超参数。超参数是机器学习的外部参数,由数据科学家用户预先输入,因此超参数不是从AI数据中派生出来的,可以在训练期间更改。超参数的示例包括使用聚类算法时返回的聚类数和神经网络中的层数。多变的。机器学习软件选择特定的AI数据输入字段,并在训练期间使用额外的变量。它的变量可以是年龄、身高和体重。在开始训练(第一阶段)之前,为数据添加标签很重要,这样机器学习软件才能继续从数据中提取重要线索来帮助它学习。无监督学习不需要添加标签。机器学习软件的默认参数值也可以用于启动,或者可以单独更改参数。精度测试模型当训练阶段满足成功标准时,进入验证阶段。第一遍使用一组新数据。如果结果良好,则进入最后的测试阶段。如果您没有获得所需的结果,您可以让机器学习软件对数据进行额外的传递,直到机器学习软件没有显示新模式或达到最大传递次数。随着训练的进行,这些参数会被机器学习软件或管理人员自动修改。测试阶段是对一组新数据的“期末考试”——但这次缺少“辅助”数据标签(仅用于监督学习)。如果软件成功通过了标准测试,那么它就是一个工作模型。如果没有,继续训练。和之前一样,测试团队可以手动修改参数,也可以让机器学习软件在训练过程中自动修改参数。人工智能的机器学习是对机器学习软件暴露的数据进行反复回放,通过机器学习软件自动迭代改变参数(可能是手动修改),使模型在每次测试后更加智能。机器学习软件继续多次遍历数据,直到它意识到没有检测到新模式,或者直到它达到最大遍历次数,从而停止。人工智能模型的持续维护警惕(监控)是享受人工智能自由的代价。确定AI模型执行情况的典型方法是监控实际性能与AI预测的匹配程度。如果AI预测表现不佳,应重新进入机器学习模型训练过程,使用最新的数据对模型进行修正。需要记住的是,输入的数据很容易随时间变化,这就是交易中的数据漂移。数据漂移会导致AI模型的准确性下降,因此数据漂移的早期预警对于提前解决问题至关重要。Fiddler、Neptune和AzureML等可以跟踪数据漂移和发现异常值的AI工具可以提供早期预警,因此可以通过机器学习更新尽早解决数据问题。
