机器学习的应用正在飞速发展,迅速成为医药、电子商务、银行等不同领域不可或缺的一部分。今天,我们将把机器学习分解成一个过程和查看从开始到实施的所有步骤。它的实际应用。机器学习的过程将分解为下面列出的7个步骤。为了说明每个步骤的重要性和功能,我们将使用一个简单模型的示例。该模型将负责区分苹果和橙子。机器学习能够完成复杂的任务。但是,为了通俗易懂地说明该过程,使用了一个基本示例来说明相关概念。第1步:收集数据要开发我们的机器学习模型,我们的第一步是收集可用于区分这两种结果的相关数据。可以使用不同的参数将水果分类为橙子或苹果。为简单起见,我们只采用模型用来执行其操作的2个特征。第一个特征是水果本身的颜色,第二个特征是水果的形状。使用这些特征,我们希望我们的模型能够准确地区分这两种水果。需要一种机制来为我们选择的两个特征收集数据。例如,要收集有关颜色的数据,我们可以使用光谱仪,对于形状数据,我们可以使用水果图片,以便将它们视为二维图形。为了收集数据,我们将尝试获取尽可能多的不同类型的苹果和橙子,以便为我们的功能创建各种数据集。为此,我们可能会尝试在市场上寻找可能来自世界不同地区的橙子和苹果。收集数据的步骤是机器学习过程的基础。选择错误的特征或专注于数据集的有限条目类型等错误可能会使模型完全无用。这就是为什么在收集数据时必须考虑必要性的原因,因为在这个阶段犯的错误只会在我们进入后续阶段时放大。第2步:准备此数据一旦我们收集了这两个功能的数据,下一步就是准备数据以供进一步使用。此阶段的重点是识别并最小化我们数据集中针对这两个特征的任何潜在偏差。首先,我们将随机化两种水果的数据顺序。这是因为我们不希望订单与模型的选择有任何关系。此外,我们将检查我们的数据集是否偏向于特定的水果。反过来,这将有助于识别和纠正潜在的偏差,因为这意味着该模型将能够正确识别一种水果,但可能难以识别另一种水果。数据准备的另一个主要组成部分是将数据集分成两部分。较大部分(约80%)将用于训练模型,而较小部分(约20%)将用于评估。这很重要,因为使用相同的数据集进行训练和评估不会对模型在真实场景中的性能进行公平评估。除了拆分数据之外,还需要采取其他步骤来细化数据集。这可能包括删除重复条目、丢弃不正确的读取等。为模型准备足够的数据可以提高其效率。它可以帮助减少模型的盲点,从而提高预测的准确性。因此,仔细考虑和检查您的数据集是有意义的,以便对其进行微调以产生更好和有意义的结果。第3步:选择模型一旦以数据为中心的步骤完成,选择模型类型就是我们的下一步行动。数据科学家开发的各种现有模型可用于不同目的。这些模型在设计时考虑了不同的目标。例如,一些模型更适合处理文本,而另一种模型可能更适合处理图像。关于我们的模型,应用简单的线性回归模型来区分水果。在这种情况下,水果的类型将是我们的因变量,而水果的颜色和形状将是两个预测??变量或自变量。在我们的示例中,模型选择非常简单。在更复杂的情况下,我们需要做出符合预期结果的选择。可以在3大类中探索机器学习模型的选项。第一类是监督学习模型。在这样的模型中,结果是已知的,因此我们不断改进模型本身,直到我们的输出达到所需的准确度水平。为我们的水果模型选择的线性回归模型是监督学习的一个例子。如果结果未知,我们需要分类,那么就用第二类,也就是无监督学习。无监督学习的示例包括K-means和Apriori算法。第三类是强化学习。它侧重于学习根据反复试验做出更好的决策。它们通常用于商业环境。马尔可夫决策过程就是一个例子。第4步:训练机器学习过程的核心是模型的训练。很多“学习”都是在这个阶段完成的。在这里,我们使用分配给训练的一部分数据集来教我们的模型区分这两种结果。如果我们用数学术语看模型,输入(即我们的2个特征)将具有系数。这些系数称为特征权重。还将涉及常数或y轴截距。这称为模型的偏差。确定其价值的过程是反复试验。最初,我们为它们选择随机值并提供输入。将获得的输出与实际输出进行比较,并通过尝试不同的权重和偏差值来最小化差异。培训需要耐心和实验。了解模型将在其中实施的领域也很有用。例如,如果使用机器学习模型来识别保险公司的高风险客户,那么了解保险业的运作方式将加快训练过程,因为在迭代过程中可以做出更有根据的猜测。如果模型开始成功运行,培训将被证明是非常有益的。这相当于一个孩子学会骑自行车的时间。最初,他们可能会跌倒很多次,但过了一段时间后,他们会更好地掌握这个过程,并且能够在骑自行车时更好地应对不同情况。第5步:评估模型训练好后,需要对其进行测试,看其在现实世界中的表现是否良好。这就是为什么使用为评估创建的部分数据集来检查模型的熟练程度。这将模型置于一个场景中,在该场景中,它会遇到不属于其训练的情况。在我们的例子中,这可能意味着尝试确定对模型来说全新的苹果或橙子的类型。但是,通过训练,模型应该有足够的能力推断信息并确定水果是苹果还是橙子。在商业应用中,评估变得非常重要。评估允许数据科学家检查他们是否设定了他们想要实现的目标。如果结果不理想,则需要重新检查前面的步骤,以便找出模型性能不佳的根本原因。如果评估没有正确完成,模型可能无法很好地实现其预期的业务目的。这可能意味着设计和销售该模型的公司可能会失去其在客户中的良好声誉。这也可能损害公司的声誉,因为潜在客户可能不愿相信公司对机器学习模型的敏锐度。因此,评估模型对于避免上述不良影响至关重要。Step6:HyperparameterTuning如果评估成功,则进入超参数调整步骤。此步骤试图改进在评估步骤中获得的积极结果。对于我们的示例,我们将看看是否可以使我们的模型更好地识别苹果和橙子。我们可以通过不同的方式改进模型。其中之一是再训练步骤,使用训练数据集的多次扫描来训练模型。这可能会导致更高的准确性,因为更长的训练持续时间提供更多的曝光并提高模型的质量。解决这个问题的另一种方法是优化提供给模型的初始值。随着时间的推移,随机初始值通常会产生较差的结果,因为它们会通过反复试验逐渐完善。但是,如果我们能想出更好的初始值,或者使用分布而不是值来启动模型,那么我们的结果可能会更好。我们也可以用其他参数来细化模型,但是这个过程比逻辑更直观,所以没有确定的方法。自然而然地,问题来了,为什么当模型达到目标时,我们首先需要进行超参数调整?这可以通过查看基于机器学习的服务提供商的竞争性质来回答。在寻找机器学习模型来解决他们的问题时,客户可以从多个选项中进行选择。然而,他们更有可能被产生最准确结果的方法所吸引。这就是为什么超参数调整是确保机器学习模型商业成功的重要步骤。第7步:预测机器学习过程的最后一步是预测。在此阶段,我们认为该模型已准备好投入实际使用。我们的水果模型现在应该能够回答给定水果是苹果还是橙子的问题。该模型不受人为干扰,并根据其数据集和训练得出自己的结论。该模型面临的挑战仍然是其性能能否在不同的相关场景中胜过或至少与人类的判断相匹配。预测步骤是最终用户在各自行业中使用机器学习模型时所看到的。这一步突出了为什么许多人认为机器学习是各个行业的未来。复杂但执行良好的机器学习模型可以改善其各自所有者的决策过程。人类在做决定时只能处理一定数量的数据和相关因素。另一方面,机器学习模型可以处理和链接大量数据。这些链接允许模型获得独特的见解,而这些见解可能无法通过通常的手动方法发现。结果,宝贵的人力资源从处理信息然后做出决策的负担中解放出来。结论通过机器学习,我们可以确定如何区分苹果和橙子,虽然这听起来可能并不令人印象深刻,但对于大多数机器学习模型,我们采取的步骤是相同的??。随着机器学习的发展和AI的总体发展,该标准在未来可能会发生变化,但下次您需要处理ML项目时,请记住以下几点:收集数据准备该数据选择模型训练评估超参数调整预测
