当前位置: 首页 > 科技观察

什么是机器学习?机器变得比科幻电影更聪明

时间:2023-03-14 14:55:27 科技观察

机器学习(ML)是教计算机系统根据一组数据做出预测的过程。通过向系统展示一系列试错场景,机器学习研究人员致力于创建可以分析数据、回答问题并自行做出决策的人工智能系统。机器学习通常使用基于测试数据的算法,这些算法有助于在未来的决策中进行推理和模式识别,从而消除了传统计算机软件所需的人类明确指令的需要。什么是机器学习?机器学习依赖于输入算法的大量数据来生成系统可以预测其未来决策的模型。例如,如果你想输入系统的数据是你一年中每天午餐吃的水果,你可以使用预测算法来分析不同的水果,并建立一个你可能会吃哪种水果的预测模型在接下来的一年里。该过程基于反复试验的案例,通常使用多种算法。这些算法分为线性模型、非线性模型,甚至神经网络。它们最终将取决于您正在使用的数据集和您试图回答的问题。机器学习算法如何工作?机器学习算法使用数据随着时间的推移进行学习和改进,不需要人工指导。该算法分为三种类型:监督学习、无监督学习和强化学习。每种学习类型都有不同的目的,并使数据能够以不同的方式使用。监督学习监督学习涉及标记的训练数据,算法使用这些数据来学习将输入变量转换为输出变量以求解方程的映射函数。监督学习有两种类型:分类,当输出以类别的形式出现时,用于预测给定样本的结果;回归,当输出用于预测给定样本的结果时。变量是“工资”或“体重”等实际值。监督学习模型的一个例子是K最近邻(KNN)算法,它是一种模式识别方法。KNN本质上涉及使用图形根据附近相似对象的传播来推导关于对象分类的有根据的猜测。在上表中,绿色圆圈表示尚未分类的对象,它只能属于两个可能类别之一:蓝色正方形或红色三角形。为了识别它属于哪个类别,在这种情况下算法会分析图上最近的物体,算法会合理地假设绿色圆圈应该属于红色三角形类别。UnsupervisedLearning当只有输入变量而没有相应的输出变量时,使用无监督学习模型。它使用未标记的训练数据对数据的底层结构进行建模。无监督学习算法分为三类:关联,广泛应用于市场购物分析;聚类,用于匹配与另一个簇中的对象相似的样本;降维,用于减少数据集中的变量数量,同时保持其重要信息不变。强化学习强化学习允许代理通过学习最大化奖励的行为来根据其当前状态决定下一步行动。它通常用于游戏环境,其中提供规则算法并负责以最有效的方式解决挑战。该模型将随机开始,但随着时间的推移,通过反复试验,它将了解它需要在游戏中的何处和何时移动以最大化其分数。在这种类型的培训中,奖励只是与积极结果相关的状态。例如,如果算法能够让汽车保持在路上而不撞到障碍物,它就会“奖励”完成任务。为什么机器学习有用?本质上,机器学习解决了数据过多的问题。人、动作、事件、计算机和小工具产生的信息如此之多,以至于人类几乎不可能从中学到任何东西。在医学分析中,在数以千计的MRI扫描中寻找模式可能需要几个小时、几天或几周才能完成,但如果正确标记,机器可以吸收这些信息并在几秒钟内分析发现这些模式。机器学习用在什么地方?我们每天都使用最简单、最成功的机器学习示例之一——谷歌搜索。搜索引擎由许多ML算法提供支持,这些算法可以读取和分析您输入的文本,并根据您的搜索历史记录和在线习惯定制结果。例如,如果您键入“Java”,您将获得有关编程语言的结果,或者更频繁地出现,具体取决于您的偏好。我们未来的许多技术进步,例如无人驾驶汽车和智能城市,都取决于机器学习的发展。许多为智慧城市提供动力的系统正在进入公共空间,例如面部识别系统,其中机器学习算法被教导识别图像中的模式并根据其特征识别对象。然而,这已被证明是对ML的一种有争议的使用,尤其是因为它并不总是准确的,而且通常涉及对公民的某种定期监视。数据偏差随着机器学习的改进和更多技术的使用,人们越来越担心在关键和面向公众的软件中嵌入偏差。机器学习应用程序依赖于数据,而正是这些数据可能成为偏见的来源。例如,如果一家公司想雇用更多不同类型的人,但使用其现有员工的简历,默认情况下,其机器学习程序只会寻找更多相同的人。正是这种机器学习的应用引起了政府的关注,因此,许多政府正在采用强制性法规来解决这个问题。英国数据伦理与创新中心(CDEI)宣布将与内阁办公室的种族差异部门合作,调查算法决策中的潜在偏见。同样,美国政府将试行AI多样性法规,以降低计算机系统中存在中立和种族偏见的风险。