当前位置: 首页 > 科技观察

机器学习的未来之路

时间:2023-03-21 15:24:51 科技观察

管理数据生命周期是自动驾驶汽车开发的关键部分......毫无疑问,自动驾驶汽车开发是一个热门话题。完全无人驾驶汽车的想法标志着机器人时代最激进的概念之一。不仅需要正确的技术来实施它,而且所有使用道路的人以及参与道路和交通管理的人的心态也会发生重大变化。当然,安全是主要考虑因素,这就是为什么事故一旦发生就会成为头条新闻。然而,在争论和头条新闻的背后,是另一个经常被忽视的故事:自动驾驶汽车成功融入城市和社会在很大程度上依赖于数据。实际上,从自动驾驶测试车辆收集的数据为“训练”车辆提供了基础,使其能够通过机器学习(ML)等技术自主执行任务。具有挑战性的用例自动驾驶是可以想象的最具挑战性的机器学习用例之一,因为在操作车辆时涉及大量现实世界的变量,并且对错误的安全要求相关零容忍。这一应用的成功将直接带动更多要求不高的用例,这就是为什么自动驾驶汽车的发展对许多不同领域都有影响,尤其是智慧城市。从自动驾驶汽车的角度来看,一个关键的机器学习要求涉及训练“感知层”,这意味着使用传感器(无线电、摄像头、激光雷达、惯性测量单元等)来“看到”车辆正在遇到的确切情况。这一点很关键,因为任何采取的行动,例如指示车辆进行路径调整,都将取决于准确的感知层视觉。自动驾驶开发可能会推动未来用例的原因之一是,训练这一重要感知层的机器学习模型和神经网络在大型和多样化的数据集上表现最佳。另一方面,自动驾驶汽车依赖于海量数据集。此外,它依赖于传统的汽车工程专业知识,但制造一辆自动驾驶汽车所需的平均数据量估计约为150PB。简而言之,这既是数据分析挑战,也是机器学习挑战,而不仅仅是机械工程挑战。需要收集和处理的数据量需要高级数据管理功能,包括数据湖和对数据生命周期的清晰理解。未来的用例不仅取决于对数据管理和处理的理解,还取决于数据可以带来的机会。从历史上看,由于与管理生命周期本身相关的工作量、成本和时间,分散的数据管理生命周期限制了扩展到新用例的能力。通过优化生命周期,它可以更快、更频繁地重复,为机器学习模型提供持续改进。携手合作为此,汽车制造商、城市和其他利益相关者必须共同努力,并在瞬息万变的环境中利用最新的硬件和软件技术。掌握物联网和机器学习数据分析生命周期所需的能力超出了任何一家公司的能力范围。因此,基于标准和基于合作伙伴生态系统的方法对于支持真正转变智慧城市和互联社区的能力至关重要。这种级别的协作对于构建解决方案至关重要,因为联合项目会产生标准和可重用模式。作为最近的一个例子,Cloudera参与了一项名为ProjectFusion的计划,这是一项多方汽车行业技术合作,旨在定义数据生命周期平台,以支持和优化未来的联网和自动驾驶汽车系统。合作伙伴旨在构建提供数据管理技术的车辆到云解决方案。合作还将确保大数据和机器学习的其他一些障碍在自动驾驶汽车开发中得到最大化,并可以解决其他用例。需要从系统中消除浪费和低效率,以减少管理生命周期的成本和时间。至关重要的是,必须面对潜在的数据隐私问题。如前所述,自动驾驶汽车的驾驶训练依赖于现实世界中记录的训练数据。因此,解决方案提供商必须注意不要收集和存储驾驶员的面部和车牌号等私人信息。在收集和存储此信息之前,必须提供编辑此信息的能力。这就需要强大的数据处理能力来识别和过滤隐私数据。此外,所收集的任何信息都必须符合欧盟的《通用数据保护条例》和美国的《加州消费者隐私法》等规定。用于实时决策的机器学习对于帮助城市、技术提供商和其他利益相关者超越简单地监控和报告来自传感器和其他设备的数据以根据这些数据做出优化的实时决策至关重要。以交通为例。监控交通状况和报告拥堵情况是一回事,但使用机器学习通过建议(例如建议备选路线或主动建议旅行者在不同时间出行)主动引导市民是一个更具吸引力的价值主张。使用机器学习,这些可以基于实时条件和过去的经验。我们所知道的是,自动驾驶可以教会我们很多关于机器学习潜力的知识,并引领我们走向许多新的应用。主动、优化和实时决策是机器学习优势的标志,而我们才刚刚开始。关于机器学习的潜力,我们还有很多需要了解,它的许多未来用例超出了我们目前的想象。我们所知道的是,自动驾驶可以教会我们很多关于其潜力的知识,并将我们引向许多新的应用领域。我们需要确保基础和生态系统到位,以了解高级数据管理和数据生命周期的重要性,以便不错过任何机会。