9月21日,央视《智慧》栏目播出杭州灵隐寺每日入园游客人数预测人工智能与人工智能的竞赛。比赛一方面是“智慧大脑”的人工智能计算,另一方面是灵隐寺管理人员的经验判断。结果是:1)按照时间段(上午10点和下午3点),人工智能的计算误差偏大,超过30%,而经验判断的误差在3%左右,所以被一些人认为评判为“技不如人”;2)根据某天(下午6点收盘),人工智能计算误差小于5%,胜出(评为“机智过人”)。据介绍,人工智能的计算算法是交叉校验的,方法是从公园三年的游客统计数据中随机抽取一天插入到计算数据中,比较误差应小于5%.至于比赛时间段计算误差较大,解释为实时获取入园游客数据与计算算法存在时间差,属于人为错误。然而,事实上,在研究中在“人工智能”的应用上,类似“‘聪明’优于人类”的命题是目前普遍存在的挑战(或情境、感知)。观察与思考如下:1)数据及其相关性以灵隐寺的“机智”算法为例。它的基础数据来自三年来每天进园游客的统计,应该是极其准确的。但主要数据来源单一(门票销售),每天入园游客数量势必会受到当时客观条件和环境的影响,如天气、突发事件或活动、出行习惯等。周一至周日等。因此,售票数量只是一个基线(可以近似线性连续),而三年中每天出现的客观因素是动态离散的,缺乏参考数据和可量化的分析,即一旦数据分析缺少多维数据的关联,算法就“脆弱”,以至于很难避免计算结果出现(必要的)较大的随机误差。2)数据预处理与检验一般来说,“人工智能”由三部分组成:1)输入,2)计算,3)输出。其中,“计算”包括建模和算法;输入是定量数据;输出是计算结果。一般来说,任何算法都需要通过对输入数据的循环学习不断优化,力求达到输出结果的准确性或达到预期的参考效果。因此,输入数据的预处理对算法有直接的影响;计算算法的检查和计算算法输出的置信度也与输入数据直接相关,缺一不可。显然,输入数据的预处理非常重要,其要素包括(但不限于):(1)数据源的场景(环境)和数据采集的方式(方式);(2)数据的分类、识别和定性以及定量表征;(3)数据的常规、正常、新兴和随机特征的区别;(4)数据的时间序列,以及相应的回归、归纳、溯源、筛选;(5)多元多源数据的相关性和连接性。因此,计算模型和算法应提供调整和改变输入数据的特征和属性的接口,既保证算法复杂度的收敛性(如输入数据的降维),又必须坚固而灵活。3)数据预处理的问题与挑战在大数据环境下,必然存在“已知”、“已知未知”、“未知未知”。比如灵隐寺的“机智”算法,三年来每天进园的游客数量是已知的;已知的未知是三年来每天发生的客观事件(外部环境因素);theunknown未知数是这些客观事件对入园游客数量的影响程度、概率和相关性。因此,挑战在于:如何发现“已知的未知”;难点在于:如何应对“未知的未知”;尤其是在预测未来的时候,如何去假设“已知的未知”和“未知的未知”。对此,深入研究必须依靠理论基础。只有理论与具体实践相结合,“人工智能”(或“聪明的大脑”)才能不断发展,才能缓解“惰性”。“人工智能”是数字现代化发展和应用的必然趋势,是一个总称。但必须看到,“人工智能”在不同的应用场景下,有着不同的内涵和目标、方法、模式,面临的问题和挑战也不同。例如:谷歌的阿尔法狗(AlphaGo)是第一个击败人类职业围棋选手的人工智能机器人,也是第一个围棋世界冠军。其主要工作原理是“深度学习”(从16万场人类棋局中学习数百万条棋局记录),至少有三个显着特点:(1)边界清晰,即棋局规则。虽然只有两条非常简单的规则,但是复杂度却是难以想象。一共有10170种(10的170次方)种可能,没有办法穷尽围棋的所有可能结果。(观点:以规则为边界,规则越简单,状态的复杂度越高。)(2)没有噪声。游戏范围很明确。棋盘上有19条纵横线,将棋盘分成361个交点;黑白双色圆形棋子,胜者没有直接明确的目标,完全凭直觉。(观点:确定和不确定的环境因素会直接影响目标定位的复杂性。)(3)赢在大局中。几乎没有合适的评价函数来定义谁是赢家。围棋是一种建设性的游戏。一开始,棋盘是空的,慢慢地,两侧填满了棋盘。每件作品对游戏都有“主导作用”。必须评估“全身影响”,以便通过评估未来可能发生的事情来评估当前情况。(观点:事前是通过数值网络进行预测;事后是通过决策网络;事件期间是预测和归纳的综合。可见,对于“人工智能”:人工智能是充分条件(即算法是由人设计和操纵的,理论是基础),应用场景是必要条件(即数据的采集、分类和关联)。
