当前位置: 首页 > 科技观察

Reddit网友吵了!算力和数据真的能解决一切吗?

时间:2023-03-12 06:58:48 科技观察

众所周知,算力和数据很重要,但是有这些就够了吗?近日,有reddit用户发起了一个讨论帖:如果我们只有更多的数据和计算能力,停止理论工作的发展,今天还能解决什么问题?哪些问题是绝对无法解决的?这个问题引发了reddit网友的热议:MrAcurite说:我猜任何涉及罕见病诊断的东西。我们没有更多数据,因为数据不存在。但这只是猜测,也许小样本学习还是可以解决这个问题的。MichaelMMeskhi回复:小样本学习解决不了任何问题。如果我们有数据,那么以前的深度学习就可以了。但从理论上讲,小样本学习可能会做到这一点。pm-me-your-covfefes说:我会说,有了足够的数据,我们可以找到大多数问题的解决方案,但这并不能使问题得到解决(或更容易解决)。我是美国最大的医疗保健公司的数据科学高级总监。我们是巨大的。我们基本上拥有您想知道的任何数据。我怀疑除了中国的医疗系统,没有其他机构拥有比我们更多的医疗数据。有了这些数据,我们可以制作出数以千计的生产模型,它们比我在公开场合甚至私下看到的任何东西都更令人印象深刻。这包括试图打入医疗保健领域的“性感”科技公司所做的一切。然而,这些模型对于改善医疗保健并不重要。我们拥有可以轻松预测每种疾病(甚至是最罕见的疾病)的模型。疾病预测模型一点也不新颖。也许在10到15年前。这些模型甚至不能真正帮助改善医疗保健。以糖尿病预测模型为例。我不需要花哨的模特来告诉我这个每天吃两个汉堡的350磅重的不听话的病人会患上2型糖尿病。但即使他们被告知“嘿,你应该改变你的饮食和生活方式”,随着时间的推移,他们的情况只会越来越糟(90%的时间)。这只会让他们的健康变得更糟,并让他们花费更多的钱。长话短说,至少在医疗保健领域,即使没有无限数据,我们也可以创建我们想要的所有奇特模型,但这无助于解决问题,因为在大多数情况下,问题只是人(患者和提供者)。我想对于其他依赖人们做出他们可能不想做出的改变的行业来说也是如此。DoorsofPerceptron说:“基本上,我认为任何问题都可以使用无限标记数据和最近邻采样来解决。如果你有足够的数据,那么你应该见过这个场景,你只需要找到答案。我们还可以显着提高现有的深度学习方法通??过简单地在问题上投入足够的计算来找到最佳架构并在搜索空间上强制执行,而不是试图想出一些聪明的东西。(在某种程度上,业界已经这样做了,这就是为什么许多最好的架构都来自像谷歌这样的地方。如果你不需要担心计算或数据,最好通过专注于探索/利用权衡学习的探索部分来增强这一点。因此,问题需要限制更多。有了无限的数据和无限的计算,我认为我们甚至不需要现代方法来解决所有问题。”m--w认为:对于现代计算来说,大规模shellYessian推理还是太昂贵了。谈到哪些问题是绝对无法解决的,Phylliida表示:我们甚至没有一个理论模型来解释如何让技术奇点发生。例如,对于许多理论问题,我们可以说“如果我们有一个X形式的问题的解(例如P=NP),我们就可以解决这个问题”。我们也不能这么说奇点,因为它还没有正式的定义。即使我们能以某种方式解决停机问题,我们也没有通向技术奇点的明确路径(不,AIXI不是这样的理论,AIXI描述了具有明确行动和奖励的环境中的最优代理)。AGI也是如此,虽然在AGI的情况下,至少有足够的计算能力和数据,我们可以通过尝试复制人类的行为来制造“鸭子型”的人类智能(如果它看起来像鸭子并且表现得像鸭子,那是一只鸭子)模型。我们认为这是一个使用talktoatransformer的小操作,还不足以进行对话,但是subreddit模拟器GPT2以我们目前拥有的计算能力和数据非常现实。Turings_Ego认为:我认为我们应该走另一条路。该领域在很大程度上得到了数据集/基准的经验支持。如果我们真的想解决更复杂的问题,需要做很多工作来理解收敛以及什么不是收敛。我有一种预感,拓扑数据分析将提供这些证明的一些关键方面。人工智能进步来自算力?周志华:绝对错了!让我们看看国内AI大佬们是如何看待算力和数据的。对于“人工智能进步是由计算能力带来的”观点,南大大学周志华教授曾表示:这种说法是绝对错误的!周先生将IBM深蓝与AlphaGo进行了比较。深蓝下棋需要每秒评估6亿个位置,而AlphaGo面对更复杂的围棋只需要每秒评估2万个位置。“从6亿到2万,这是机器学习算法带来的提升,更不用说计算过程目标方向的根本改变。”对此,中科院计算技术研究所先进计算机系统研究中心主任鲍云刚回应称,算法起着至关重要的作用,算力的进步也不可或缺。鲍云刚用“落地”onthemoon”类比两者的互补关系。“算法在AI进步中的作用是导航+一级火箭,算力的作用相当于二级+三级火箭”,包云刚还表示,周老师提供的数据,从IBM评估6亿个位置到AlphaGo评估2万个,“20年算法效率提升了3万倍”,这客观地展示了算法的进步,对此,周志华教授表示,并不是算力的提升不重要,而是人工智能的进步gence技术绝对不是单纯的“算力的提升”。周老师做了进一步的解释:方向的改变不是靠算力的提升就能实现的。如果算法没有突破,还依赖专家规则,即使发展量子计算机来加速也没有用。另外,关于6亿和2万的位置评价,两者得到的结果并不一致。因此,你不能简单地将6亿除以20,000来计算加速比。周志华教授表示,算法的改变可能会改变求解过程的性质,而今天人工智能的进步正是通过这一点,而这不是仅通过计算能力的提升就能实现的。Hinton认为,未来的人工智能系统将在很大程度上不受监督。无监督学习是机器学习的一个分支,它从未标记、未分类的测试数据中提取知识——在学习共性并对它们的存在或不存在做出反应的能力方面几乎达到人类水平。“如果你采用一个具有数十亿参数的系统并对某个目标函数进行随机梯度下降,它的效果比你想象的要好得多……规模越大越好,”Hinton说。“神经网络和深度学习几十年前失败了,现在成功了。原因是什么?它的局限性在哪里?贾扬清曾说过:成功的原因是大数据和高性能计算。局限性的原因是结构化的理解,以及对小数据的有效学习算法。阿里巴巴副总裁贾扬清认为:“大数据量,比如移动互联网的兴起,低成本接入AWS等标签数据。平台使机器学习算法能够突破数据限制;由于GPGPU等高性能计算的兴起,我们可以在可控的时间内(几天甚至更短)进行exaflop级别的计算,使得训练复杂网络成为可能。需要注意的是,高性能计算并不局限于GPU。CPU上的大量矢量化计算和分布式计算中的MPI抽象,都离不开1960年代开始涌现的HPC领域的研究成果。但是,我们也必须看到深度学习的局限性。如今,许多深度学习算法已经在感知层面取得突破,可以识别语音、图像等非结构化数据。当面对更结构化的问题时,简单地应用深度学习算法可能不会取得很好的效果。可能有同学会问为什么像AlphaGo、星际争霸这样的算法能够成功。一方面,深度学习解决了感知的问题。另一方面,我们也要看到,有很多传统的非深度学习算法,比如Q-Learning等增强学习算法共同支撑着整个系统。而且,当数据量很小的时候,深度学习的复杂网络往往不能取得很好的效果。但是在很多领域,尤其是医疗等领域,数据的获取非常困难。这可能是非常重要的下一步。有意义的研究方向。接下来,深度学习或更广泛的人工智能将如何朝这个方向发展?我个人的感觉是,虽然前几年大家一直在关注AI框架,但是近几年框架的同质化现象说明它已经不再是一个需要付出很大努力才能解决的问题了。TensorFlow等框架在业界的广泛应用,以及各种框架利用Python在建模领域的出色表现帮助我们解决了很多以前需要自己编程的问题。因此,作为AI工程师,我们应该跳出框架的束缚,在更广阔的领域寻找价值。“

猜你喜欢