一个游戏AI,还怎么当医生呢?而这种能力是从玩游戏的经验中总结出来的。那么,拍一张完整的病理扫描图,不用遍历所有高倍视野也能找到病灶。在它看来,这个过程其实类似于登录《我的世界》。都是三步走:先观察大环境,锁定小区域,最后确定目标。而且这种方法的效率非常高,是传统方法的400%。赢得NeurIPSMineRL比赛的确实是游戏AI……那么,它是怎么做到的呢?游戏AI如何帮助世界?在介绍这款游戏AI之前,我们先来了解一下病理切片的处理难度是什么。与想象中的只看一眼不同,临床部门会首先对组织切片进行扫描和数字化。之后,交付给医生的往往是几万×几万像素,甚至更高的高分辨率图像,每像素可达0.25微米。医生要做的,就是在这布满致密细胞和组织的超大影像中,用肉眼寻找风险病变的位置并做出判断,可谓“大海捞针”。近年来,还没有人尝试用深度学习的方法来解决这个问题,但遇到的挑战是:第一,虽然病理图像(WSI)具有十亿像素的高分辨率,但往往只有一个图像级标签.目前的方法大多依靠在高倍率下对全切片进行密集采样进行特征提取,并对采集到的所有特征进行信息整合来实现全切片诊断。工作量可想而知。其次,这些图像中的病变区域通常很稀疏。现有方法大多依赖于多实例学习框架,这需要在高倍率下对局部图像块(patches)进行密集采样。这不仅增加了计算成本,而且诊断相关性弱,数据效率低,往往需要几十分钟才能完成一个切片的计算。不过,这一次来自腾讯的“绝物”团队却发现了盲点——虽然传统模式下医生需要用肉眼看,但他们往往先用显微镜在低倍镜下扫描底片,然后凭经验找到可疑点。高倍镜检视。而如果把这种运算放到AI的世界里,不就是一个最优路径决策问题吗?这不正是强化学习能做的吗?强化学习在游戏AI中也很常用,而游戏AI是绝武AI的强项。好吧,优势是封闭的。此前,绝无AI凭借最优路径决策策略在MOBA、RTS、Minecraft等类型游戏中取得了优异成绩,还获得了顶级AI大会NeurIPSMineRL竞赛冠军。当时,CMU、微软、DeepMind和OpenAI在顶级会议NeurIPS上联合举办了一场名为MineRL的比赛,要求参赛队伍在4天内训练出一名15分钟内能挖出钻石的AI“矿工”。来自腾讯的绝无AI以76.97分的绝对优势夺冠,成功成为挑战史上“最快挖矿”AI。《我的世界》找木头的动作其实和病理切片找病灶的动作差不多。它还环视收集全局信息(病理学家在低倍镜头下扫描胶片),然后锁定视角(用高倍镜头确认),找到木头(确认病变)后执行收集动作),等等。因此,在这款游戏AI的基础上,腾讯研究人员推出了最新的研究成果“绝武RLogist”,即RL(强化学习)+Pathologist(病理学家)。那么绝无RLogist是如何实现的呢?决策效率提升400%就像上面提到的人类医生的解决方案一样,《绝物RLogist》采用了一种基于深度强化学习的方法来寻找最佳观看路径。这种新方法的好处是显而易见的:避免了传统的穷举法分析局部图像切片,而是首先决定寻找观察值区域,并获得跨越多个分辨率级别的代表性特征,以加快完成全片解读。通过模仿人类的思维方式,既提高了观影效率,又节约了成本。具体来说,研究人员通过条件特征超分辨率实现了跨分辨率信息融合。受益于条件建模,可以根据已观察到的成对低分辨率和高分辨率特征更新未观察区域的高分辨率特征。关键步骤之一是为病理图像分析领域定义强化学习训练环境。该方法利用离散化的动作空间、合理设计的图像划分和完成状态奖励函数,提高了模型的收敛性能,避免了局部最优。对应的trainingpipeline如下算法所示:从结果来看,绝无RLogist的优势非常明显。研究人员选择了“淋巴结切片转移检测”和“肺癌分类”两个全切片扫描图像分类任务进行基准测试。结果表明,与典型的多实例学习算法相比,“绝物RLogist”在观察路径显着缩短、平均时间缩短至四分之一、决策效率提升400%的情况下也能达到相似的分类性能.不仅如此,该方法也是可解释的。研究人员将决策过程可视化后发现,未来无论是医学教育还是实际场景,聚物RLogist都能发挥很好的作用。目前,该论文已被AAAI2023录用,代码已开源。值得一提的是,研究人员还强调,未来他们将继续沿着绝无RLogist的方向进行优化,包括通过引入更强的神经网络结构来增强RLogist的表示学习能力,以及使用更高阶的RL训练方法避免学习到错误的观察路径等。“绝无RLogist”从何而来?说到AI“极度启蒙”,想必很多人都不陌生。毕竟,《王者荣耀》中的AI玩法是“绝对启蒙的挑战”。△红色方块AI装甲,大局观极佳,蹲在草地一圈力挽狂澜,还有《我的世界》、3D-FPS游戏等,可以说是《老玩家》绝对开悟”的游戏。背后的团队腾讯AILab,也是一位教AI玩游戏的老玩家。2016年以来,开发了AI“卓越艺术”和AI“卓越启蒙”,形成了“启蒙”平台。AI“绝艺”是一名棋牌游戏玩家。它的开发始于2016年,从Go开始。2017年绝艺在UEC世界计算机围棋大会上获得冠军,现为国家队专业训练伙伴。此外,它还可以下棋和麻将。在四人麻将中,“绝艺”是行业第一款达到国际标准专业水平的麻将,曾获得IJCAI麻将AI大赛冠军。紧跟“绝艺”,2017年又启动了“绝艺”的研发。它强调的不再是简单的游戏,而是多智能体AI在更复杂环境下的策略。2018年《绝艺》达到了业余选手的水平《王者荣耀》,2019年达到了职业电竞的水平。随后,《王者终极悟道》也为王者荣耀玩家带来了“挑战终极悟道”和“英雄修炼场”,成为玩家提升修炼的好帮手。此外,“觉悟”玩《我的世界》赢得了NeurIPSMineRL比赛,成功成为挑战史上“最快挖矿”的AI。AI《足球版》绝武也获得了谷歌举办的线上世界足球锦标赛冠军。在做游戏AI的过程中,腾讯AILab也和王者荣耀一起沉淀了一个平台“悟道”。即把腾讯的平台、算法、场景开放给学生和学术界,让他们进行相关的游戏研究。2020年8月,“启蒙”平台举办了首届启蒙学院大赛,今年还发布了王者荣耀1v1开放研学环境。事实上,游戏领域一直被认为是AI最好的试验场。从《绝武》这几年的战绩不难看出,它在强化学习等方面积累了一定的能力。那么将最优秀的能力迁移到外部,放到实际应用层面,是业界大势所趋。这一次,真的不能说游戏AI“不懂事”了。论文地址:http://arxiv.org/abs/2212.01737开源地址:https://github.com/tencent-ailab/RLogist
