ChatGPT去医疗还有多远?哈佛教授业绩接近博士,云知生被曝打造行业版.但他们什么时候能工作还不清楚,尤其是在一些难度大、门槛高的行业,比如医疗。现在,哈佛医学院的一位教授亲自测试了ChatGPT的性能。结果显示,它在45例中正确诊断了39例,正确率达到87%(超过现有机器诊断率的51%);并为30个案例提供了适当的分流建议。他表示,ChatGPT辅助诊断的性能接近于医生。如果可以,我什么时候可以开始工作?其实这也是目前国内大部分玩家面临的问题:奖金来了,怎么先拿?我们之前也系统梳理了中国版ChatGPT复刻背后的技术和生态难点,这显然不是短期内可以实现的。现在又衍生出一个新思路:直接打造一个行业垂直版的ChatGPT。这可能吗?创建行业版的ChatGPT是否可行?ChatGPT的构建,技术核心绕不开算力、数据和算法三要素。在算力方面,OpenAI背靠微软这头牛——拥有28.5万个CPU核心和1万个NvidiaV100GPU。仅训练GPT-3的成本就高达460万美元;在数据方面,GPT系列进行了迭代优化,曾经让大家惊叹的GPT-3拥有1750亿个参数,而之前版本的GPT-2只有15亿个参数;算法自然有多年的深厚积累,否则就不会有“类人”的自主学习特性,进一步展现出快速适应多领域、多场景的能力。再加上生态反馈技术,形成迭代闭环。从GPT-3开始,OpenAI就以开放接口的形式构建了专属的“GPT生态系统”。据gpt3demo网站统计,目前使用GPT-3系列模型开发的应用有656款。这样的技术和生态壁垒,决定了ChatGPT想要重现并不是那么容易。既然如此,ChatGPT竖版的解决方案也开始在业界讨论。首先,从技术角度来说,他们的核心挑战是在参数更少的垂直任务上,比如上百亿参数,达到或者超过ChatGPT的效果。这可能比复现ChatGPT更难,因为参数的数量要少得多,我们不能只靠“暴力美学”,还要有精湛的模型设计和压缩技巧。另一个挑战是数据源的多样性。像谷歌和微软,它们其实拥有天然的通用数据来源,但专用数据的积累无法与垂直玩家相比。尤其是医疗等专业性强、覆盖面广的民生行业,所需要的高质量数据可能不比ChatGPT小,而且大部分数据无法在线抓取。但对于在这里扎根多年的垂直玩家来说,早已构建了自己的产业生态,拥有丰富的行业数据和知识积累,为ChatGPT的再生产奠定了必要的基础。而从价值需求来看,垂直行业所代表的价值是实实在在的。比如,医疗本身的需求就不小。ChatGPT一旦落地到医疗领域,将代表着巨大的社会价值。过去,用户会习惯性地使用搜索和APP来帮助诊断自己的疾病,但往往收效甚微。哈佛医学院教授AteevMehrotra曾测试过,现有在线诊断工具的平均正确率只有51%,而ChatGPT有87%。因此,他认为ChatGPT可能会成为医疗诊断的游戏规则改变者。为了加速ChatGPT的应用,从技术难度和价值需求的角度打造垂直版ChatGPT是可行的。而现在国内已经有AI玩家在做这件事了。云知声ChatGPT行业版最新曝光,智能语音赛道独角兽云知声正在推进ChatGPT行业版建设——以医疗为切入点,打造ChatGPT医疗行业版,基于ChatGPT行业版搭建平台,快速拓展到其他领域,然后利用领域模型结合MoE(MixtureofExperts)技术,训练出一个通用的ChatGPT模型。而这种从特殊到一般的思维。其实是云知声一贯的“U+X”方式。这里的“U”指的是通用大模型算法研发和高效训练基地平台;“X”指的是用于多个行业的专用大型号版本。事实上,这也正在成为很多公司进入ChatGPT的想法,这样他们就可以利用现有的专用数据。不过,走得也不是那么容易,更何况云知声选择了对生成内容质量要求更高的医疗行业作为切入点。最重要的问题是提高医学知识的可靠性。ChatGPT最擅长的是严肃的废话。Bing上的聊天、搜索、内容生产其实都不是什么大问题,用户乐在其中。但是,在应用于行业时,往往非专业人士难以察觉,从而导致各种风险。所以ChatGPT行业版必须杜绝一切废话,尤其是医疗、教育、工业等行业,内容生成要求极高容错率低,对数据质量要求高也更高。其次,是实现行业内的“性价比”。任何技术要大规模落地,都需要解决“如何以有限的资源发挥最大的作用”的问题。这也是ChatGPT行业落地的必由之路——模型可以用更小的参数规模实现与ChatGPT相同的效果。这也给这些企业带来了不小的问题。事实上,Unisound也坦言,ChatGPT行业版的参数可能也需要达到百亿规模,要做出效果并实现规模化应用,是一个不小的挑战。从某种程度上来说,打造行业版的ChatGPT要比目前通用的ChatGPT更难,但当真正的ChatGPT行业落地时,这些问题都必须要解决。简单来说就是实现ChatGPT工程能力。这是每一个进入游戏的人都绕不开却又必须走过的路。在此基础上,云知生的选择无疑更加艰难——以医疗为切入点。这一直被认为是一个行业壁垒高、专业性强、技术难度大的领域。这也是为什么与其他行业的繁荣相比,医疗AI玩家寥寥无几的原因。但是一旦ChatGPT的医疗版开放,其他领域的实现,包括最终的通用模型,将会更加有效。作为一家成立于2012年的AI公司,他们一直密切关注AI前沿技术,积极推动技术产业化,包括2012年深度学习算法的升级和产业化,以及Atlas超算平台、知识图谱和全球AI在2016年应用StackAI技术升级为基于ChatGPT框架的AGI认知技术。同时,凭借在医疗行业近10年的深耕,积累的行业知识、数据和应用也获得了2019年北京市科技进步一等奖。在回应是否有信心打造ChatGPT行业版时,Unisound表示:完全有信心。综上所述,ChatGPT的诞生离不开优质的数据、领先的算法和充足的算力。对于垂直版的ChatGPT,需要更深层次的工程能力。从这些方面来看,Unisound确实是对行业的借鉴。在数据方面,云知声近10年积累了全方位的行业数据,包括面向患者的指导、预诊、患者教育和随访系统,以及面向临床的语音病历、病历质量控制、单病种质量控制和医疗风险管理系统,已被近400家医院使用。据说数据规模已经达到5T,为医疗行业的大语言模型提供了数据基础。在算法方面,以ChatGPT为代表的认知智能本身就是Unisound的核心技术优势。他们建立了中国最大的医学知识图谱之一。2019-2022年,云知声认知智能技术在国内外相关测评中获得7冠5亚。其自主研发的医学预训练语言模型CirBERTa曾荣登中文医学信息处理挑战榜首。在算力方面,云知声超算平台的浮点运算能力可达每秒80亿次,可为千亿级参数规模模型提供算力保障。在大模型工程方面,云知声开发了CirBERTa模型,复现了GPT-2模型,利用模型压缩和知识蒸馏机制,实现了在线推理效率近100倍的加速。应用奠定基础。此外,作为ChatGPT的行业版,内容质量保证也是一个关键环节。云知声给出的解决方案是利用CirBERTa中应用的持续学习和知识嵌入技术,在已有知识图谱积累的基础上,优化ChatGPT模型的知识获取和更新机制。据介绍,这样可以保证ChatGPT答案中知识的正确性,同时可以给出知识溯源信息。此外,采用云知声业界领先的病历质控技术,能够自动发现生成的病历中存在的问题,进而自动生成人类反馈强化学习(RLHF,ReinforcementLearningfromHumanFeedback)所需的信息,即ChatGPT的核心技术。用户反馈数据加速模型优化。谁最先吃到ChatGPT红利?最后,回到事件本身,之前关于ChatGPT对行业价值的讨论,都是从宏观层面的产业生态和模式创新的角度,如人机交互、信息分发、内容生产等。如今,随着越来越多的垂直企业入局,ChatGPT对企业的意义也呼之欲出——一种新的AGI技术范式选择:基于“大规模通用基础模型+轻量级行业应用”的行业知识整合与优化优化”问题解决。以往,这些场景中的玩家在探索AI时,可能一直处于一种“见山为山,见山为山”的懵懂状态。现在有了“小山知会有路”。ChatGPT展现出来的“智能”,给他们带来了明确的技术方向。云知声CEO黄伟也深有体会。与AlphaGo相比,他认为ChatGPT的影响要深得多,相当于一场新的“工业革命”。这场革命最大的优势在于,通过自监督的attention机制,可以充分利用海量无监督数据训练通用基础模型,实现感知、认知和生成的“端到端”融合一个统一的框架,直接从高质量的生成结果到呈现机器智能。机器采用的人工引导的数据驱动学习方式,与人类的逻辑思维方式完全不同。同类飞机采用的喷射“气动”机制与鸟类采用的“扑翼”方式完全不同。无论是对整个行业还是单个企业来说,ChatGPT带来的价值着实让他们望尘莫及。尤其是对于一些场景玩家来说,他们依然是最有可能吃到ChatGPT红利的人群。他们有场景、有数据、有深厚的行业壁垒。一旦他们拥有了ChatGPT能力,他们就可以在行业中率先落地。这是其他玩家无法做到的先发优势。上次AI浪潮袭来的时候,最后还是场景玩家最先吃到AI红利。只是现在ChatGPT直接出现在了技术路径上,落地速度自然也比之前快了很多。云知声CEO黄炜也给出了明确的时间点:成功应用落地计划将在年内实现。
