当前位置: 首页 > 科技观察

T 前线 - 专访作业帮首席AI架构师王岩:AI的普惠性在于思路创新_0

时间:2023-03-13 23:10:18 科技观察

T前线|Jobbang首席AI架构师王岩专访:AI的包容性在于理念的创新专访专栏之一,通过邀请科技行业的商业领袖、资深架构师、资深技术专家进行深度解读和洞察当前技术热点、技术实践和技术趋势,促进前沿技术的传播和发展。人工智能被称为第四次工业革命,被各行各业寄予无限期待。在改善人们生活的同时,也提高了整个社会的运行效率。近年来,大规模模型和多模态再次推动了相关研究的热情。聚光灯下,你可能更多看到的是,行业将AI推向极致,却往往忽略了其“水利”的另一面。技术的发展离不开实际场景,人工智能研究的起起落落总是伴随着应用落地的问题。如何稳步把“高大上”的技术推到地上?您如何看待人工智能与细分行业的深度融合?您如何看待大模型的研究热度?带着这些问题,《T前线》采访了一家深耕教育场景的科技公司:作业帮。作为一家致力于用科技助力全纳教育的企业,利用人工智能、大数据等前沿技术,提供一系列高效的学习教育解决方案和产品。尤其是在教育领域,AI技术的探索与落地,无论是用户规模还是技术选型,都极具代表性。这也为我们思考如何利用人工智能推动行业变革提供了重要参考。T前线有幸邀请到Jobbang智能技术实验室首席架构师王岩先生,为我们分享他对这些问题的见解。教育产品基地:三招打造题库说到作业帮,你可能会对题库强大的功能印象深刻。Jobbang是国内最早建立题库的教育科技公司之一。截至目前,其题库量已达5.4亿+。这么庞大的题库是怎么建起来的?在王艳看来,题库建设的成功得益于三个条件。首先,由于作业帮的先天优势:众所周知,作业帮最初是百度内部孵化的业务。最初定位为问答互助社区,后来推出了搜索和回答业务。为了优化搜索和回答结果,Jobbang通过组建专职教研教师和兼职教师团队,打造了最大的在线题库制作平台。这也是源于百度知乎的模式。在提倡分享和交流的社区氛围中,鼓励用户互相解决问题,也非常贴近网友实际的问答和交流场景。而不是当时其他公司做的:让在职大学生做题库。这样,我们通过对用户产生的内容进行深入分析和挖掘,逐步了解用户在学习场景中最关心哪些问题,哪些问题比较难,哪些问题是大多数人会遇到的。这是一个重要的前提,它确定了我们建设的方向。其次,Jobbang非常重视资源的价值和建设,对题库也足够重视。题库不仅在用户交流中发挥着巨大的作用,在答疑??和教学中也起着非常重要的作用。依托众包系统,将题库建设分成独立的流程环节,难度较小,使得题库建设相对快速、相对全面,很好地保证了题库建设的规模化。第三,光有一个题目是不够的,还需要把题目联系起来,比如:考察的知识点,难易程度,依托的其他知识点。这涉及标签的处理及其与知识图谱和知识树等技术基础设施的关联。只有这样,题库才有能力被高效的检索和筛选,才能真正发挥出题库的价值。当然,在题库本身的建设过程中,一开始很多环节都是人工操作的,后来不断引入AI技术,比如做题拍照等大部分电子录入步骤。AI自动将这些图像识别为计算机可理解的格式。数据和语言。通过自动标注、格式化公式、AI纠错技术等AI能力进行自动化辅助处理,大大提高了准确性,大大降低了人工成本。得益于题库的建设和AI技术的不断深化和拓展,Jobbang实现了一系列AI加速技术,将搜索和回答的响应时间优化到1秒,而早期同类产品的响应时间约为8秒。在公立学校对接项目中,题库对教学场景起到了很大的辅助作用。一个亮点是高质量的作业系统,具有个性化和精准的问题推演能力。系统的本质是根据不同的学生状态,比如做题的时间长短,不同知识点的掌握程度等进行数据分析,做出个性化的出题。因为对于学生来说,太容易太难都会让题目变得毫无价值。同一个主题对不同的学生会有不同的价值。因此,需要充分了解学生,结合题库本身丰富的标签维度,精准匹配。题库在设计优质作业产品方面起到很大的辅助作用,有利于学生巩固真正需要巩固的知识点。自动辅助批改:机器如何解决图形题,除了题库,更重要的是自动辅助批改技术。与客观题相比,主观题的批改难度很大。以数学答题为例,利用多年积累的OCR技术,准确识别学生答题内容,并通过NLP技术进行结构化分析,如对答题内容进行逻辑分析,以及然后根据答案规范等识别错误点;此外,还利用知识图谱的能力,不仅可以指出学生哪里错了,还可以告诉学生错的原因,然后利用用户画像和推荐算法的能力,生成针对学生的学习报告,帮助学生找出学习过程中的薄弱点。同时,依托一套以作业为依托的云原生、多云容灾体系,为该服务体系提供了高度的稳定性和可靠性。因此,这也保证了即使多所学校同时使用,也不会出现宕机,保证了用户的稳定使用。据王艳介绍,由于Jobbang多年积累了大量用户,他们会定期对操作系统的性能进行评估,评估结果也处于行业领先地位。与市面上的同类产品相比,目前的Jobbang还支持更多题型,准确率更高。1.阶梯式自动辅助批改知识的学习有一个闭环:教师通过教学传授知识,学生通过习题检验哪些知识点学到了哪些不知道。实践。在这种“讲→做→判→讲”的教学闭环中,老师对大量作业的反复批改成了一大痛点。过去,老师很难准确地指导每个学生。利用AI辅助批改,可以帮助教师有效减轻批改负担,大大减少不必要的时间和精力,同时让更多的学生有效提高成绩。目前,作业产品系统的使用率很高,老师们几乎每天都在使用。而且,该系统还可以融合教师的教学经验和风格,根据教师的不同需求进行定制。目前主观题和应用题可以按步级批改。后期的主要改进方向是继续降低教师批改作业的劳动比例。2.图解题的答案是唯一的。与文本题相比,OCR和文本检索一般可以用来识别和匹配题库中的正确题目。但是,对于某一类题目来说,是比较特殊的,那就是图形问题。比如试卷上经常有这样一道题:求下图的阴影区域。这时候需要提取的特征不仅仅是文本,还有图片的特征。因为只有通过文本检索,题库背后的检索系统才能找到相似的题干,但是得到的结果中每道题的形状是不同的。这时,我们需要从图像中提取矢量化特征。数字向量表达,结合大量题库的特点,形成“文字+图像”的特点。特别是在小学题中,往往有很多题图和文字夹杂在一起。不仅要看懂题干文本,还要看懂方框之间的结构关系,包括“连线题”特征的起始位置抽线,抽轨判断。画题也是如此。3、试卷还原:黑科技往往植根于现实。在辅助教学场景上,作业帮在OCR、语音、图像识别、作业批改等方面也积累了大量技术专利。比如我们公开了人工智能高效校正畸变图像的专利,这是在一个非常迫切的场景下研究出来的。众所周知,“重做错题”是教学场景中非常重要的一个环节。家长和老师需要将试卷恢复到未答题状态。但试卷拍照后,往往字迹不齐,试卷题目歪曲。因此,需要技术来解决排版校正的问题。我们利用深度神经网络来识别人的笔迹,并将其与试卷字体区分开来,结合图像增强技术等,可以非常有效地还原试卷。目前,该技术已在左阅邦App上线,并应用于打印机产品,纸质试卷可还原原状,从拍照到还原仅需数秒。在以往的练习中,一般要求学生手工复制一个题目,然后再做一遍。这可以说是一项强大的“黑科技”。当然,这项技术不仅仅用于还原试卷,还可以用来对网课交作业前拍下的作业进行修正美化,使其还原到更好的排版状态。内容识别准确率。4、知识图谱:专家知识的聚集地。知识图谱的构建离不开人的经验体系,教育场景同样如此。我们的知识图谱能力更多是在课程场景中积累的。大量教研教师在教研过程中总结知识点的脉络、依存关系和学习路径。这些关系和路径可以将分散的知识点连接成一个网络,从而创建知识图谱的原型。教研教师提供了丰富的专家经验和知识点体系,研发部门在此过程中运用了一系列自动化的AI机器学习能力进行大规模落地。有了图谱,我们就可以进行下一步的个性化作业设计,比如推荐与能力相当甚至有一定挑战的题目,从而学习更深层次的知识点。目前知识图谱在作业帮中的应用场景非常广泛:教学场景、作业批改、个性化学习、作业诊断,包括刚才介绍的题库相关话题的关联。其实质是让问题有一个更精准的维度来进行检索和推荐。从数字化到AI:尊重用户原有习惯在过去的教学场景中,一方面,纸质书本、教师板书、PPT等没有数字化;另一方面,学生回答的内容,包括答案是否正确、家庭作业和考试成绩等也需要数字化。为什么要数字化?因为如果不将自然物理世界的内容转化为计算机可以理解的数据信息,不仅我们在计算机领域的先进技术研究无法落地,连检索、推荐等仅仅提高效率的技术,将毫无用处。因此,无论是语音还是图像,都是传递教学理念和知识的重要媒介和载体,这些都需要深度数字化。近年来,随着教育信息化的不断推进,大部分教室都配备了数字大屏幕,日常课堂使用的教学课件也实现了数字化,而我们现在正在做的就是推动作业场景的数字化。但值得注意的是,现阶段使用AI的能力必须尊重师生原有的习惯,不能轻易改变。比如在原来的教学模式中,大家习惯于卷试卷。如果取消纸质试卷,全部搬到网上,就会出现严重的“水土不服”问题。虽然要求在线答题也可以数字化,但这改变了习惯。而且一旦改变习惯,就很难大规模使用。基于此,出于对教师批卷、学生作答的真实习惯的尊重,九邦创新了经营理念:在作业系统中引入了“原卷保留分数”功能。因此,在汪言看来,我们更需要的是思维创新,降低技术使用门槛,在不改变习惯的情况下进行数字化。从工作场景放大到教育场景,你会在很多新场景中发现新需求。比如运动场景:体育老师很注重每个学生上课时能承受的运动强度,比如心率监测。当学员运动时心率过高,应提醒学员停下来休息。又如“跳绳数数”。我们不使用计数器,但是让摄像头自动识别和计数会更方便。此外,肢体动作的捕捉也是一项实用的技术,可以帮助学生检查动作是否标准、规范,这些AI可以用来辅助矫正。一、AI如何寻找落地机会Jobbang是一家技术驱动的公司。开发团队经常会问这样的问题:还有哪些其他技术可能有用?有没有什么好的技术可以满足以前不能很好满足的需求,现在可以完成以前不可能的?基于此,王岩总结了如何寻找AI落地机会背后的逻辑:我们应该知道自己掌握了哪些技术,拥有哪些资源,然后再考虑如何将合适的技术应用到具体的场景中。基于现有技术资源,做场景匹配。下一步是思考和权衡技术可以达到的程度,然后进行试点和优化。2.相对于C端场景,B端客户在对B端精度要求更为苛刻的运营场景下,有特殊的需求和定制化需求。比如学校在准确性方面会有更高的要求,比如批改,不能有错误。C端产品更多的是突出功能的丰富性和用户体验,对于精准度的要求没有那么极端。对AI产业的看法1、基础研究是基础,前沿技术更香。基础研究是我们的技术基础。这些技术已经有了广泛的应用场景。基础技术的优化将带来相当规模的应用性能,因此基础研究的投入必不可少。尖端技术的研究可能会带来游戏玩法的变化。随着技术的不断发展和创新,以前做不到的事情,也许有一天会突然实现。实验室的学生被鼓励分配20%到30%的精力用于Follow和跟进。在应聘者的能力上,他们希望有一定的学术研究能力,同时也会看重工程能力。更强的工程能力意味着更强的实施能力,而要真正推动AI技术落地,还需要在应用层面继续扎实。当然,最理想的是希望人才具备全栈能力,能够独立完成实验设计和应用实现,在实际应用中快速验证某些创新的提升效果。2、模型不能只追求大,还要借鉴教育领域和通用行业的实践和发展经验,这与通用技术还是有些区别的。AI如今已经应用到各行各业,但细分到教育场景,大部分基于通用场景的模型无法“包容”到具体场景。王艳给我们举了一个生动的例子,比如手写输入法中的手写识别,算法模型有一个前提:成人手写的手写体。但在作业场景中,不同年龄段的学生写字不同,对工整整洁要求不高。因此,对于教育领域,AI需要基于具体场景进行细化,需要潜入具体场景进行沉淀,解决通用领域的问题,探索发现新的业务需求,解决实际问题。问题。在推动相关技术发展的过程中。被广泛使用的东西必须是公众买得起的。“大模型已经取得了公认的性能提升,但要被用户广泛使用还有很长的路要走。”在汪言看来,大模型和多模态的研究确实可以提高准确率,但往往一个任务准确率的提升,比如从95到96,这一点提升的背后是以巨大的牺牲为代价的的计算能力。现在千亿、万亿参数的大型模型需要非常大的集群来支持和运行。对于实际场景来说,如果没有庞大的算力集群可以使用,那些一秒就能跑出结果的大模型,可能需要相当长的运行时间。虽然集群硬件的性能在不断提升,相应的单位算力成本也在不断降低,但能够被广泛应用的技术一定是低成本和负担得起的。把所有的精力都放在追求算力上,在一定程度上,有点浪费钱。人工智能的广泛落地在于理念的创新,在于对技术本身性价比的追求。如何让科技的万千用户受益,噱头式的功能如何在现实生活中广泛使用,是一个关键问题。我们目前的用户量非常大,每一秒都有很多用户在使用,所以如果我们采用“堆算力”的方式,成本将是难以想象的。目前,我们要做的就是在用户负担得起的情况下,为用户提供尽可能多的功能和服务。一方面,我们思考如何提高算力的利用率,让设备不闲置。另一方面,我们探索如何改进和优化模型和工程结构,以最合理的成本提供每秒数万次的计算。大规模人工智能服务水平。更重要的是,如何创新思路。只有在解决问题的思路上进行创新,让更多的用户切实去触摸和感受科技带来的便利,才能释放出更大的价值。嘉宾介绍了Jobbang首席架构师、Jobbang智能技术实验室负责人王岩。曾任百度知乎、百度百科技术总监。现任Jobbang智能技术实验室负责人。搜索问答、AI批改、题库等相关服务。