当前位置: 首页 > 科技观察

动动嘴就能玩原神!使用AI切换角色,你也可以攻击敌人,网友:“玲花,用神力流·双迷”

时间:2023-03-13 18:02:22 科技观察

说到这两年风靡全球的国产游戏,想必元神功不可没。根据5月发布的今年Q1季度手游收入调查报告显示,《原神》以5.67亿的绝对优势夺得抽卡手游第一名,同时也宣告《原神》上线仅仅18个月后,仅移动平台的总收入就超过30亿(约130亿令吉)。今天,Sumeru发布之前的最后一个2.8岛版本已经姗姗来迟。经过漫长的草稿期后,终于有了新的地块和区域。但不知道有多少个“肝帝”。现在岛上到处都是探索,草又开始长出来了。一共有182个宝箱+1个莫拉宝箱(不算在内)。长草期没什么好担心的。原神区向来不缺活。这不,在长草时期,有玩家用XVLM+wenet+STARK做了一个声控项目来玩原神。比如他说“用三招攻击中路的火史莱姆”的时候,钟离先出盾,凌华一个散步,“不好意思”一声,团杀了4只火史莱姆。同样,说完“攻击中路的大丘人”,戴奥娜拿到了E套盾,玲花跟着一个E,然后3A一中干净利落的收拾了两个大丘人。从左下方可以看出,整个过程是在没有任何手工操作的情况下完成的。消化菌号称是专家,以后还能省钱省手,还说妈妈玩元神再也不用担心腱鞘炎了!目前该项目已经在GitHub上开源:GitHub链接:https://github.com/7eu7d7/genshin_voice_play好的Genshin,只是被当成宝可梦玩了。自然,这整个项目吸引了众多原神长草玩家的目光。比如有玩家建议可以设计的更集中一些,直接用角色名加技能名。毕竟观众不可能一开始就知道《战术3》这个命令,而“钟离,使用地心”就很容易了。易于代入游戏体验。有网友表示,既然可以给怪物下指令,那是不是也可以给角色说话,比如“龟龟,使用冰霜毁灭者”。TurtleDailyDoubt.jpg然而,为什么这些说明似乎有一种似曾相识的味道呢?对此,up主“薛定谔的虹猫”表示,喊技能的说话速度可能跟不上,攻击速度会变慢,所以我预设了一套。但像一些经典球队,比如“万达国际”和“雷九万班”,输出方式比较固定,预设的攻击顺序和模式似乎行得通。当然,除了耍花样,网友们也??在集思广益,提出了很多优化建议。比如直接用“1Q”让1号位的角色放大招式,用“heavy”表示重击,用“dodge”表示闪避。如此一来,下达命令会更容易、更快捷,说不定还能用来打深渊。也有经验丰富的玩家表示,这个AI似乎“不太了解环境”、“下一步考虑加入SLAM”、“实现度全方位目标检测”。up主表示,接下来就是“自动刷新书籍,传送,打怪,领取奖励”。貌似还可以加个自动增强圣物功能,AI歪了就格式化了。原神曲的硬核后起之秀也推出了《蒂瓦特钓鱼指南》。hardcore”。从“AI自动走迷宫”到“AI自动对局”,原神初的每一款小游戏都可以说是尽可能的AI化。其中消化菌还发现了“AI自动钓鱼”项目(好人原来也是你),只需启动程序,蒂瓦特的所有鱼都可以成为你的口袋。源信自动钓鱼AI由两个模型组成:YOLOX和DQN:YOLOX用于鱼的定位和类型识别,以及鱼竿落点的定位;DQN用于自适应控制钓鱼过程的点击,使强度落在区域内最佳。此外,该项目还使用了迁移学习和半supervisedlearningfortraining.该模型还包含一些不可学习的部分,使用opencv等传统数字图像处理方法实现.项目地址:https://github.com/7eu7d7/genshin_auto_fish等3.0更新,你还需要获取"saltedfishbow"从钓鱼,拜托!作为将元神变成宝可梦“神器”的正经人,消化菌也觉得有必要科普一下这次元神语音项目中用到的几款“神器”。X-VLM是一种基于视觉语言模型(VLM)的多粒度模型,由图像编码器、文本编码器和跨模态编码器组成。状态注意学习视觉语言对齐。学习多粒度对齐的关键是优化X-VLM:1)通过结合边界框回归损失和IoU损失,在给定关联文本的情况下定位图像中的视觉概念;文本与视觉概念的多粒度对齐的模块化损失。在微调和推理中,X-VLM可以利用学习到的多粒度对齐来执行下游V+L任务,而无需在输入图像中添加边界框注释。论文链接:https://arxiv.org/abs/2111.08276WeNet是一个面向生产的端到端语音识别工具包,在单个模型中引入了统一的双通道(U2)框架和内置操作处理流式和非流式解码模式。就在今年7月初,WeNet推出了2.0版本,并在4个方面进行了更新:共享编码器的表示能力和重新评分阶段的性能;引入基于n-gram的语言模型和基于WFST的解码器,方便富文本数据在生产场景中的使用;设计一个统一的上下文偏差框架,利用特定于用户的上下文为生产提供快速适应性,并提高“有LM”和“无LM”场景下的ASR准确性;统一的IO旨在支持大规模数据以进行高效的模型训练。从结果来看,WeNet2.0在各种语料库上比原始WeNet实现了高达10%的相对识别性能提升。论文链接:https://arxiv.org/pdf/2203.15455.pdfSTARK是一个用于视觉追踪的时空转换网络。基于由卷积主干、编解码器转换器和边界框预测头组成的基线,STARK进行了三项改进:动态更新模板:将中间帧作为动态模板添加到输入中。动态模板可以捕获外观变化并提供额外的时域信息;scorehead:判断是否更新动态模板;训练策略改进:将训练分为两个阶段1)除了scorehead,使用baselinelossfunction进行训练。确保所有搜索图片都包含目标,并让模板具备定位能力;2)使用交叉熵只优化scorehead,此时冻结其他参数,让模型具备定位和分类的能力。论文链接:https://openaccess.thecvf.com/content/ICCV2021/papers/Yan_Learning_Spatio-Temporal_Transformer_for_Visual_Tracking_ICCV_2021_paper.pdf