?一大批专注于音频、视频、白板、网络、AI等领域的资深技术专家。过去两年,派乐云一直致力于帮助用户实现高清、稳定、易用、低延迟的实时交互。随着5G和AI技术的发展以及全球疫情的影响,音视频应用场景越来越多变。派乐云如何为用户提供完整的解决方案和更好的产品体验?LiveVideoStack近日专访了派乐云首席科学家&合伙人张奇先生。他将从产品、技术挑战、应对策略、AI赋能等角度谈谈对音视频技术的理解和展望。张奇老师同时也是LiveVideoStackCon北京站的客座讲师,将在大会上为我们带来精彩的演讲。讲师介绍:张琪,派乐云首席科学家&合伙人。浙江大学数学系硕士毕业,20年视频开发经验,8年WebEx音视频引擎架构师工作经验,OpenH264作者,曾就职于虹软、WebEx、网易等公司。精通视频算法和音视频工程。曾领导多家公司的音视频引擎架构设计,深入理解人工智能技术及其在实时通信领域的应用,具有服务千亿分钟音视频通话的经验。LiveVideoStack:张老师您好,很高兴邀请您接受采访。能介绍一下您在拍乐云负责的工作吗?张琪:在派乐云,我主要负责音视频的开发,包括编解码、音视频引擎、前沿技术研究等。除了开发和管理工作,我还会参与客户对接。因为我们是做toB企业服务的,技术、产品、服务都很重要,所以我们会非常注重技术支持和用户反馈的对接。LiveVideoStack:我们看到派乐最近推出了业界首个“在线艺术音视频解决方案”,其中包含了视频校正技术。能否介绍一下这项技术及其使用的算法?张琪:在线美术教学场景中,视频内容多为画布。要想完美呈现画面内容,保证画面的空间比例,对拍摄角度的要求就很高。您需要将相机指向画布的中心。这在实际操作中其实难度很大,略有偏差。会改变。为了降低用户使用难度,我们支持用户随意拍摄,拍摄后对视频进行修正。需要关注相机的拍摄位置和角度,因此需要实时估计采集参数,然后求解几何变换矩阵。最后,修正了视频。同时,为了减少大量计算引入的延迟,我们还对GPU进行了优化,让整个运算时间在1毫秒左右,让用户体验更加流畅。LiveVideoStack:在互联网的高速公路上,最常出现的就是网络拥堵。后果是丢包、延迟和抖动,极大地降低了音频和视频的质量。派乐云是如何应对网络拥堵的?关于什么?张琪:派乐云应对网络拥塞的主要手段是带宽预测、动态码率调整和自适应FEC、ARQ、PLC等技术,可以实现极端场景下的流畅通话。同时采用前向纠错、丢包重传和丢包隐藏三种丢包恢复策略来应对拥塞。除了弱网对抗,派乐云还自建PanoBackbone全球实时传输加速网络,解决跨区域、跨国链路问题,降低拥塞概率,保证音视频通信质量。LiveVideoStack:正如您之前所说,所有抵抗弱网络的手段都是需要付出代价的,也可以认为是等价交换。这里的成本指的是什么?张琪:这里的代价指的是抗弱网造成的其他性能的损失。例如,传输过程中丢包是一个随机事件,在发送数据时无法知道数据是否会在传输过程中丢失。前向纠错编码虽然具有抗丢包能力,但对数据包的保护视而不见,客观上导致了传输效率的下降。从这个角度来看,判断系统抵抗弱网络的能力应避免从单一维度出发,需要综合考虑。LiveVideoStack:您认为未来AI技术会给RTC行业带来哪些重大变化?张奇:AI技术对整个RTC行业的影响一定是非常深远的。客观地说,以深度学习为代表的人工智能技术的发展和成熟,为音视频关键技术提供了又一次突破。方向。一些传统技术无法解决的问题,可以通过人工智能技术的融合大大减少。无论是RTC行业最核心的音视频编解码,还是现在比较流行的一些其他音视频处理和增强技术,比如音频降噪、视频超分辨率、物体分割识别等,它们都在AI的加持下实现了突破。LiveVideoStack:毕业于浙江大学数学系。是怎样的巧合让你走上了音视频之路?张琪:我硕士的研究方向是数字图像处理。在我的三年学习中,我的导师叶茂东让我受益匪浅。遗憾的是,我当时的思想还不够成熟,无法理解叶先生在数学研究上的深意,至今感到遗憾。在读研究生期间,我还参与了信息通信系信息与通信工程研究所刘吉林和王兴国的一些研究项目。他们是国内最早从事视频编解码技术研究的团队。在技??术上,他们受陈国斌博士的影响很大,可以说他们中的几位都是走上音视频发展道路的贵人。LiveVideoStack:在音视频领域深耕这么多年,您能预测下音视频技术的发展趋势会在哪里吗?张琪:深度学习、虚拟现实技术、3D视频等。深度学习前面已经有解答,这里不再赘述。虚拟现实和3D视频还要看相关硬件技术的成熟度,相信这一天不会太远。LiveVideoStack:我了解到您平时喜欢看书。如果让你推荐一本音视频领域的技术书籍,和本行业以外的其他类型的书籍,你会推荐哪两本?张奇:第一本书,我想推荐WriteGreatCodeVolume2:ThinkingLow-Level,WritingHigh-Level。本书的作者是RandallHyde,他的另一部著名著作是汇编语言的艺术。TheArtofAssemblyLanguage之所以不被推荐,是因为大多数学生将没有机会编写汇编代码。但是,你不需要写汇编代码,并不意味着你不需要掌握相关知识。对于音视频开发来说,代码执行的效率是一个非常重要的指标。但是在实际工作中,我发现有相当一部分同学并不注重代码执行的效率。也许你没有相关的知识和感受。本书是大家学习汇编语言的得心应手之作。它可以帮助你从汇编的角度审视高级语言,了解软件是如何在CPU上运行的,写出高效漂亮的代码。WriteGreatCodeVolume2:ThinkingLow-Level,WritingHigh-Level我想推荐的第二本书是《中的精神 – 吴清源自传》。在围棋界,吴清源是一位闻名天下的昭和围棋大师。他打败了日本所有的顶级棋手,将他们的对局成绩降为第一或第二,在日本象棋界独树一帜20多年。但是对于这样一位高高在上的人物来说,他的生活却相当贫穷。相比之下,他的精神世界却很丰富,除了棋,他一无所有。金庸说,他最敬佩的人中,古有范蠡,今有吴清源。这本书是吴清源精神世界的最好写照。《中的精神:吴清源自传》LiveVideoStack:您将参加9月份在北京举行的LiveVideoStackCon音视频大会,那么您会为大会带来哪些精彩内容呢?张奇:我会分享派乐云视频编码器的设计实践,以及针对实时视频系统应用场景的一些优化策略。众所周知,实时视频系统对时延要求极高,因此视频编码器必须满足实时性要求。现代编码器率失真性能的改进是以增加复杂性为代价的。当前应用设备碎片化非常严重,设备的计算能力参差不齐。这些都是实时音视频系统在新技术落地时将面临的挑战。挑战。所以我想分享一下我们在设计实时视频编码器时在平衡复杂性和实时性能方面的一些考虑。LiveVideoStack::好的,感谢您接受采访,期待您在2021LiveVideoStackConBeijing的精彩演讲!编辑:AlexLiveVideoStackCon2021北京站报名火热进行中!
