暂且不谈元宇宙，谈谈音视频技术的未来_0

时间：2023-03-21 21:06:19 科技观察

1872年的一天，美国加利福尼亚州的一家旅馆里，两个年轻人发生了激烈的争吵。其中一个人认为，当一匹奔跑的马跳跃时，它的蹄子在空中。但另一个人认为，当一匹马奔跑时，一只蹄子总是在地上。英国摄影师麦克布里奇得知此事后，决定通过实验来验证谁对谁错。于是，他借助24台相机，连续拍摄了24张照片，从而创造了人类历史上第一部“视频”。不久之后，1877年，著名发明家爱迪生在他的“圆筒留声机”上录制了他朗读的《玛丽有只小羊羔》的歌词。这短短几秒钟的声音成为了人类历史上的第一个音频。由此，人类正式进入了音视频时代。音视频技术的发展与演变众所周知，人有五种感官，即视觉、听觉、嗅觉、味觉和触觉。通过五种感官，我们可以感知外部物质世界的存在，享受现实生活的美好。在人类漫长的历史长河中，文字和图片是记录和传递信息的主要方式。直到上述音视频的出现，人类记录信息的方式才升级到更高的维度，变得更加具体。早期的音像只能用胶片和磁带存储，容量有限，存储和运输不便。电影胶片直到20世纪70年代和80年代，随着数字录音和摄像技术的不断成熟，唱片公司和电影公司开始采用数字方式录制原始素材并进行后期制作，掀起了音像技术革新的浪潮.在数字技术的支持下，音视频编辑变得更加方便快捷。CD、MD、DVD等数字载体的出现，不仅音质和画质有了很大的提高，而且存储容量也大大扩展，空间占用也减少了。世界上第一台CD机，索尼CDP-101（1982年）20世纪90年代，个人PC的普及和互联网的爆炸式发展，再次刺激了影音技术的飞跃，将人类推向了多媒体时代。那个时期，互联网先辈疯狂的上传下载mp3、wav格式的音乐，bmp、jpg格式的图片，rm、mov、avi格式的电影。他们不再局限于纯文本的交互方式，而是全面转向QQ、MSN等多媒体通讯工具。同时，以音视频技术为基础发展起来的游戏产业，将人们对数字世界的感官体验推向了一个新的高度。人们开始对数字虚拟空间中的生活产生了早期的憧憬和迷恋。进入21世纪后，随着3G/4G和光纤宽带的飞速发展，CPU、内存、硬盘能力在摩尔定律下的进一步飞跃，音视频技术又一次突破，几乎可以据说日新月异。以视频的清晰度为例，一路从早期的标清（320p/480p），到高清（720P/1080P），再到超高清（4K/8K），最后催生了前所未有的人类-计算机交互方式——VR/AR（虚拟现实/增强现实）。VR/AR的出现，是人类第一次感受到所谓的沉浸式体验。我们与数字世界的交互已经从单向异步变为双向同步。我们已经朝着生活在真正的数字空间中迈出了一大步。2020年，腾讯提出“全真互联网”。2021年，元宇宙将遍地开花。这些都是音视频技术飞速发展的产物。视频编解码技术的不断演进和信息通信技术的快速迭代，极大地提升了人们的视频观看体验，彻底激发了人们对平行数字空间的渴望和向往，认为这是一个可以实现的梦想。人们不再满足于用音视频技术来传输现实世界的图像，而是希望“捕捉”现实世界的所有元素，将它们转换成无数的比特，存储在硬盘中。这些比特将成为人们构建数字虚拟世界的素材。由于音视频技术需求的变化，Metaverse能否实现，我不知道答案。然而，音视频技术的需求趋势是显而易见的。总结起来就是两点：民用化和工业化。近年来，智能手机的普及和专业录音设备的降价，让越来越多的普通用户有机会创作和制作音视频内容。短视频业务的爆发和全民直播的兴起，将视频全民化推向了一个新的高潮。网红直播带货几乎一夜之间，我们进入了“人人看视频，人人拍视频”的时代。许多优秀的up主或主播可以通过优质的内容赚取丰厚的利润，这激发了人们以视频为谋生手段的热情。在这样的情况下，音视频技术需要进一步降低门槛，让更多的人可以更轻松地制作内容。2020年，突如其来的新冠疫情也间接推动了音视频行业的发展。我们需要用虚拟空间的延伸来弥补疫情对物理空间的限制。学生在家学习，企业在家办公，在线课程和会议产生大量视频流量。据运营商统计，到2020年底，视频占全网数据流量的近70%。除了学习和办公的远程会议，业界还延伸了视频的应用，探索了更多的创新场景。例如，借助视频识别技术，可以进行产品质量检测、园区车辆管理、施工现场安全隐患排查等。再比如，借助VR/AR技术，可以对人员进行岗前培训、远程手术、远程回访、远程设备巡检和故障排除等。也就是说，视频不再只是一种娱乐工具，而是变成了一种生产力工具。各个领域和垂直行业都希望利用音视频技术对现有的生产场景进行升级改造，提高效率，降低成本。企业希望充分利用音视频技术，但又害怕技术门槛和资源投入。我们现在每天都在讨论数字化转型。事实上，“音视频+垂直行业”是企业数字化转型的绝佳切入点。音视频行业即将进入爆发期。音视频技术的未来方向刚刚提到了外部需求的变化。接下来，我们来看看音视频技术是如何应对变化的。简单来说就是三点：极致算法、智能功能、服务平台。音视频的各项性能指标都得到了提升，并且前进的步伐没有停止。特别是在视频方面，由于高清显示技术的驱动，视频的分辨率不断提高。除了分辨率，视频帧率要求也越来越高。还有VR视频，因为包含三维时空信息，所以冗余度更高，数据量更大。要实现超高清高帧和VR/AR视频应用的普及，仅靠增加硬盘容量和通信带宽是不够的，必须尽可能压缩视频的体积。这与视频压缩算法的不断改进是分不开的。目前，全球视频编码标准分为几个派系。除了大家熟悉的H.26X系列（ITU-T主导）外，还有MPEG系列（ISO/IEC主导）、AVS系列（国内AVS组织主导），以及免??费开源的AV1。来自知乎网友：甜草莓的标准已经形成了开放的竞争关系，在不断探索视频算法的极限。它们是视频技术向前发展的基础。除了硬指标的提升，音视频的另一个发展趋势是全面智能时代的到来。也就是说，AI人工智能技术正在不断被引入音视频领域，帮助提升音视频内容的生产效率，同时创造更多的玩法。先看音频。AI+音频可实现对音频信号的智能识别和编辑。具体识别对象可以是歌曲中的鼓点和节奏点。人工智能可以根据音乐的强度、情绪、风格、情感等维度来理解和标记音乐。创作时，AI可以智能分离音乐中的人声、伴奏、吉他、钢琴等音轨。AI还可以自动续写歌词，将流行歌曲改编成Rap（说唱音乐）。再看一遍视频。做过视频的都知道，视频内容创作的大部分工作量都集中在视频内容的剪辑和渲染上，费时费力。相较于传统的人工剪辑，基于算法和学习，AI可以对视频素材进行“智能增强”和“智能剪辑/分割”。“智能增强”是利用AI技术，对视频图像进行降噪、色彩增强，改善画面细节，增强人眼的主观效果。“智能剪辑/拆分”是对原始视频素材中人物的动作、事件、表情进行智能识别和分析，自动定位精彩片段、提取片段，完成剪辑、配乐等工作，将其变成精彩的视频精彩片段.“AI+音频+视频”的融合有着更广泛的用途。Up主可以借此实现智能视频配乐、音乐MV、vlog的自动创作，大大降低作品的制作难度。除了内容创作，人工智能还可以用于视频修复（老电影修复）、视频增强和工业视频应用。例如，腾讯多媒体实验室通过对敦煌壁画病害数据的深度学习，形成了一套自动识别并添加插图的算法，打造了高效的AI壁画病害识别工具。腾讯与敦煌研究院合作的VR文物远程会诊音视频技术的第三个发展趋势是服务形态的平台化。前文提到，音视频技术的应用难度很大，普通个人和企业都很难独立发挥。因此，现在很多音视频技术服务商都通过视频云（腾讯）和视频中台（中国移动）向个人和政企用户提供音视频能力。这些平台集成了开放的API接口，方便上层应用开发者调用和开发软件。平台本身，结合云端的能力，拥有无限的计算能力，可以支持用户的需求。专业服务商提供的技术和平台涵盖智能采集、数据处理、渲染展示等多个环节，有利于降低垂直行业音视频服务的开发门槛，让更多企业使用音视频服务从容应对，畅享音视频红利，加速数字化转型。结论现在，如果没有音频和视频，人们的幸福感就会减半。未来，没有音视频，企业效率将下降一半。如前所述，未来音视频技术将进入爆发期。尤其是在工业制造、金融证券、文旅教育等垂直领域，音视频将进入高速增长阶段。音视频的商业模式将发生巨大变化。音视频业务也会有大量的应用场景。希望影音能带来更多的创新，带给我们更多的惊喜。

上一篇：Linux上如何使用Vundle管理Vim插件

下一篇：老司机开着车，却被骗子用假视频坑了

暂且不谈元宇宙，谈谈音视频技术的未来_0相关文章