当前位置: 首页 > 科技观察

三个印度人改变压缩算法,一意孤行整个暑假,却因简单申不到经费

时间:2023-03-13 21:10:06 科技观察

整个暑假,三个印度人改了压缩算法,我行我素,却因为简单的原因申请不到资助。世界上最好的压缩软件是什么?微信。这个笑话想必很多人都听过。一张几兆的图片,微信发过去,立马降到几百K。△如果是有损压缩,画质会下降(右边的天空有波纹)。虽然这是一个抱怨,u1s1,图像和视频压缩其实是一个非常必要的技术。比如视频通话或者传输大量图片的时候,如果不压缩,要么根本传输不出来,要么就是等待。因此,在过去几十年的数字时代,出现了很多相关的技术,比如JPEG和H.26X。但你可能不知道,这些技术可以追溯到47年前。三名名不见经传的印度工程师“一意孤行”。在没有申请研究经费的情况下,他们利用暑假修补了一项后来直接成为图像和视频压缩行业标准的技术。是双离合变速器。全称是DiscreteCosineTransform,即离散余弦变换。有趣的是,在DCT诞生之初,就连作者本人也没有想到它在后来的影响力会如此之大。没有DCT,就没有JPEG/MPEG。直接说,很多人可能不知道DCT是什么,但是大家一定听说过JPEG。除了是常见的图片文件后缀外,它其实是一种有损压缩标准,可以把一张图片从左边变成右边:ps。有损和无损的区别:无损压缩可以100%还原图像;有损是不可能的,但是有损压缩后图像的大小会大大减小。DCT是实现这一过程的基础技术。它是傅立叶变换的一种,可以将图像从空间域转换到频域,即将图像从像素矩阵变换为具有频率等信息的函数。具体的变换过程,我们以图像中一个3x3的像素块为例:△图源博客园博主@黑声的身体影X-Pacific对这个像素块进行DTC变换,相当于转换除第一个像素以外的所有像素,其余像素的部分信息被提取到第一个单元格中。这样,第一个格子的像素值代表了一张图片的整体外观,称为低频信息;剩下的格子代表图像中人物或物体的细节,称为高频信息。DCT转换后,每个3x3像素块会产生1个DC(直流)系数(位于第一格)和8个AC(交流)系数(剩余格),前者是DCT最重要的输出。由于大部分图像能量会集中在低频部分,因此转换后输出的直流系数值比较大,而输出的交流系数值比较小。利用“人眼对低频分量的图像比对高频分量的图像更敏感”的原理,通过量化保留低频分量,丢弃高频分量(改变大部分AC系数值设为0)。视觉效果对信息的影响很小,从而达到压缩的目的。从下面两张图片的三维投影可以看出DCT变换带来的变化:(上图:原图;下图:DCT变换后)在实际的JPEG压缩标准中,一张图片被分成若干个8x8像素块(如果不够,用空白填充)。在将颜色空间从RGB转换为YUV之后,DCT将每个块从左到右、从上到下进行变换。然后对每个块的变换后的系数进行量化,在此期间一些重要的分量被去除并且无法恢复。因此,它是一种不可逆的有损压缩技术。然后,分别对量化后得到的AC系数和DC系数进行编码,经过哈夫曼编码后,得到如下大串数。在解压缩过程中,可以通过对每个图像块执行逆DCT变换(IDCT)来重建完整的图像。具体计算过程如下:首先,将图片中每个像素点的原始灰度值和亮度值用8位表示,即(0,255)的范围。由于大部分值会分布在128左右,所以会在这些值中减去128,这样0的值会比较多,有利于压缩。这时候范围就变成了(-128,127)。然后用DCT变换公式进行变换,二维的用这个:变换后,根据量化表进行量化,将大部分系数变为0,完成压缩。附言。量化表是根据人眼对量化误差的视觉阈值确定的,有固定的表。接下来就是前面提到的一系列编码过程。1974年1月,这项技术首次发表在IEEETransactionsonComputers上。从那时起,图像和视频压缩的行业标准就诞生了。1998年世界上第一个视频压缩标准H.261,1992年的JPEG和MPEG,2010年的WebP,2013年的HEIF,2018年谷歌和亚马逊等公司联合创建的AV1……等其他压缩标准都是基于此技术,至今仍在使用。DCT的作者有3位,40多年来默默无闻的发明家,分别是纳西尔·艾哈迈德(NasirAhmed)、K.R.拉奥(K.R.Rao)和T.纳塔拉扬(T.Natarajan)。Nasir是新墨西哥大学电气和计算机工程名誉教授。1940年生于印度班加罗尔,获博士学位。1966年获新墨西哥大学博士学位。1966年至1968年任霍尼韦尔公司总工程师,1968年至1983年任堪萨斯州立大学教授。1983年至2001年,他回到新墨西哥大学担任电气与计算机工程系讲座教授。在此期间,他先后担任系主任和研究生院院长。纳西尔今年82岁。另一位主要作者是K.R.饶。他也是一位印度裔美国学者。1960年获博士学位。佛罗里达大学核工程专业。1966年获博士学位。新墨西哥大学电气与计算机工程专业。在接下来的50年里,他在德克萨斯大学阿灵顿分校担任电气工程教授。同时,他还是IEEEFellow。2021年1月15日,饶教授逝世,享年89岁。T.Natarajan当时是纳西尔的博士生,现在网上能检索到的关于他的信息不多。可以说,与大名鼎鼎的DCT相比,几位发明家堪称“默默无闻”。事实上,40多年来,很少有人关注DCT发明背后的故事。就连纳西尔的儿子也表示,“没想到父亲的影响力会这么大。”而将纳西尔从幕后推到台前的,则是得益于美剧中的一波致敬。2020年,《我们的生活》中有一个情节,纳西尔讲述了自己和妻子通过视频通话相爱的故事。摄制组表示,设计这个桥段的初衷是希望让更多人认识到,能够通过网络快速发送图片和视频,离不开纳西尔的工作。剧情播出后,不少媒体将DCT定义为“改变世界的算法”,还称纳西尔这个名不见经传的工程师终于从幕后推到了台前。不过,纳西尔在回忆视频中表示,他真的没想到DCT会有这么大的影响。我也无法预测技术发展的速度,我对FaceTime等应用程序的出现感到非常惊讶。△纳西尔年轻的时候(图中左),要知道一开始DCT可能差点被扼杀在摇篮里。1972年,当时已经构想DCT的Nasir向美国国家科学基金会(NSF)递交了申请,希望NSF能为他的DCT研究提供资金支持。令纳西尔惊讶的是,申请被拒绝了,审稿人说“这太简单了”。幸运的是,纳西尔没有放弃。他总觉得这个想法很有新意。唯一让他担心的是,他可能只能利用假期完成与DCT相关的工作,而这期间他可能没有任何收入。于是,纳西尔回家对妻子说:我有一种预感,这是值得做的。只是我们需要计划如何度过一个没有薪水的暑假。他的妻子毫不犹豫地支持他。于是,1973年夏,DCT的研究工作正式启动。Nasir的朋友Rao和博士生Natarajan参与了这项研究。Rao也是支持Nasir研究DCT的重要人物之一。纳西尔的申请被拒绝后,他立即将自己的想法告诉了好友拉奥。饶给出了这样的答复:你应该立即以短论文的形式发表这些结果。这就是“我如何想出离散余弦变换”的诞生方式。后来,这篇文章几乎成为图像和视频压缩领域的必读之作。之后的故事就是我们所熟悉的了。1974年,《Discrete Cosine Transform》发表在IEEETransactionsonComputers上。截至目前,本文被引用次数已达5878次。纳西尔曾在接受采访时表示,他一生中最伟大的礼物就是人们对DCT的认可。