这种方法有明显的局限性图像的分辨率和精度是两回事

来源:IT之家   阅读量:5432   

免费开源稳定扩散玩出了新花样:

稳定扩散不仅可以将同一幅原始图像缩小到更小的尺寸,而且性能优于JPEG和WebP。

对于同一幅原始图像,稳定扩散压缩后的图像不仅细节更多,而且压缩伪影更少。

但使用稳定扩散压缩图形的软件工程师马蒂亚斯·布尔曼也指出,这种方法有明显的局限性。

因为它不太擅长处理人脸和文字,有时甚至会在解码和扩展回来后,幻化出原图中不存在的特征。

像这样:

左边是原始图像,右边是稳定扩散压缩和扩展的生成图像。

但是话说回来—

稳定扩散是一种特殊的扩散模型,称为势扩散。

与标准扩散不同,潜在扩散在低维的潜在空间中进行,而不使用实际的像素空间。

也就是说,隐藏空间的表现结果是一些低分辨率的压缩图像,但这些图像具有很高的准确性。

在这里,图像的分辨率和精度是两回事

以这只骆驼的头像为例:原图大小为768KB,分辨率为512×512,精度为3×8位。

经过稳定扩散压缩到4.98KB后,分辨率降低到64×64,但精度提高到4×32位。

所以看起来稳定扩散的压缩图像和原图差别不大。

更具体地说,稳定扩散的势扩散模型有三个主要部分:

VAE,优信网和文本编码器。

可是,在这个压缩图像的测试中,文本编码器是没有用的。

VAE起主要作用,它由两部分组成:编码器和解码器。

MB发现,VAE的解码函数对于量化潜在表征是非常稳定的。

通过缩放,拖动和重新映射,将潜在表示从浮点量化为8位无符号整数,可以得到失真很小的压缩图像:

首先将latents量化为8位无符号整数,图像大小为64×64×4×8Bit=16 kB。

然后利用调色板和抖动进一步将数据压缩到5kB,同时提高图像还原度。

作为一个严谨的程序员,MB哥不仅用肉眼观察,还分析了画质的数据。

但从PSNR和SSIM这两个重要的图像质量评价指标来看,稳定扩散的压缩结果并不比JPG和WebP好。

此外,当潜在表示被重新解码并扩展到原始图像分辨率时,尽管图像的主要特征仍然可见,但VAE也会将高分辨率特征分配给这些像素值。

用白话文来说,重建的图像往往与原始图像不同,其中包含了许多新生成的鬼畜特征。

我们再来回顾一下这张图:

虽然用稳定扩散来压缩图还有很多问题,但是用MB的话来说,它的效果还是很惊人的,前景很光明。

现在MB哥已经把相关代码放在Google Colab上了,感兴趣的朋友可以仔细看看~

入口

参考链接:

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。