寂静回声 发表于 2023-1-4 16:33:13

Google 开源 ML 模型

当你看一张图片时,你会先注意图片的哪些部分,或者说图片中的哪些区域会首先吸引你的注意力,机器学习能不能提前知道用户的注意力会集中在什么地方?


基于这个想法,Google 训练了一个机器学习模型可以做出这样的预测,并将该模型应用于 JPEG XL 图像编码格式。当应用该模型之后,浏览器会首先加载用户会第一时间注意的图像部分,从用户的视角来看,图像加载速度会有明显提升,可以显著改善用户体验。

当然,这个模型不仅可以适用于 JPEG XL 图像的编码,只要是需要根据用户注意力来调整内容加载优先级的项目都可以使用这个模型(比如在 VR 中,可以结合摄像头和模型来调整 VR 画面的清晰度,优先加载用户目光所及的画面)。

如果各位的网龄足够大,是可以回想一下网速还不够快的年代,当时想要浏览一张图片,图片通常是一行一行逐渐出现,有很大的割裂感,图像不加载个 60%-70%,你根本看不出图像描绘的具体是什么东西。现在网速已经越来越快,图片通常能够一瞬间就加载完成,用户大多数情况下察觉不到图片的加载,但是该模型在一些欠发达地区仍然具有重要的意义。
根据这个模型的原理,当加载一张图像时,首先会在一开始显示整个图像的低分辨率版本,当你的目光开始注视图像时,机器学习就会预测你目光会注视的区域,并加速将该区域的加载,使其变得足够清晰。然后,当你的目光在图片上游走时,机器学习已经猜到你的眼睛接下来会看哪里,图像的这些地方就会逐渐加载清晰。图片后续依然是基于注意力逐步加载图像,最后就是那些用户的目光可能完全不会特别关注的边缘区域,就完成了 100% 加载。

如果这套机器学习模型预测得足够准确,用户可能完全不会注意到图像是一部分一部分慢慢加载出来的,甚至会有一种图片一开始就是完整加载出来的错觉。

目前 Google 也放出了该技术的演示,用户可以自己试试看。要想获得最佳体验,前提是需要使用基于 Chromium 的浏览器,并启用其实验性的 JPEG-XL 图像渲染器。

Google 放出的这个演示使用了 JPEG-XL 图像格式,但在 10 月份的时候他们就表示过将在后续的 Chrome 版本中删除这个格式(难道团队没有沟通?)。目前还不清楚 Google 未来会在什么领域使用这个机器学习模型。

该模型的 GitHub 地址:https://github.com/google/attention-center
页: [1]
查看完整版本: Google 开源 ML 模型