微帧ROI视频智能编码:基于人眼感兴趣区域,实现极致观感体验

2021-01-13

"The world is too much with us".


为了更好地认识这个纷繁复杂的世界,人类进化出了一套独特的视觉系统——中央凹成像系统,即当我们看东西时,眼睛聚焦的地方会看得更加清晰,而对于周围区域只能看个大概,这种成像方式既能让我们看清关键物体的细节,又能具有较大的视野。


例如,人在开车时,既能看清前方的路,又能兼顾两侧,这就是中央凹成像系统的功劳。前方的道路和车辆就是人眼主观关注与感兴趣的区域,而对于周边的蓝天、草地等非关注区域,人眼并不会产生过多关注。


正是中央凹成像系统让人类拥有了特殊的视觉注意力机制,在处理复杂视觉信息时,能够迅速将注意力和神经计算资源集中到场景的重要区域上。


由于这样的人眼视觉特殊性,人们在观看视频及图像时,往往会希望主观关注及感兴趣区域能够拥有较高的清晰度,而对于非关注区域,只需要达到基本视觉要求即可。

ROI视频编码技术

ROI:Regions of Interest,感兴趣区域


基于主观质量衡量标准,在视频编码过程中,我们可以对感兴趣区域进行低压缩比,甚至是无损压缩编码,以获得高质量的重建图像,而对非关注区域采用较高压缩率,这就是ROI视频编码技术。


微帧ROI (region of interest) encoding是一项基于感兴趣区域的视频编码技术,即对图像中感兴趣的区域降低量化参数值,从而分配更多码率以提升画面质量,而对不感兴趣的区域则提高量化参数值,从而分配更少码率,在不损失图像整体质量的前提下,降低视频码率。


右图:经微帧ROI智能编码处理后,码率不变,画质大幅提升


ROI视频编码码率分配的基本思路是:在视频编码前,对输入的视频场景进行视觉感知分析以确定感兴趣区域。在编码过程中,通过调整编码参数,为感兴趣区域分配更多码率,使其拥有更好的视觉质量,而其他区域则相应减少分配的码率,因其误差敏感度较低而对整体视频质量影响较小。


在同样的码率限制下,这种码率分配方案的编码结果将会比传统的分配码率的结果有更好的主观视觉质量。

几类不同的感兴趣区域检测

1)中心区域

屏幕中间或固定其他地方的ROI区域,此类型ROI是基于经验的判断,在正常视频的拍摄手法上通常会将最重要的内容放在画面最中间。


2)人脸

人脸是人最明显的特点之一,在视频中明显位置出现的人脸会很容易被观众注意,因此人脸是最显著的主观敏感区域。


对此ROI区域的编码需要先准确定位人脸,再做针对性地画质调优以及编码参数调优。微帧智能转码系统支持标准版和超低复杂度版本人脸检测,其中标准版处理1080p视频平均在3ms每帧以内;超低复杂度版本在1ms每帧以内。适配秀场、综艺、安防、影视等包含人脸的场景。如下图所示,标准版人脸检测即使在多人脸、遮挡、侧脸、小脸等条件下也能获得较好的检测结果。



3)人眼聚焦区域(主观感兴趣区域)

人眼聚焦区域数据集一般是通过眼动仪获取。微帧智能转码系统支持标准版和超低复杂度版人眼聚焦区域检测。


3.1 标准版聚焦区域检测

标准版聚焦区域检测,采用眼动仪得到训练样本,有效定位人眼聚集区域,适配绝大部分场景。

3.2 超低复杂度版聚焦区域检测
超低复杂度版聚焦区域检测,1080P视频CPU单核运算时间在1ms每帧以内,复杂度基本忽略不计。

4)各个块本身的主观敏感度

x264默认的自适应量化(AQ),仅依据方差大小作为评判依据,对于方差大的块施以更大的量化因子。方差大小的鲁棒性不足,甚至都不能很好地判断平滑程度。如图示例的一维信号,左图的方差比右图更大,事实上左图是比较平滑的。

图片来源:Fan Zhang, etc. Limitation and Challenges of Image Quality Measurement. SPIE 2010

以RaceHorses为例,按照x264中的AQ技术,第一行宏块,正好绿色草丛背景块的方差比较小,而涵盖了帽子、人脸、人眼的宏块方差比较大,导致主观敏感的人脸/人眼被施加了较大的delta QP。微帧智能转码系统区分了易被人眼关注的规则纹理,加以保护,在其他编码条件相同的条件下,取得明显改善。

5G时代的到来,人们对于视频质量的要求愈发高涨,视频码率也呈现出成倍增长的趋势,这给视频运营平台短期内的CDN成本、用户观看体验等方面带来了巨大挑战。


面对这样的挑战,人们不得不继续优化视频编码标准,以提高编码效率。除了不断推出新视频标准之外,ROI编码等AI技术也变得尤为重要。微帧多次主观测评显示,ROI编码与传统编码相比,主观整体视觉效果都有显著提升,在较低带宽的环境下尤为明显。ROI编码技术既能够获得期望的高质量画面,又保持了较低的码率,更好地解决了码率与画质之间的矛盾。

更极致、更智能、更高清的视频场景化应用,期待与您交流探讨!

立即咨询

微帧Visionular是全球领先的视频编码及超高清服务提供商,基于超高压缩效率的自研编码技术、前沿的AI超高清算法,致力于为企业提供低成本、超高清、智能化的视频服务。

微信:Visionular_mkt

邮箱:mkt@visionular.com

扫码关注微帧