2022年3月1日,清华大学媒体与网络实验室“AI辅助自动追焦系统”获得美国专利,为超高清时代人工智能技术应用提供了更强的技术支撑。 2022年初,全球观众在电视机前享受了一次超高清的体育盛宴,由此世界进入了8K标准的超高清时代。 技术不仅为观众带来了前所未有的身临其境的体验,也为行业提出了诸多需要攻克的技术难关,而这其中“AI辅助自动追焦系统”便是关键环节之一。 Media Lab“AI辅助自动追焦系统”获得美国专利,并曾获得2020红点奖 Best of the Best奖项。 随着5G高带宽通讯技术的发展,观众对画质及分辨率的需求也在不断攀升。当下全景视频的拼接分辨率普遍已达到了视频长边7680像素(8K分辨率)及以上,部分由超高清相机拍摄的全景视频内容分辨率达到了长边15360像素(16K分辨率)。 虚焦及跟焦失败问题的出现是由于在同样的光学条件下,相比于标清(SD)及高清(HD)相机,超高清相机的有效景深范围更小。相机在从标清到超高清的演变中,在相机成像芯片的面积没有显著提升的情况下,芯片上所承载的像素数量却快速增多,导致像素尺寸逐渐缩小、有效景深范围也随之减小。近10年,主流摄像机的分辨率从1280x720像素提升到8K超高清的7680x4320像素。在这一过程中像素尺寸不断减小,也就导致上述成像条件变得苛刻。 这背后有三大技术痛点: 1、超高清相机景深特别小:超高清相机在同标清与高清相机同等大小的传感器上容纳了几倍甚至十几倍数量的像素,因此像素尺寸大大减小,同样的镜头参数超高清相机的有效景深范围相比于高清相机减小了几倍。 2、人工追焦易出错:专业转播用电视摄像机均采用电动伺服变焦镜头,但除富士有一款自动对焦镜头之外,均为手动控制变焦和聚焦动作,需要操作人员具有专业技能和专业“手感”才能在拍摄运动主体时进行准确追焦,在使用长焦镜头和大靶面的8K摄像机时,因为景深会更浅,追焦操作的难度几何级数增加,同时,4K和8K超高清转播时,因为大屏幕呈现更高清晰度,轻微的失焦比低分辨率的高清转播时更加容易被观众察觉到。 3、体育场景追焦难上加难:长焦在冬奥等具有大量高速雪上运动项目的转播中,全球只有极少数团队能够完成诸如高山速降滑雪、大回转技巧等项目转播,主要原因之一就是全球只有少数经过专门训练的摄像师能够具有足够好的追焦技巧。这其中的难度在于,摄像师仅通过7-10英寸的寻像器画面,需要判断对焦点在目标前还是后,而在背景对比度低的环境中,焦点在前与后所形成的虚焦画面是一样的。在恶劣天气和超高清拍摄、使用长焦镜头的情况下,即使是经过严格专门训练的摄像师也很难保证追焦成功率。 由清华大学媒体与网络实验室团队研发的“AI辅助自动追焦系统”则在很大程度上为行业提供了解决办法,即通过主摄小光圈扩大景深范围,同轴辅助相机提供高动态范围及虚焦测算信息,AI神经网络优化偶发失焦画面。 其中有三大优势: 1、解决小光圈下曝光不足的问题: 小光圈可以改善景深范围,但会压缩相机动态范围。通过大光圈同轴辅助相机的画面,在利用光流算法对画面进行对其之后,可以通过其更高动态范围的亮度信息对小光圈主相机曝光不足予以补偿。类似的补偿算法已大面积用于手机相机高动态范围拍摄等场景,取得了较好的效果。 2、解决追焦速度不够快的问题:结合编码光圈实时采集测算系统,可以在物体高速运动发生虚焦时,通过已知编码光圈图案,可以准确测算出失焦偏移方向及偏移量,可有效预测及控制主相机与辅助相机伺服电机,以达到追焦效果。通过机电一体化设计,开发与主流电动伺服变焦镜头适配的电动聚焦控制“机械手”,在不改变传统讯道摄像机前端单元主要结构的情况下,实现连续高精度自动追焦,在获得镜头厂商镜头控制协议的前提下,还可以通过镜头控制线缆直接自动化控制镜头的连续聚焦动作。 3、解决偶发失焦的画质降低问题:利用最新的深度学习算法,通过对抗生成网络的技术,训练一个与人眼对细节偏好相符的识别器与优化失焦画面画质的生成器网络。在偶发失焦或是追焦滞后的场景时,利用识别器识别画面虚焦区域,并使用生成器网络对指定虚焦区域进行图像优化,使虚焦效果减小。 关于清华大学媒体与网络实验室 (Media Lab) 清华大学媒体与网络实验室(Media Lab)一直专注于超高清智能视觉系统的捕获、拼接、处理、传输到最终展现等环节的优化算法和软硬件架构等研究,不断引领市场和技术发展,尤其是在视频编解码器算法、传输算法、拼接算法和芯片设计与研发等方面有着多年的积累,长期投入不断研发,从而形成了技术优势。 自2019年起,在实验室负责人、IEEE Fellow温江涛教授的带领下更是全力投入超高清计算视觉处理系统平台型技术的理论探索和研发,不仅积累了国际领先技术,更进行了大规模商业化实践和应用,将前瞻科技与真实商业场景有效结合,为超高清产业化高速发展进行了非常有价值的尝试,并为产业建立了行业标准。