站在门口看一眼,AI 就能脑补出房间里面长什么样:
是不是有线上 VR 看房那味儿了。不只是室内效果,来个远景长镜头航拍也是 so easy:
这一次的新进展,则是将视角进一步延伸,更侧重让 AI 预测出远距离的画面。
比如给出一个房间门口,它就能合成穿过门,走过走廊后的场景了。
目前,该研究的相关论文已被 CVPR2022 接收。
输入单张画面和相机轨迹
让 AI 根据一个画面,就推测出后面的内容,这个感觉是不是和让 AI 写文章有点类似实际上,研究人员这次用到的正是 NLP 领域常用的 Transformer他们利用自回归 Transformer 的方法,通过输入单个场景图像和摄像机运动轨迹,让生成的每帧画面与运动轨迹位置一一对应,从而合成出一个远距离的长镜头效果
整个过程可以分为两个阶段。
第一阶段先预训练了一个 VQ—GAN,可以把输入图像映射到 token 上VQ—GAN 是一个基于 Transformer 的图像生成模型,其最大特点就是生成的图像非常高清在这部分,编码器会将图像编码为离散表示,解码器将表示映射为高保真输出
第二阶段,在将图像处理成 token 后,研究人员用了类似 GPT 的架构来做自回归具体训练过程中,要将输入图像和起始相机轨迹位置编码为特定模态的 token,同时添加一个解耦的位置输入 P.E.然后,token 被喂给自回归 Transformer 来预测图像模型从输入的单个图像开始推理,并通过预测前后帧来不断增加输入
研究人员发现,并非每个轨迹时刻生成的帧都同样重要因此,他们还利用了一个局部性约束来引导模型更专注于关键帧的输出这个局部性约束是通过摄像机轨迹来引入的基于两帧画面所对应的摄像机轨迹位置,研究人员可以定位重叠帧,并能确定下一帧在哪
为了结合以上内容,他们利用 MLP 计算了一个相机感知偏差这种方法会使得在优化时更加容易,而且对保证生成画面的一致性上,起到了至关重要的作用
实验结果
本项研究在 RealEstate10K,Matterport3D 数据集上进行实验结果显示,相较于不规定相机轨迹的模型,该方法生成图像的质量更好
与离散相机轨迹的方法相比,该方法的效果也明显更好。
在消融实验上,结果显示该方法在 Matterport3D 数据集上,相机感知偏差和解耦位置的嵌入,都对提高图像质量和帧与帧之间的一致性有所帮助。
Xuanchi Ren 为香港科技大学本科生。
他曾在微软亚研院实习过,2021 年暑期与 Xiaolong Wang 教授有过合作。
Xiaolong Wang 是加州大学圣地亚哥分校助理教授。
他博士毕业于卡内基梅隆大学机器人专业研究兴趣有计算机视觉,机器学习和机器人等特别自我监督学习,视频理解,常识推理,强化学习和机器人技术等领域
论文地址:
。声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
9月6日上午,在崂山区政府西塔楼一楼大厅,崂山区科创委联合沙子口街道、大石社区启动了为期5天的大石村农民水彩画展。本次画
2021-09-08 12:23在5米高空作业,将数吨重的火车车轮或者小到几十斤的ldquo;铁疙瘩rdquo;安全装卸到位,可能谁也不会把这一切和一个
2021-09-03 11:10每个孩子都有其独特的成长规律。在孩子成长的过程中,每一步都充满着对这个世界的好奇,那作为家长的我们,该如何顺应孩子的成长
2021-08-30 18:502021年7月19日,备受关注的2021第五届中国家居品牌大会在广州启幕,现场发布2020-2021中国家居十大优选品牌
2021-07-26 01:28