CVPR 2024高分論文:全新生成式編輯框架GenN2N,統一NeRF轉換任務

CVPR 2024高分論文:全新生成式編輯框架GenN2N,統一NeRF轉換任務

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

來自香港科技大學,清華大學的研究者提出了「GenN2N」,一個統一的生成式 NeRF-to-NeRF 轉換框架,適用于各種 NeRF 轉換任務,例如文字驅動的 NeRF 編輯、著色、超分辨率、修復等,性能均表現極其出色!

CVPR 2024高分論文:全新生成式編輯框架GenN2N,統一NeRF轉換任務

  • 論文地址:https://arxiv.org/abs/2404.02788
  • 論文主頁:https://xiangyueliu.github.io/GenN2N/
  • Github 地址:https://github.com/Lxiangyue/GenN2N
  • 論文標題:GenN2N: Generative NeRF2NeRF Translation

近年來,神經輻射場(NeRF)因其緊湊、高質量、多功能性在三維重建、三維生成和新視角合成領域引起了廣泛關注。然而,一旦創建了 NeRF 場景,這些方法通常缺乏對生成幾何和外觀的進一步控制。因此,NeRF 編輯(NeRF Editing)最近成為了一個值得關注的研究重點。

目前的 NeRF 編輯方法通常是針對特定任務的,例如 NeRF 的文本驅動編輯、超分辨率、修復和著色。這些方法需要大量的特定任務領域知識。而在 2D 圖像編輯領域,開發通用的圖像到圖像(Image-to-image)轉換方法成為一種趨勢,例如利用 2D 生成模型 Stable Difussion 支持多功能的圖像編輯。因此,我們提出了利用基礎的 2D 生成模型進行通用的 NeRF 編輯。

隨之而來的挑戰是 NeRF 和 2D 圖像之間的表示差距,尤其是圖像編輯器通常會為不同視角生成多種不一致的編輯。最近的一種基于文本的 NeRF 編輯方法 Instruct-NeRF2NeRF 對此進行了探究。其采用 “渲染 – 編輯 – 聚合” 的流程,通過逐步渲染多視角圖像、編輯這些圖像,將編輯圖像聚合到 NeRF 中逐步更新 NeRF 場景。然而這種編輯方法,針對特定的編輯需求,經過大量的優化,只能生成一種特定編輯的結果,如果用戶不滿意則需要反復迭代嘗試。

因此,我們提出了「GenN2N」,一種適用于多種 NeRF 編輯任務的 NeRF-to-NeRF 通用框架,其核心在于用生成的方式來刻畫編輯過程多解性,使其可以借助生成式編輯輕松產生大量符合要求的編輯結果供用戶挑選。

在 GenN2N 的核心部分,1)引入了 3D VAE-GAN 的生成式框架,使用 VAE 表征整個編輯空間,來學習與一組輸入的 2D 編輯圖像對應的所有可能的 3D NeRF 編輯分布,并用 GAN 為編輯 NeRF 的不同視圖提供合理的監督,確保編輯結果的真實性,2)使用對比學習解耦編輯內容和視角,確保不同視角間的編輯內容一致性,3)在推理時,用戶簡單地從條件生成模型中隨機地采樣出多個編輯碼,就可以生成與編輯目標對應的各種 3D 編輯結果。

相比于各種 NeRF 編輯任務的 SOTA 方法(ICCV2023 Oral 等),GenN2N 在編輯質量、多樣性、效率等方面均優于已有方法。

方法介紹

我們首先進行 2D 圖像編輯,然后將這些 2D 編輯提升到 3D NeRF 來實現生成式的 NeRF-to-NeRF 的轉換。

CVPR 2024高分論文:全新生成式編輯框架GenN2N,統一NeRF轉換任務

A. 隱式蒸餾(Latent Distill)

我們用 Latent Distill Module 作為 VAE 的 encoder,為每張編輯圖像學習一個隱式的編輯碼,在 NeRF-to-NeRF 轉換中通過此編輯碼控制生成的內容。所有編輯碼在 KL loss 的約束下服從一個良好的正態分布,以便更好地采樣。為了解耦編輯內容和視角,我們精心設計了對比學習,鼓勵相同編輯風格視角不同的圖片的編輯碼相近,不同編輯風格但視角相同的圖片的編輯碼互相遠離。

B.NeRF-to-NeRF 的轉換(Translated NeRF)

我們用 NeRF-to-NeRF Translation 作為 VAE 的 decoder,其以編輯碼作為輸入,將原始的 NeRF 修改為一個轉換 NeRF。我們在原 NeRF 網絡隱藏層之間添加了殘差層,這些殘差層以編輯碼作為輸入來調制隱藏層神經元,使得轉換 NeRF 既能夠保留原本 NeRF 的信息,又可以根據編輯碼來控制轉換 3D 內容。同時,NeRF-to-NeRF Translation 也作為生成器參與生成對抗訓練。通過生成而非優化的方式,使得我們可以一次性得到多種轉換結果,顯著提升了 NeRF 轉換效率和結果多樣性。

C. 條件判別器(Conditional Discriminator)

轉換 NeRF 的渲染圖片構成了需要判別的生成空間,這些圖片的編輯風格、渲染視角各異,導致生成空間非常復雜。因此我們提供一個 condition 作為判別器的額外信息。具體而言,判別器在鑒別生成器的渲染圖片(負樣本)或訓練數據中的編輯圖片(正樣本)時,我們都從訓練數據中再挑選一張相同視角的編輯圖片作為條件,這使得判別器在鑒別正負樣本時不會受到視角因素的干擾。

CVPR 2024高分論文:全新生成式編輯框架GenN2N,統一NeRF轉換任務

D. 推理(Inference)

在 GenN2N 優化后,用戶可以從正態分布中隨機采樣出編輯碼,輸入轉換 NeRF 即可生成出編輯后的高質量、多視角一致性的 3D NeRF 場景。

實驗

我們在多種 NeRF-to-NeRF 任務上進行了大量的實驗,包括 NeRF 文本驅動編輯、著色、超分辨率、修復等。實驗結果展示了 GenN2N 卓越的編輯質量、多視角一致性、生成的多樣性和編輯效率。

A. 基于文本的 NeRF 編輯

CVPR 2024高分論文:全新生成式編輯框架GenN2N,統一NeRF轉換任務

B.NeRF 著色

CVPR 2024高分論文:全新生成式編輯框架GenN2N,統一NeRF轉換任務

C.NeRF 超分辨率

CVPR 2024高分論文:全新生成式編輯框架GenN2N,統一NeRF轉換任務

D.NeRF 修復

CVPR 2024高分論文:全新生成式編輯框架GenN2N,統一NeRF轉換任務

對比實驗

我們的方法與各種特定 NeRF 任務的 SOTA 方法進行了定性和定量對比(包括文本驅動編輯、著色、超分辨率和修復等)。結果表明,GenN2N 作為一個通用框架,其表現與特定任務 SOTA 相當或者更好,同時編輯結果具有更強的多樣性(如下是 GenN2N 與 Instruct-NeRF2NeRF 在基于文本的 NeRF 編輯任務上的對比)。

A. 基于文本的 NeRF 編輯

CVPR 2024高分論文:全新生成式編輯框架GenN2N,統一NeRF轉換任務

了解更多實驗、方法內容,請參考論文主頁。

團隊介紹

該論文來自香港科技大學譚平團隊、清華大學 3DVICI Lab、上海人工智能實驗室和上海期智研究院,論文的作者為香港科技大學學生劉襄閱,清華大學學生薛晗,香港科技大學學生羅堃銘,指導老師為清華大學弋力老師和香港科技大學譚平老師。

版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 舉報,一經查實,本站將立刻刪除。

(0)
上一篇 2024年5月1日 下午1:15
下一篇 2024年5月1日 下午1:26

相關推薦

中文字幕日韩精品无码内射| 成人中文字幕一区二区三区| 性一交一乱一伧老太| 美女扒开胸罩让男生吃乳| 亚洲人成影院在线观看| 国产成年无码久久久免费| 欧美jlzz18性欧美| 久久精品国内一区二区三区| 天天做天天爱天天一爽一毛片| 永久在线观看www免费视频| 象人族女人能吃得消吗| 三级毛片在线免费观看| 久久精品成人欧美大片| 91蜜桃传媒一二三区| 亚洲欧洲日产国码在线观看| 国产国产人免费视频成69大陆| 性感美女视频在线观看免费精品 | 联谊对象是肉食系警官第6话 | 黄录像欧美片在线观看| 龙珠全彩里番acg同人本子 | 精品无码成人久久久久久| 热带雨电影无删减在线播放| 精品人妻无码区二区三区| 欧美人与物另类| 女人被躁免费视频| 国产欧美一区二区三区视频在线观看| 出轨的女人2电影| 二区久久国产乱子伦免费精品| 久久婷婷五月国产色综合| japanese国产在线看| 黄色录像大片毛片aa| 99热这里只/这里有精品| 赵云腹肌下的紫黑巨龙h| 日本丰满熟妇BBXBBXHD| 小泽玛利亚一区二区| 幼香视频在线观看免费| 大学生一级特黄的免费大片视频| 国产呦系列呦交| 中文字幕亚洲一区二区va在线 | 亚洲欧美日韩国产精品网| 亚洲国产精品xo在线观看|