토리의 데굴데굴 공부일기

[ 논문리뷰 ] HiScene-Creating Hierarchical 3D Scenes with Isometric View Generation 본문

ML DL/논문리뷰

[ 논문리뷰 ] HiScene-Creating Hierarchical 3D Scenes with Isometric View Generation

도토오오리 2025. 6. 27. 17:56

Paper: https://arxiv.org/abs/2504.13072
Project page: https://zju3dv.github.io/hiscene/

 

HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation.

Scene-level 3D generation represents a critical frontier in multimedia and computer graphics, yet existing approaches either suffer from limited object categories or lack editing flexibility for interactive applications. In this paper, we present HiScene,

zju3dv.github.io

 

 

3D Scene Generation 분야 연구를 진행중이라 관련 논문들을 읽어보다, 귀여운(!) 논문을 발견하여 공유합니다. 

텍스트 프롬프트 만으로 이렇게 귀여운 방을 만들 수 있음!

게다가, 개별 객체를 모두 인식해서 만들기 때문에 개별 객체들도 모두 완전함!!

게임 등에 활용할 부분이 많아보인다. 



 Isometric view (등각 투영뷰)란? 


마치 체스판을 45도 돌린 후 그 위에 개체를 올려 놓은 듯한 구조!
이런 디자인 형태를 Isometric view라고 함

 


Motivation


1. 현실성 및 다양성 부족
- 기존의 텍스트 기반 3D scene gen은 주로 LLM에 의존하여 장면 레이아웃과 객체 배치를 결정함. 하지만 LLM은 공간 이해 능력이 제한적
2. 편집 및 상호작용의 어려움
- 기존의 많은 3D scene gen은 scene 내부의 객체가 개별적으로 만들어 지는 것이 아님. 따라서 객체 편집 및 상호작용이 제한적


핵심 Idea
3D scene을 isometric view 하에서 hierarchical 'object'로 취급하는 것.
방 하나를 object로 보고, 이를 조작 가능한 item들로 분해하는 방식


Contribution
1. 새로운 계층적 scene 생성 프레임워크 HiScene 제안
- 기존의 text-to-3D scene gen 방법들은 개별 객체 편집, 상호작용이 어려움
- Layout 기반이라 객체 다양성이 제한적
- 2D image를 3D로 lift-up 한 방식이라 장면 전체가 하나의 덩어리
2. 분석-합성 기반 Scene Parsing 및 Video Diffusion based Amodal Completion 개발
- '계층적 분해'와 '개별 객체 완전성 확보'를 위한 기술
- Scene Parsing
- 초기 생성된 3D 장면에서 개별 3D instance를 정확하게 분리, Occlusion 분석
- Video Diffusion based Anomal Completion
- Scene Parsing 과정에서 다른 객체에 가려져 불완전하게 추출된 개별 객체 뷰 이미지를, 가려진 부분을 video diffusion을 활용해 복원함 -> 객체 완전성 보장
3. Spatial Alignment 메커니즘 설계 
- 완전해진 각 객체를 원래 장면에서의 객체 위치, 크기, 방향이 틀어지지 않고 유지되도록 하는 메커니즘
4. 광범위한 실험을 통한 효과 입증


Method


1. Scene Initialization
- 사용자의 텍스트 프롬프트 입력
- 텍스트 프롬프트에 "Isometric view of"라는 접두사를 붙여  FLUX를 통해 초기 Isometric view 생성
- 2D 이미지를 바탕으로 TRELLIS를 사용하여 초기 3DGS 생성
- TRELLIS는 asset 단위로 생성 

2. Hierarchical Scene Parsing
- Rendering Images & 2D segmentation: 초기 3D 장면을 다양한 시점에서 렌더링 후 2D segmentation 모델을 사용하여 2D instance 분할
- 3D semantic segmentation: 3D segmentation 모델을 사용하여 2D 분할 결과를 3D 공간으로 확장하여 개별 객체를 식별
- Object-centric multiview rendering: 각 식별된 객체에 대해 객체 중심의 다중 뷰 이미지를 렌더링 
- Occlusion analysis: 렌더링된 객체 이미지들에 대해 VLM을 사용하여 occlusion이 있는지 분석하고, Occlusion ratio를 계산. 일정 임계값 이상인 이미지들은 Amodal Completion 대상으로 선정

3. Amodal Completion
- 목표: Occlusion으로 불완전하게 보이는 객체 뷰를 완성하는 것
- Amodal: 객체의 보이지 않는 부분을 포함한 전체적이고 온전한 형태
- Amodal Completion이란? 
- 이미지에서 객체의 visible part만 주어졌을 때, 다른 객체에 가려지거나 잘려서 보이지 않는 부분을 포함하여 해당 객체의 완전한 형태를 추론하고 복원하는 작업
- Amodal Completion: occlusion 분석 단계에서 occlusion이 감지된 객체 뷰 이미지들에 대해 Video-diffusion-based Amodal Completion 모델 적용. 

4. Spatial Aligned Generation
- Spatial Aligned Generation: 객체의 공간적 align을 위해 Sparse-view LRM 모델을 사용
- 객체가 공간적으로 정렬된 3D scene을 생성하는 단계 
- 입력: Amodal Completion을 거쳐 얻은 객체의 다양한 시점 이미지, 해당 시점에서의 카메라 회전, 이동 정보

 

 

Q. 2D segmention 이후 3D segmentation을 진행하는 이유?
A. 계산 비용 및 효율성 측면에서 이 방식이 더욱 효율적이기 때문
- EntitySeg와 같은 매우 강력한 2D segmentation model 존재 
- 이러한 2D segment model을 먼저 활용하면, 바로 3D segmentation을 진행하는 것보다 효율적임 

 


 Amodal Completion


- Stable Video Diffusion (SVD)을 베이스라인으로 사용
- Shadow-aware Amodal Completion 데이터셋으로 Fine-tuning
- 연구팀이 직접 구축한 1.32 million 쌍의 이미지 데이터셋



## Details
AI Model
- Image generation: FLUX
- Native 3D generation: TRELLIS
- 2D/3D segment: EntitySeg, OmniSeg3D-GS
- Occlusion Analysis: VLM(GPT-4V)
- Amodal Completion: Stable Video Diffusion(Shadow 포함 데이터셋으로 파인튜닝), VAE, CLIP
- Spatial Alignment: Sparse-view Large Reconstruction Model (LRM), TRELLIS

3D Representation
- 3DGS

GPU
-  학습: Nvidia H20 8대


Evaluation
1. Interactive scene generation 평가
- CLIP Score
- ImageReward
- Aesthetic Score
- User Study (Image-textual similarity, overall quality)

2. Amodal Completion 평가
- mIoU: segmentation 성능을 평가하는 지표

3. Ablation studies에서의 추가 metric
- Aesthetic score
- IAA
- IQA
- CLIP-score

User Study 예시



다른 3D Scene generation 방법론들과 비교




Takeaway
- 3D scene을 입체적인 각각의 obj로 보는 새로운 3D scene gen 방식
- 개별 객체 단위로 생성이 되다보니 게임같은 부분에 활용하기 좋을듯
- 이러한 segmentation, amodal completion 과정을 잘 활용하면 Isometric view의 방뿐만 아니라 더 넓은 영역의 Scene generation이 가능하지 않을까?