일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 미네르바 대학
- model collapse
- 프론트
- cv2
- students@ai seoul hackathon
- ai consensus
- ADsP
- 토익공부법
- 토익공부
- 논문 pdf
- pdf 다운로드
- 탑싯
- 토익문제
- 크롬 확장프로그램
- minerva university
- 데이터분석
- 토익
- ai model collapse
- TOPCIT
- 토익문법
- scaico
- 탑싯시험
- 환급형프론트챌린지
- toeic
- arXiv
- ai공모전
- 코드프렌즈
- pip
- 데이터관련자격증
- 논문 pdf 이름
- Today
- Total
토리의 데굴데굴 공부일기
3D Representation 정리 (Mesh, Point Cloud, NeRF, 3D Gaussian) 본문
3D scene generation task를 요즘 공부하고 있는데, 3D를 표현하는 표현 방식에도 아주 많은 방법들이 있다는 사실 다들 알고 계셨나요..? (저는 일단 잘 몰랐음)
그래서 이 기회에 제대로 한번 정리해보겠습니다!
1. 3D Scene Generation task 소개
먼저 3D Scene generation task에 대해 알아봅시다~!
이런 3D scene을 만드려면 어떤 기술을 사용해야 할까요?
저는 처음에는 우리가 2D image를 만드는 것과 동일한 방식을 사용하면 되지 않을까 라고 막연하게 생각했어요. 하지만 막상 공부해보니 생각보다 훨씬 복잡한 기술이 얽혀 있었습니다. 특히 어떤 3D Representation(3D 표현방식)을 사용하는지에 따라 모델 구조, 훈련 방법도 완전히 달라지는 것을 알 수 있었습니다.
3D Scene generation이란, 입력(예시: 텍스트, 이미지, 포인트 클라우드 등)을 기반으로 새로운 3D 장면을 생성하는 task입니다. 여기서 말하는 '장면(scene)'은 단순히 하나의 객체가 아니라, 여러 객체들이 배치되고 조명, 위치, 크기같은 요소들이 조화롭게 어우러진 공간을 의미해요. 예를 들어 "거실에 소파와 테이블이 있고 창문으로 빛이 들어오는 장면"처럼 의미 있는 3D 환경을 만드는 거죠.
이러한 3D scene generation task는 다양한 분야에 실제로 적용되고 있습니다. 게임, 영화, VR/AR, 로보틱스 등 분야를 가리지 않고 적용되고 있어요. 최근에는 텍스트를 입력으로 받아 3D 장면을 생성하거나, 2D image 한장만 보고 3D로 복원하는 등 예전에는 상상도 못했던 방식들이 실제로 구현되고 있습니다. 앞으로 어떤 기술들이 나올지 더욱 기대가 됩니다!
2. 3D Representation (3D 표현방식)
쉽게 이해하려면
point cloud -> 점!
voxel -> 부피를 가진 픽셀!
mesh -> 면(face)들로 이루어진 집합! 이라고 생각하면 좀 쉽당
1. Point Cloud
객체의 표면을 근사하는 N개의 3D 점들의 순서 없는 집합
Voxel Grid와는 달리 sparse(희소)하고 비구조적이며 메모리 효율적임.
주로 깊이 센서, LiDAR, Structure-from-Motion(SfM)을 통해 생성된다.
2. Voxel Grid
높이(H), 너비(W), 깊이(D)를 가지는 3D 배열
각 복셀은 점유 (occupancy) 또는 부호 거리 값 (signed distance values)와 같은 속성을 저장하여 구조화된 volumetric 장면 표현을 가능하게 한다.
3. Mesh
정점(vertex), 모서리(edge), 면(face)를 통해 3D 표면의 정의한다.
정확한 연결 정보를 제공하여 3D 장면의 표면을 모델링하는데 이상적이다.
4. Neural Fields
신경망으로 매개변수화 될 수 있는 연속적인 암시적 함수
- Signed Distance Field(SDF): 공간 위치 x를 부호 거리 값 s에 매핑하며, 표면은 이 함수의 zero-level set로 정의된다. Sphere tracing을 사용하여 렌더링된다.
- Neural Radiance Field(NeRF): 공간 위치 x와 시점 방향 r을 부피 밀도 및 색상에 매핑한다. Differentiable volume rendering을 사용하여 렌더링된다.
5. 3D Gaussians
2023년에 발표되었고, NeRF보다 훨씬 빠르게 고품질의 3D scene을 만들 수 있어 화제가 됨.
- 3D Gaussian은 수학적으로 '3차원 공간에서 퍼져 있는 확률 분포'
- 점 하나를 그냥 '점'으로 보지 않고, 크기, 색깔 회전, 표준편차를 가진 작은 입체 덩어리로 표현하는 것
- Gaussian Splatting: 3D 장면을 수많은 3D Gaussian 점들로 표현하고, 이걸 뿌려서(splatting) 2D 이미지로 렌더링 함
n개의 가우시안 프리미티브 G를 사용하여 3D 장면을 표현한다. 이는 중심, 모양(공분산), 색상, 불투명도를 포함한다.
3D 가우시안은 2D 평면에 rasterizing(=3D를 2D 이미지화)하여 이미지를 렌더링할 수 있다.
6. Image Sequence
다양한 시점의 n개 이미지 c를 사용하여 장면의 3D 구조를 암시적으로 인코딩함
3D scene generation 방법론 중 Imaged-based 및 Video-based Generation 방법에서 널리 사용되며, multi-view reconstruction을 통해 3D 구조를 추론할 수 있음
이러한 다양한 3D representation은 고유한 장단점을 가지며, 생성하고자 하는 장면의 종류, 요구되는 디테일 수준, 특성에 따라 적합한 방식이 선택됩니다.
References
https://arxiv.org/abs/2505.05474
3D Scene Generation: A Survey
3D scene generation seeks to synthesize spatially structured, semantically meaningful, and photorealistic environments for applications such as immersive media, robotics, autonomous driving, and embodied AI. Early methods based on procedural rules offered
arxiv.org
[논문 리뷰] 3D Gaussian Splatting (SIGGRAPH 2023) : 랜더링 속도/퀄리티 개선
3D Gaussian Splatting for Real-Time Radiance Field Rendering, Bernhard Kerbl, SIGGRAPH 2023 NeRF분야에서 뜨거운 이슈가 된 논문입니다. NeRF에서 해결하고자 하는 Task와 동일하게, 여러 이미지와 촬영 pose 값이 주어지
xoft.tistory.com
'ML DL' 카테고리의 다른 글
[ ML/DL ] Loss function 왜 필요하고, 어디에 사용되는 걸까? (1) | 2024.03.23 |
---|---|
<Do it! 데이터 과학자를 위한 실전 머신러닝> 후기 (0) | 2023.08.31 |
분류모델 평가산식 정리(Accuracy, Precision, Recall, F1-score) (0) | 2023.06.29 |
이미지 생성 AI 모델 소개(VAE, GAN, Diffusion Models) (0) | 2023.06.27 |