[ 논문리뷰 ] 생성형 AI가 붕괴한다고? / AI models collapse when trained on recursively generated data

ML DL/논문리뷰

[ 논문리뷰 ] 생성형 AI가 붕괴한다고? / AI models collapse when trained on recursively generated data

도토오오리 2025. 5. 30. 22:32

https://www.nature.com/articles/s41586-024-07566-y

네이쳐지에 실린 논문. Model Collapse의 개념을 새롭게 제안한 논문이다.

LLM과 같은 GenAI 분야는 뜨거운 감자로 자리잡으며 굉장히 많은 연구가 진행되고 있다.

많은 사람들은 이제 일상생활 속에서도 ChatGPT와 같은 LLM을 활용해 작문에 도움을 받는다. 그럼 인터넷에는 점점 더 많은 GenAI가 생성한 인공 데이터가 쌓일 것이다. LLM들은 계속 인터넷 상의 데이터들을 활용해 학습한다고 하면, 그들은 자신들의 조상 GenAI가 출력한 데이터를 다시 학습하게 되는 것이다.

이 논문에서는 이러한 연속적인 과정이 Model Collapse를 야기할 수 있다고 말한다.

이것은 왜 문제가 되는 것일까?

핵심 문제는, " 자기 복제된 세계" 이다.

AI가 생성한 텍스트는 점점 더 많은 블로그, 뉴스 등에 퍼지고 있고, 우리는 이러한 우리는 이러한 데이터를 다시 수집해 차세대 모델을 훈련시키고 있다. 이처럼 AI가 만든 데이터를 또 다른 AI가 학습하는 "자기복제(Self-consuming AI)" 현상이 점점 현실이 되어가고 있다. 논문에서는 이와 같은 반복이 결국 Real-world 데이터의 다양성과 진실성을 침식시키고, 시간이 흐를수록 모델이 평이하고 왜곡된 통계적 패턴만을 학습하게 된다고 경고한다. 이 현상이 바로 Model Collapse 이다.

Model collapse example (https://arxiv.org/abs/2311.12202)

https://www.nature.com/articles/d41586-024-02355-z

Image에서의 Model collapse 예시이다. 위와 같이 Model collapse가 발생하면 인공지능 모델은 정보의 다양성을 상실하게 되어 특정 패턴만 반복해서 출력하게 된다.

연구진은 실험적으로 다음과 같은 사실을 밝혀냈다

초기에는 Synthetic Data를 포함한 모델이 유사한 또는 더 나은 성능을 보인다.
그러나 점점 더 많은 비율의 인공 데이터를 학습할수록, 언어적 다양성, 사실성, 정확성이 급격히 감소한다.
반복된 재학습(retraining)을 통해 인공 데이터 비율이 누적될 경우, 모델은 특정 표현과 패턴만을 되풀이하게 된다.

이처럼 데이터 편향이 강화되고, 표현력이 축소되며, 학습 성능이 '붕괴(Collapse)'하는 현상은 매우 실질적인 위협이다.

Model Collapse는 여러 세대에 걸쳐 누적되는 세 가지 특정 오류 원인으로 인해 발생한다

1. Statistical approximation error: 유한한 샘플 수로 인해 발생하며, 샘플 수가 무한대로 가면 사라진다. 재샘플링 과정마다 정보 손실 확률이 존재하기 때문에 발생한다.
2. Functional expressivity error: 제한된 함수 근사기(모델 아키텍처)의 표현력 한계로 인해 발생한다. 신경망은 크기가 무한대가 될 때만 universal approximator이다. 이 오류는 원래 분포의 지지(support) 외부에 0이 아닌 likelihood를 부여하거나, 지지 내부에 0 likelihood를 부여할 수 있다. 예를 들어, 두 개의 Gaussian 혼합 분포를 하나의 Gaussian으로 근사하려 할 때 발생한다.
3. Functional approximation error: 주로 학습 절차의 한계(예: Stochastic Gradient Descent의 구조적 편향, 목표 함수 선택 등)로 인해 발생한다. 이는 무한 데이터와 완벽한 표현력을 가정하더라도 발생하는 오류이다.

이러한 오류들은 서로 복합적으로 작용하여 누적될 수 있으며, 과적합(overfitting) 등 다른 유형의 오류도 영향을 줄 수 있다.

코어 방법론
본 논문은 세대별 데이터 학습(learning with generational data)이라는 확률적 과정을 정의하고, Model Collapse 현상을 정량화하기 위해 두 가지 수학적 모델을 분석한다. 수학적 모델 부분은 너무 어려워서 다음에 다시 다뤄보겠습니다 ..

실험 설계의 포인트

연구진은 LLM이 생성한 Synthetic Dataset과 실제 Human Dataset을 섞어 다양한 비율로 실험을 진행했다.
훈련과 재학습을 반복하면서 모델의 변화와 성능 저하를 정량적으로 분석했다.
또한, 다양한 지표(Perplexity, Vocabulary Richness, Fact Consistency 등)를 사용해 언어적 붕괴 양상을 세밀히 추적했다.

해결책은 있을까?

논문에서는 다음과 같은 대안 및 미래 과제를 제시한다.

Synthetic Data Filtering: 생성 데이터 중 고품질만 선별해 사용
Real vs. Synthetic Discriminator: 진짜 인간 데이터와 AI 데이터를 구별하는 분류기 개발
- 디지털 워터마크, 블록체인 기반 추적 등
Human-in-the-loop 검증: 인간 검수를 통한 데이터 품질 관리
Source Tracking: 학습 데이터의 출처를 추적하는 메타데이터 시스템 구축

즉, 무작정 많은 데이터를 먹이는 시대는 지나고, 데이터의 품질과 출처를 통제하는 시대가 다가오고 있다는 것이 이 논문의 시사점이다.

결론 및 시사점

Model Collapse는 Fine-tuning 설정에서도 발생하며, 세대가 지날수록 모델은 원래 데이터에서 더 '흔한' 시퀀스를 생성하고 자체적인 '흔하지 않은'(즉, 오류성) 시퀀스를 도입한다.
Model Collapse는 LLM의 학습 역학에 중요한 영향을 미친다. 저확률 사건(low-probability events)을 모델링하는 능력은 예측의 공정성(소외된 그룹 관련)과 복잡계 이해(Black Swan)에 필수적이다.
이 현상은 'First Mover Advantage'를 시사하며, 장기적으로 학습을 유지하기 위해서는 원래 데이터 소스에 대한 접근을 보존하고 LLM이 생성하지 않은 데이터의 가용성을 확보하는 것이 중요하다. 인터넷에서 크롤링되는 콘텐츠의 출처(provenance)를 구분하는 것이 어려워지면서, LLM 대중화 이전에 크롤링된 데이터나 인간 상호작용으로부터 직접 얻은 데이터의 가치가 더욱 중요해질 것이다.

튜닝의 끝은 순정. 점점 인간이 직접 만들어낸 데이터가 중요해지고 인간이 직접 쓴 글자, 직접 그린 그림 등이 중요해지지 않을까. 라는 생각을 들게 한 논문