토리의 데굴데굴 공부일기

[ 논문리뷰 ] AI 논문을 쓰는 AI가 있다?! / The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 본문

ML DL/논문리뷰

[ 논문리뷰 ] AI 논문을 쓰는 AI가 있다?! / The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

도토오오리 2024. 9. 6. 20:47

https://www.arxiv.org/abs/2408.06292

 

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

One of the grand challenges of artificial general intelligence is developing agents capable of conducting scientific research and discovering new knowledge. While frontier models have already been used as aides to human scientists, e.g. for brainstorming i

arxiv.org

 

https://github.com/SakanaAI/AI-Scientist

 

GitHub - SakanaAI/AI-Scientist: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑‍🔬

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑‍🔬 - SakanaAI/AI-Scientist

github.com

 

여러분들은 AI가 AI 논문을 작성하는 시대가 왔다면 믿으시겠어요..?

이번에 SakanaAI에서 발표한 The AI Scientist는 AI 논문 작성을 end-to-end로, 아이디어 구상부터 가설 설정, 코드 작성, 실험, 논문 작성, 피어 리뷰까지 모두 수행하는 자동화 AI 논문 작성 프레임워크이다. 조금 읽어보고 너무 충격받아서 논문리뷰를 해보았다. . 아래 사진은 The AI Scientist가 작성한 논문인데.. 나보다 낫다 ㅋ 

The AI Scientist가 작성한 Diffusion Modeling 관련 논문

 

0. Abstract

AGI의 중대한 Challenge 중 하나는 과학적 연구를 수행하고 새로운 지식을 발견하는 능력이 있는 행위자를 개발하는 것이다. 기존의 모델들은 인간 과학자를 도와주기 위해 사용되긴 했다. 예를 들어 브레인스토밍, 코드 작성, task 예측 등 작은 파트를 도움을 주었다. 이 논문에서는 처음으로 완전 자동화된 과학적 발견을 위한 종합적인 framework를 선보인다. 이는 기존의 LLM이 독립적으로 연구를 수행할 수 있도록 한다. 우리는 참신한 연구 아이디어를 만들어내고, 코드를 짜고, 실험을 수행하고, 결과를 시각화하고, 발견한 것들을 과학적 논문으로 작성하고, 그리고 예측되는 논문 리뷰 과정을 수행하는 The AI Scientist를 소개한다. 이 과정은 반복적으로 아이디어를 발전시키고 지식을 발전시키는 과정을 거친다. 사람의 과학 커뮤니티처럼 말이다. 우리는 이 접근법의 확장성(다재다능함)을 ML의 세가지 세부분야인 Diffusion modeling, transformer-based language modeling, 그리고 learning dynamics에 적용하여 설명한다. 각각의 아이디어는 완전한 논문으로 구현되고 발전되는데 $15보다 적은 돈이 든다. 우리의 framework는 연구를 민주화하고 과학적 발전을 상당히 가속시킬 수 있다는 잠재력이 있다고 말할 수 있다. 생성된 논문을 평가하기 위해, 우리는 거의 사람과 같은 성능을 내는 자동화된 리뷰어를 설계하였다. 우리의 자동화된 리뷰어에 따르면, The AI Scientist는 탑티어의 ML 컨퍼런스에도 accept될 만큼의 논문을 생성할 수 있다. 이 접근법은 ML 과학적 연구의 새로운 시대를 의미한다. 이는 우리를 세계에서 가장 어려운 문제인 endless affordable creativity and innovation으로 가까이 다가가게 할 것이다.

1. Introduction

현대의 과학적 방법론은 계몽의 가장 위대한 업적중 하나이다. 전통적으로, 인간 연구자는 배경 지식을 수집하고, 테스트를 위한 설득력있는 가설을 만들고, 평가 과정을 수립하고, 다른 가설들을 위한 증거를 수집하고, 그리고 최종적으로 그들의 발견을 평가하고 소통한다. 그 다음에 결과 원고는 동료 평가를 거치고 결과적으로 수정의 반복 과정을 거친다. 이 과정은 셀 수 없을만큼 과학과 기술의 돌파구를 많이 만들며 인간의 삶의 질을 높였다. 하지만, 이러한 반복적인 과정은 내재적으로 인간 연구자들의 창의력, 배경 지식, 그리고 유한한 시간에 따른 한계를 가진다. AI 연구 분야에서, 연구자들은 AI 연구를 자동화하는 AI, “AI-generating 알고리즘”을 상상했다. 하지만 그러한 과정들은 오직 연구 파이프라인의 일부 파트만을 가속화하는 것이었다. 아이디어를 브레인스토밍하는 것, 코딩에 도움을 주는 것처럼 말이다. 지금까지, 커뮤니티는 아직 인간의 개입 없이 연구 전체를 수행하는 가능성을 보여주지 못했다. 전통적인 접근법은 연구 프로젝트를 자동화하긴 하지만, 잠재적인 검색 범위에 대한 주의깊은 제약에 의존했다. 이는 탐색의 범위를 심각하게 좁히고 인간의 부가적인 전문성과 디자인을 필요로 했다. 예를 들어, 재료 발견이나 생명 합성은 탐색을 잘 정의된 도메인의 이미 정의된 파라미터에서 달성되었다. 이는 타겟화된 발전을 가능케 하였지만 open-ended discovery를 방해하였다. ML 분야 그 자체 안에서, 연구 자동화는 수동으로 설정된 탐색 공간 안에서의 하이퍼파라미터와 구조 탐색, 알고리즘 발견으로 엄격하게 제한되었다. 최근의 발전된 LLM은 이 탐색 공간을 좀 더 일반화된, 코드 레벨의 해결방안으로 확장시킬 수 있는 가능성을 보여주었다. 하지만, 이러한 접근법들은 엄밀하게 정의된 탐색 공간과 목적에서 제한이 있어 발견 가능한 깊이와 넓이에 한계를 가져왔다.

이 논문에서, 우리는 The AI Scientist, end-to-end 논문 생성을 위한 완전 자동화되고 scalable한 파이프라인을 처음으로 선보인다. 이는 최근의 foundation model의 발전을 가능케 한다. 넓은 연구 방향과 간단한초기의 코드베이스가 주어지면, The AI Scientist는 아이디에이션, 문헌 검색, 실험 계획, 실험 반복, 원고 작성, 그리고 통찰력있는 논문 생성을 위한 피어 리뷰까지 진행한다. 게다가, 원칙적으로 The AI Scientest는 open-ended loop 안에서 동작하며, 자신이 냈던 과거의 과학적 연구를 발전시키기 위한 다음 아이디어를 생성한다. 이는 과학적 반복의 느린 특성을 가속화할 수 있다. 심지어 논문 당 $15정도의 아주 저렴한 가격으로 말이다! 그리고 이 접근법은 21세기의 핵심 과제인 세계적으로 계속 증가하는 컴퓨팅 리소스를 해결하는데 필요한 과학적 돌파구이다. 이 논문에서는 ML 적용에 중점을 두지만, 이 접근법은 거의 모든 영역에 적용될 수 있다.

우리의 contribution은 아래와 같다.

  1. 우리는 처음으로 ML 연구를 end-to-end로 모두 자동화하는 프레임워크를 제안한다. 이는 최신 LLM들에 의해 가능하다. 이 과정은 아이디어 생성, 실험 디자인, 실행, 그리고 시각화와 결과를 완전한 원고로 작성하는 것까지 포함한다.
  2. 생성된 논문의 퀄리티를 높이기 위해서, 우리는 foundation model-based reviewing process를 소개한다. 이 프로세스는 ICLR 2022 OpenReview data에서 거의 인간 수준의 퍼포먼스를 달성했다.
  3. The AI Scientist는 한 주에 수백개의 흥미로운 중간 수준 퀄리티의 논문을 생성해낼 수 있다. 이 보고서에서는 우리는 새로운 인사이트를 Diffusion modeling, language modeling, 그리고 grokking에 초점을 맞춘다.
  4. 우리는 우리의 방법론에 대한 한계, 윤리적 고려사항, 그리고 향후 전망에 대한 내용으로 논문을 끝마친다.

2. Background

Large Language Models.

이 논문에서, 우리는 autoregressive LLMs(Anthropic, Gemini, Llama, OpenAI)를 통해 자동화된 과학자들을 만들었다. 이들은 과거 토큰들이 주어졌을때 새로운 토큰에 대한 조건부 확률 모델링을 통해 텍스트를 생성해내는 방법을 학습한다. 방대한 양의 데이터와 모델 scaling과 함께라면 LLM은 단지 coherent text를 만들어내는 것 뿐만 아니라, 인간과 같은 능력을 가지도록, 상식과 이성적인 생각, 그리고 코드를 작성할 수 있는 능력까지도 가질 수 있다.

LLM Agent Frameworks

전형적인 LLM의 응용은 주로 모델을 “agent” 프레임워크에 결합하는 방식이다. 이는 몇가지 가능성을 따른다. 언어 query 구조화, 추론 과정을 유도하는 방법, 또는 모델에게 출력을 반복적으로 개선하도록 요청하는 것. 이러한 방법들은 언어 모델의 context 학습 능력을 활용하며, 많은 작업에서 성능과 robustness, 그리고 reliability를 크게 향상시킬 수 있다.

Aider: An LLM-Based Coding Assistant

우리의 자동화된 과학자는 직접적으로 아이디어를 코드로 구현하고 SOTA open-source coding assistant, Aider(Gauthier, 2024)를 사용한다. Aider는 요청된 feature들을 구현하고, 버그를 수정하고, 그리고 존재하는 코드베이스의 코드를 리팩토링하도록 디자인된 agent framework이다. Aider는 원칙적으로 어떤 LLM도 사용할 수 있지만, 최첨단 모델과 함께 사용할 경우, 실제 GitHub 이슈 모음인 SWE Bench(Jimenez et al., 2024) 벤치마크에서 18.9%의 놀라운 성공률을 달성한다. 이 연구에서 추가된 새로운 혁신들과 결합하여, 이 수준의 신뢰성은 처음으로 ML 연구 과정을 완전히 자동화할 수 있게 한다.

3. The AI Scientist

Figure 1. The AI Scientist의 Conceptual illustration

AI Scientist는 먼저 일련의 아이디어를 생성하고 평가한다. 그런 다음 최근 발전된 자동 코드 생성에 기반한 코드베이스의 코드를 편집하여 필수적인 코드를 작성하며 가설을 테스트하는 방법을 결정한다. 그런 다음 실험이 자동으로 실행되어 수치적 결과와 시각적 요약이 수집된다. 결과는 LaTeX 보고서로 요약되어 설명되어진다. 마지막으로, The AI Scientist는 자동화된 표준 머신 러닝 컨퍼런스의 현재 관행에 따라 자동화된 리뷰를 생성한다. 이 리뷰는 프로젝트를 개선하거나 open-ended scientific discovery를 위한 미래 세대에 대한 피드백으로 사용할 수 있다.

 

 

Overview

The AI Scientist는 세가지의 주요 단계를 거친다. Idea Generation, Experimental Iteration, 그리고 Paper Write-up이다. write-up 이후에, 생성된 논문의 품질을 평가하기 위해 LLM-generated review를 도입하고 검증한다. 우리는 AI Scientist에게 인기 있는 모델이나 벤치마크에서 경량의 기준 학습 실행을 재현하는 시작 코드 템플릿을 제공한다. 예를 들어, 셰익스피어 작품을 기반으로 한 작은 transformer를 학습시키는 코드가 있다.(Karpathy, 2022) 이는 자연어 처리의 고전적인 개념 증명 학습 실행으로, 몇 분 내에 완료된다. 이후 AI Scientist는 가능한 모든 연구 방향을 자유롭게 탐색할 수 있다. 템플릿에는 스타일 파일과 섹션 헤더를 포함하는 LaTeX 폴더와 간단한 플로팅 코드도 포함된다. 템플릿에 대한 추가 세부 사항은 섹션 6에서 다루지만, 일반적으로 각 실행은 해당 주제와 관련된 소규모 실험으로 시작된다. 소규모 실험에 초점을 맞추는 것은 우리 방법의 한계가 아니라, 단순히 계산 효율성과 계산 자원의 제약 때문이다.

  1. Idea Generation
    시작 템플릿이 주어졌을때, AI Scientist는 첫번째로 ‘brainstorm’을 다양한 참신한 연구 방향으로 수행한다. 진화적 계산 및 열린 탐색 연구에서 연구를 받아, LLM을 변이 연산자로 사용하여 아이디어의 아카이브를 반복적으로 확장해 나간다. 각 아이디어는 설명, 실험 실행 계획, 그리고 (자가 평가한) 흥미로움, 참신성, 실행가능성에 대한 수치 점수로 구성된다. 각 반복마다, 우리는 기존 아카이브를 기반으로 흥미로운 새로운 연구 방향을 생성하도록 언어 모델에 프롬프트를 제시하는데, 여기에는 이전 아이디어에서 완료된 수치 리뷰 점수도 포함될 수 있다. 각 아이디어는 Chain-of-thought(Wei et al., 2022)와 연쇄 사고와 자기 self-reflection(Shinn et al., 2024)을 여러 차례 사용하여 정제되고 발전된다. 아이디어 생성 후, 언어 모델을 Semantic Scholar API 및 웹 접근과 연결하여 기존 문헌과 너무 유사한 아이디어를 걸러낸다(Schick et al., 2024).
  2. Experiment Iteration
    각 실험이 완료되면, Aider는 결과를 바탕으로 실험 저널 스타일로 메모를 작성한다. 현재는 텍스트에만 조건을 두고 있지만, 향후 버전에서는 데이터 시각화나 다른 형태의 자료도 포함될 수 있다. 결과를 바탕으로 다음 실험을 다시 계획한다. 이 과정은 최대 5번까지 반복된다. 실험이 완료되고 나면, Aider는 Python을 이용하여 논문에 들어갈 표를 만들고 대본을 수정한다. The AI Scientist는 각 그래프가 어떤 것들을 포함하는 노트를 만든다. 모든 단계에서 Aider는 실행의 기록를 확인한다.
    참고할 점은 일반적으로 제공된 초기의 시드 플로팅과 실험 템플릿들은 작은 것이고, self-contained 파일이라는 점이다. The AI Scientisti는 시드 템플릿에 있는 것이 아니면 빈번하게 완전히 새로운 플롯을 실행하고 새로운 metric을 수집한다. 이러한 무작위적인 코드 수정은 때로는 예상치 못한 결과를 가져온다.
    아이디어와 템플릿이 주어졌을때, AI Scientist의 두 번째 단계는 주어진 실험을 실행하고 그것의 결과를 시각화하여 이후 논문 작성을 준비하는 것이다. AI Scientist는 Aider를 사용하여 먼저 실행할 실험 목록을 계획한 다음, 순차적으로 실행한다. 이 과정에서 오류가 발생하거나 시간이 초과되면 Aider가 코드를 수정하고 최대 네 번까지 재시도할 수 있도록 한다.
  3. Paper Write-Up
    The AI Scientist의 세 번째 단계는 간결하고 유용한 표준 ML 컨퍼런스 양식에 맞게 과정을 작성하는 것이다. 좋은 LaTex 코드를 작성하는 것은 가끔은 유능한 인간 연구자를 필요로 한다. 그러므로 우리는 이 과정을 robustify하기 위해 몇가지의 단계를 거친다.
    1. Per-Section Text Generation
      기록된 노트와 도표를 Aider에 전달하여, 빈 학회 템플릿을 섹션별로 채운다. 순서는 도입, 배경, 방법, 실험 설정, 결과, 결론 순이다. Aider가 이미 작성한 논문의 모든 이전 섹션은 언어 모델의 컨텍스트로 사용된다. 각 섹션이 포함해야 할 내용에 대한 간단한 팁과 지침을 “How to ML Paper”가이드에 기반하여 제공하며, 세부 사항은 부록 A.3에 포함된다. 글을 작성하는 각 단계에서 Aider는 코드에서 생성된 노트와 도표 형태로 실제 실험 결과만 사용하고, 환각을 줄이기 위해 실제 인용만 사용하도록 요청받는다. 각 섹션은 작성 중에 한번의 Self-reflection(Shinn et al., 2024)을 통해 초기적으로 정제된다. 이 단계에서는 Aider에게 텍스트에 인용을 포함하지 말라고 요청하며, 관련 작업 섹션에는 골격만 채우고 다음 단계에서 이를 완성하도록 한다.
    2. Web Search for References
      아이디어 생성과 유사하게, AI Scientist는 관련 작업 섹션을 위해 거의 완성된 논문을 비교하고 대조할 수 있는 가장 관련성 높은 자료를 찾기 위해 20회의 Semantic Scholar API 호출을 할 수 있다. 이 과정에서 AI Scientist는 논의하고 싶은 논문을 선택할 수 있으며, 또한 논문의 다른 섹션에서 누락된 인용을 채울 수 있다. 선택된 각 논문과 함께 인용을 어디에 어떻게 포함해야 하는지에 대한 짧은 설명이 제공되며, 이는 Aider에게 전달된다. 논문의 bibtex는 정확성 보장을 위해 자동으로 LaTeX 파일에 추가된다.
    3. Refinement
      이전 두 단계를 거친 후 첫 번째 초안을 완성하게 되지만, 종종 지나치게 장황하고 반복적일 수 있다. 이를 해결하기 위해 논문의 주장을 간결하게 하고 중복된 정보를 제거하기 위해 마지막으로 한번의 self-reflection을 섹션별로 수행한다.
    4. Compilation
      LaTeX 템플릿이 모든 적절한 결과로 채워지면, 이는 LaTeX 컴파일러에 입력된다. 우리는 LaTeX linter를 사용하며, 컴파일 오류를 Aider에서 다시 전달하여 이를 자동으로 수정할 수 있도록 한다.

4. Automated Paper Reviewing

An LLM Reviewer Agent

효과적인 과학 커뮤니티의 핵심 요소는 과학 논문의 품질을 평가하고 향상시키는 리뷰 시스템이다. 이러한 과정을 대규모 언어 모델을 사용해 모방하기 위해, 우리는 NeurIPS 컨퍼런스 리뷰 가이드라인을 따라 논문 리뷰를 수행하는 GPT-4o 기반의 agent를 설계했다. 리뷰 agent는 PDF 원고의 원본 텍스트를 PyMuPDF parsing library를 사용해 처리한다. 결과는 정량적인 점수 (soundness, presentation, contribution, overall, confidencce), 약점과 강점 리스트, 그리고 accept 또는 reject로 나온다. 이러한 결정은 이후에 리뷰어 점수를 사용한 임계값 조정으로 후속 보정될 수 있다. 우리는 이 자동화된 리뷰 과정을 활용해 AI 과학자가 생성한 논문들에 대한 초기 평가를 얻는다.

 

Table 1

500편의 ICLR 2022 논문에 대한 AI Scientist의 자동화된 LLM 리뷰 시스템 성능을 나타낸 표이다. mean과 95% bootstrap confidence interval을 나타내었고, 인간 baseline과 우리의 가장 좋은 AI reviewer를 하이라이트하였다.

 

 

Evaluating the Automated Reviewer

LLM-based 리뷰어의 성능을 평가하기 위해, 우리는 AI가 생성해낸 결정과 OpenReview dataset에서 추출한 500개의 ICLR 2022 논문 GT를 비교했다. 이전 섹션과 유사하게, 우리는 많은 최근 LLM agent 발전들을 결합해 의사 결정 과정을 robust하게 만들었다. 더 구체적으로, 우리는 self-reflection, few-shot examping 공급, 그리고 response ensembling을 활용해 기본 LLM 의사결정과정을 개선시켰다. GPT-4o를 사용한 AI 과학자의 리뷰 절차는 5회의 자기 성찰, 5개의 앙상블 리뷰, 그리고 ICLR 2022 리뷰 지침에서 가져온 1개의 샷 리뷰 예시를 결합할 때 70%의 정확도를 달성했다. 이후, 우리는 LLM 기반 메타 리뷰를 수행했으며, 여기서 에이전트는 Area Chair(분과 의장)로서 행동하도록 요청받았다(Wang et al., 2022) (전체 프롬프트는 부록 A.4에 있다). 이 수치는 NeurIPS 2021 일관성 실험에서 보고된 인간의 73% 정확도보다는 낮지만(Beygelzimer et al., 2021), 자동화된 리뷰어는 결정 점수를 6으로 설정할 때(NeurIPS 리뷰 지침에서 "약한 수락"에 해당) 초인간적 F1 점수(0.57 vs. 0.49)와 인간 수준의 AUC(둘 다 0.65)를 달성했다. 이 선택은 수락된 논문의 평균 점수에 대략 해당한다.

검토된 ICLR 2022 논문 데이터셋은 클래스 불균형이 매우 심한데, 이는 거절된 논문이 훨씬 더 많이 포함되어 있다는 것을 의미한다. 논문들의 균형 잡힌 데이터셋을 고려했을 때, AI 과학자의 리뷰 절차는 인간 수준의 정확도(0.65% vs. 0.66%)를 달성한다. 또한, False Negative Rate(FNR, 거절된 논문 중 실제로는 고품질 논문인 비율)는 인간 기준선보다 훨씬 낮다(0.39 vs. 0.52). 따라서, LLM 기반 리뷰 에이전트는 높은 품질의 논문을 거절하는 경우가 더 적다. 반면, False Positive Rate(FPR, 수락된 논문 중 실제로는 품질이 낮은 논문인 비율)는 더 높습니다(0.31 vs. 0.17), 이는 향후 개선의 여지가 있음을 나타낸다.

자동화된 리뷰어의 성능을 추가로 검증하기 위해, 우리는 무작위로 선택된 논문별로 익명의 OpenReview 리뷰어들 간의 전체 논문 점수 일관성과(그림 2, 왼쪽 하단) 모든 리뷰어의 평균 점수와 LLM 점수 간의 일관성을(그림 2, 중앙 하단) 비교했다. 500개의 ICLR 2022 논문 세트에서, 두 명의 인간 리뷰어 간 점수의 상관관계(0.14)는 LLM 점수와 리뷰어 간 평균 점수의 상관관계(0.18)보다 작다는 것을 발견했다. 전반적으로 모든 메트릭에서 LLM 기반 리뷰가 유용한 피드백을 제공할 수 있을 뿐만 아니라(D’Arcy et al., 2024), 개별 인간 리뷰어들이 서로 일치하는 것보다 평균적인 인간 리뷰어 점수와 더 밀접하게 일치한다는 결과를 보여준다.

 

Figure 2

ICLR 2022 OpenReview Data를 GPT-4o를 사용해 AI Scientist의 논문 리뷰 과정 평가. Reflexion과 one-shot prompting을 추가하면 LLM-Based 리뷰 과정의 정확도가 높아진다. 리뷰 앙상블링(5개의 리뷰) 및 후속 메타 집계는 리뷰어의 성과에 영향을 미치지는 않았지만, 분산을 줄일 수 있다.

 

 

각 리뷰는 $0.25 ~ $0.5의 API cost가 들었다. 우리는 추가적으로 리뷰잉 과정을 다양한 다른 foundation model들과 비교했다. Claude Sonnet 3.5, 그리고 GPT 4o-mini는 더 cost-efficient한 접근을 제공했지만, 성능이 확연히 안좋았다. 또한 Sonnet 3.5의 경우 지속적인 낙관적 편향으로 인해 점수를 8로 임계값을 설정해야만 보정된 결과를 얻을 수 있었다. Llama 3.1 405B(Llama 팀, 2024)는 리뷰어 출력 템플릿을 일관되게 따르는 데 어려움을 겪었다. 우리는 커뮤니티를 위한 새로운 흥미로운 LLM 벤치마크를 제공하며, 우리의 코드를 오픈 소스로 공개한다.

LLM Reviewer Ablations

우리는 GPT-4o에 대해 다양한 프롬프트 설정을 비교했으며, Reflexion(+2%)과 one-shot 프롬팅(+2%)이 보다 정확한 리뷰를 수행하는 데 상당한 도움이 된다는 것을 발견했다(그림 2, 상단 및 오른쪽 하단 참조). 반면, 리뷰 앙상블링을 사용하는 것은 리뷰어의 성능을 크게 향상시키지 않았지만 분산을 줄일 수는 있었다. 다음 섹션에서는 최상의 종합 리뷰어인 GPT-4o를 사용했습니다. 이는 5회의 자기 성찰, 5개의 앙상블 리뷰, 메타 집계 단계, 그리고 1개의 few-shot 예시를 포함한다.