토리의 데굴데굴 공부일기

[논문리뷰] 생명과학 분야의 실험 프로토콜 생성을 위한 대규모 언어 모델 활용 프롬프트 전략 연구 본문

ML DL/논문리뷰

[논문리뷰] 생명과학 분야의 실험 프로토콜 생성을 위한 대규모 언어 모델 활용 프롬프트 전략 연구

도토오오리 2024. 8. 13. 23:44

원본 논문은 DBPia에서 찾으실 수 있습니다. 

 

0. 요약

기존 방법론

  • 실험 프로토콜을 의사코드로 변환하여 생성 결과를 평가하는 방식 → 의사코드 변환 방법 및 평가 한계
  • 단편적인 예시 기반 변환 방법

본 연구

  • 파라미터 중심 변환 방법 → 프로토콜의 구조와 의미를 더욱 정확하게 반영
  • 유사도 기반 성능 평가 제시 → 연구 결과를 객관적으로 평가 가능

1. 서론

프로토콜: 실험의 재료, 과정, 분석 방법 등을 정리한 문서

본 논문은 생명과학 분야의 실험 프로토콜 문서 자동 생성에 집중함

기존 방법론

  • 대규모 언어 모델을 활용하여 자연어로 작성된 프로토콜을 의사코드 형식으로 변환하는 방법론 제시
  • 이 방법에서 one-shot 프롬프트 사용

→ 의사코드 변환 과정에 대한 검증이 부족하다는 한계점

본 연구

  • 의사코드화 프롬프트를 수정하는 새로운 방법론 개발
  • 생성된 프로토콜의 정확성을 객관적이고 자동화된 방법으로 평가하기 위해, 모델로 하여금 <blank>값을 채워넣도록 하는 생성 및 평가 방법 제시
  • 생명과학 분야의 유형별 실험 프로토콜 데이터셋 구축(P,O,F), 학습된 모델의 성능 비교 분석

2. 관련연구

2.1. 과학 분야에서의 생성모델 활용

LLM 활용하여 효율적인 실험을 진행하려는 시도

논문과 실험 데이터를 기반으로 언어모델 및 질문 답변 시스템을 개발

본 연구

  • 생명과학과 자연어처리 분야를 결합
  • 더욱 효율적인 프로토콜 생성 연구 방법 제시

2.2. 생성 모델 평가 방법론

본 연구

  • BERT 활용하여 코사인 유사도 비교

2.3. 프로토콜 생성

BioPlanner 논문

  • 생명과학 실험 프로토콜 생성 평가를 다룸
  • LLM 활용하여 프로토콜 → 의사코드 변환 방법 소개
  • 기존 자연어 형식의 프로토콜을 의사코드로 변환하여 생성에 적용하면, 프로토콜 생성 결과물에 대한 평가 및 학습이 용이해짐
  • 하지만, 전체 프로토콜 생성 결과 중 41%가 사람의 추가 수정 요한다는 한계점

본 연구

  • 사람의 검증 없이도 프로토콜 생성을 가능하게 하는 새로운 의사코드화 방법을 개발하고자 함

3. 연구방법

3.1. 데이터셋

BioPlanner 논문에서 구축된 생명과학 분야 프로토콜 데이터셋 BioProt 활용

BioProt

  • protocols.io 플랫폼에서 수집된 프로토콜로 구성됨

본 연구

  • One-shot 프롬프트를 통해 대규모 언어 모델이 원본 프로토콜을 의사코드로 변환
  • One-shot 프롬프팅모델에게 기대하는 답변의 스타일을 알려줌으로써, 사용자가 원하는 답변을 유도함
    • 제로샷: 모델에게 제공할 예시가 없거나 또는 예시를 제공하지 않아도 무방할때 사용
    • 원샷: 하나의 예시로도 모델이 충분히 답변할 수 있을 때 사용
    • 퓨샷: 여러개의 예시로 모델의 이해도를 높여 더 나은 답변을 유도할 때 사용
  • Zero-shot, One-shot, Few-shot 프롬프팅 비교
  • 하나의 예시를 제공하고 모델이 이를 참고해 작업을 수행하도록 하는 것
  • 원본 프로토콜의 정보가 어떤 위치에 변환되어 저장되는지에 따라 P, O, F(parameter-wise, original, function-wise)로 나누어 세 개의 데이터셋을 구축

3.2. <blank> 처리와 Fine-tuning 방법

  • 변환된 각 데이터셋에 대해 15%의 확률로 파라미터 부분의 원래 값을 지우고 <blank>로 변경
  • 이후 OpenAI의 API로 GPT 3.5를 fine-tuning하여 3종의 모델을 만듦
  • <blank>처리된 코드는 제목, 설명, 함수 선언부와 함께 입력되어 <blank>가 채워진 코드가 출력되도록 P,O,F 모델을 훈련

3.3. 데이터셋의 완결성 검토

실험에 사용된 one-shot 프롬프트, POF 각 데이터셋에서 임의로 3개씩 선택된 프로토콜에 대해 생명과학 도메인 전문가의 평가를 받으며 프롬프트를 지속적으로 개선

3.4. 교차검증 및 평가방식

  • 5 fold 교차검증
  • 각 모델이 채워넣은 값과 단어를 포함한 생성 결과 - 원본 사이의 코사인 유사도
  • 코사인 유사도는 SciBERT, BERT, BoBERTa 모델을 이용해 계산

4. 실험결과

3가지 모델을 이용해 계산한 코사인 유사도에서 p모델이 모두 가장 유사도가 높음

→ 원본 프로토콜의 정보 대부분을 파라미터 부분에 저장했던 의사코드를 학습한 모델이 성능 높음

→ 파라미터를 명시하여 모델이 어떤 값을 생성해야 하는지에 대한 명확한 지시를 제공받았기 때문으로 해석됨

함수 이름보다는 파라미터 이름에 더 많은 정보를 포함하는 전략이 전체적인 성능 향상을 이끌었음

5. 결론

기존의 의사코드화 방식의 문제점 개선, LLM 기반 프로토콜 생성에 적합한 의사코드화 방식을 제시

실험 프로토콜 의사코드화 품질 향상, 효율적인 프로토콜 생성 가능하게 함

코사인 유사도를 통해 객관적이고 자동화된 비교 가능

다양한 의사코드화 방식의 효과를 정량적으로 평가 가능