토리의 데굴데굴 공부일기

[ 논문리뷰 ] Align and Attend: Multimodal Summarization with Dual Contrastive Losses 본문

ML DL/논문리뷰

[ 논문리뷰 ] Align and Attend: Multimodal Summarization with Dual Contrastive Losses

도토오오리 2024. 5. 18. 19:41

Paper

https://arxiv.org/abs/2303.07284

 

Align and Attend: Multimodal Summarization with Dual Contrastive Losses

The goal of multimodal summarization is to extract the most important information from different modalities to form output summaries. Unlike the unimodal summarization, the multimodal summarization task explicitly leverages cross-modal information to help

arxiv.org

 

Official Github

https://github.com/boheumd/A2Summ

 

GitHub - boheumd/A2Summ: The official implementation of 'Align and Attend: Multimodal Summarization with Dual Contrastive Losses

The official implementation of 'Align and Attend: Multimodal Summarization with Dual Contrastive Losses' (CVPR 2023) - boheumd/A2Summ

github.com

 

 

Video Summarization task에서 Multimodal 정보 (frame, audio) 정보를 모두 활용하기 위해 둘 간의 시간적 대응을 맞추기 위해 Align and Attend 방식을 제시한 논문이다. 2023 CVPR에서 발표된 엄청 최신 연구이다!! 

 

이해를 돕기위한 보충설명 ! 

Unimodal vs. Multimodal
- 단일 모달(unimodal) 모델은 하나의 유형의 데이터 입력(예: 텍스트, 이미지, 오디오 등)만을 처리하는 모델을 의미함
- 다중 모달(multimodal) 모델은 여러 유형의 데이터 입력을 동시에 처리하여 통합된 출력을 생성하는 모델을 의미함. 예를 들어 텍스트와 이미지를 함께 input으로 받아 처리하는 모델은 multimodal 모델이라고 불림. 

 

0. Abstract

Multimodal summarization의 목적은 각기 다른 modalities에서 가장 중요한 정보를 추출하는 것이다. 

Unimodal(한가지의 modal만을 사용하는 것)과는 달리, multimodal summarization task에서는 cross-modal 정보를 명시적으로 활용해야 한다. 하지만 기존 연구들은 두개의 modal 사이의 시간적 대응을 맞춰 활용하지 못한다. 또한, 그래서 각기 다른 sample들 사이에 내재한 상관관계를 무시한다. 

 

이 논문에서는 이러한 문제를 해결하기 위해 A2Summ(Align and Attend Multimodal Summarization)을 제안한다. 

A2Summ은 multimodal input을 효과적으로 align, attend할 수 있는 통합된 transformer-based multimodal 모델이다. 

A가 2개라 A2Summ이라는 이름을 지은게 좀 귀엽다 ㅎ

 

그리고 이 논문에서는 contrastive loss 두가지도 제안한다. inter-sample과 intra-sample correlation을 활용한 두가지의 loss function이다. 

 

1. Introduction

Online contents(e.g. news, livestreams, vlogs, etc.) 들의 급격한 성장세와 함께, multimodal summarization은 다양한 real-world applications에 활용될 수 있기 때문에 함께 활발히 연구되고 있다. 

 

원래는 이미지와 오디오 정보를 모두 가지고 있는 video를 요약하는 task의 경우에도 출력으로 main modality의 요약만을 출력하는 연구만 진행되었다. 하지만 최근에는 Multimodal Summarization with multimodal output (MSMO) 연구가 진행되는 중이다. 

 

하지만 이 논문에서는 기존에 진행되었던 MSMO 연구의 문제를 두가지로 설명한다.

1. 두가지의 modality가 활용되어도 두 modal 사이의 correspondence를 맞춰서 사용하지 않는다.

2. corss-modal correlation을 위해 간단한 전략만을 적용한다. (sequence modeling and attention operation) 

 

위에서 설명한 이러한 연구들에서 영감을 받아, 이 논문에서는 시간적 대응을 맞추는 참신한 Video summarization model architecture를 제안한다. 

Figure 1. A2summ input output 구조

 

첫째로, 서로 다른 modalities를 align시킨 정보를 활용하기 위해, A2Summ에서는 alignment-guided self-attention module을 제안한다. 

두번째로, intrinsic cross-modality correlation을 활용하는 self-supervised training에서의 성공에서 영감을 받아, inter-sample과 intra-sample contrastive loss의 조합으로 이루어진 dual contrastive losses를 제안한다. 

 

또한, 이 연구에서는 large-scale의 livestream video dataset을 인터넷 웹상에서 수집했다. 기존의 video summarization dataset들은 다양한 scene들이 나타나고 장면들이 휙휙 바뀌는 짧은 video였다면, live streaming video는 훨씬 길고 video content들이 잘 바뀌지 않는다. 이러한 특성은 live streaming video를 요약하기 더욱 어렵게 만든다. A2Summ은 이렇게 수집한 live streaming dataset도 활용하여 라이브 방송들도 잘 요약할 수 있도록 만들었다. 

 

Contribution

- multimodal input의 time correspondence를 활용하는 A2Summ을 제안

- dual contrastive loss 제안

- BLiSS dataset을 만들어 활용 (Behance LiveStream Summarization dataset)

 

 

3. Method 

Figure 2. A2Summ framework overview

 

3.1. Overview 

A2Summ에서는 input으로 video frame과 transcribed text(자막 텍스트)를 사용한다. N개의 video frame들과 M개의 문장으로 구성되어 있다. 그리고 각 자막 문장은 start time과 end time을 가지고 있고, 이것을 이용하면 video와 text modality들을 자동으로 정렬할 수 있다. 

전체적인 아키텍쳐는 3개의 부분으로 나뉠 수 있는데, input embedding과 multimodal alignment and fusion과 loss function이다. 

 

3.2. Input Embedding 

각 frame과 setence들의 deep neural feature들을 뽑기 위해 pretrained feature extraction model을 사용한다. Feature extraction 이후에는 FC layer를 통해 각각의 다른 modal들이 공통의 C-차원으로 projection된다. 

각 모달리티들을 위해 특별한 [cls] token이 prepend된다. 위 그림에서 볼 수 있는 [CLSV]와 [CLST]는 각각의 모달리티들을 나타내주는 [cls] token이다. 이 토큰을 통해 전체적인 representation이 가능해진다. 

그리고 BERT처럼 learnable position embedding을 추가했다. 

마지막으로, 시간 대응을 맞추기 위하여 positional embedding에 기반한 learnable segment embedding을 추가해 주었다. 

 

3.3. Multimodal Alignment and Fusion 

Alignment-Guided Self-Attention

A2Summ의 핵심적인 모듈 중 하나이다. 기존의 방법론들은 multimodal input을 align, fuse하기 위해 transformer 아키텍쳐를 적용했다. 하지만, multimodal summarization task의 input들은 종종 untrimmed video와 text sentence들인 경우가 많아 관련없는 배경이 우세할때가 많다. 

여기다가 직접적으로 global self-attention을 수행하게 되면 관련없는 배경들이 attention되어 extra noise를 만들어낼 수 있다. 

 

그래서 이 논문에서는 masked self-attention operation을 고안했다. Intra-modality modeling에서는 global attention을 그대로 적용하고, Cross-modality attention에서는 같은 segment embedding에 해당하는 부분만 값을 1로 채워넣어 그 부분만 attention 되도록 하였다. 

수식으로 나타내면 위와 같다. 

 

3.4. Loss Function 

Classification Loss

improtance score classification을 위해 focal loss 도입

 

Inter-Sample Contrastive Loss

 

Intra-Sample Contrastive Loss 

 

Overall Loss