안녕하세요 콥스랩(COBS LAB) 입니다.
오늘 소개해 드릴 논문은 ‘SimCLS: A Simple Framework for Contrastive Learning of Abstractive Summarization’입니다.
해당 내용은 유튜브 ‘딥러닝 논문 읽기 모임' 중 ‘SimCLS’ 영상 스크립트를 편집한 내용으로, 영상으로도 확인하실 수 있습니다. (영상링크:https://youtu.be/3CPfP7oaXO8)
안녕하세요 오늘 소개해 드릴 논문은 2021년 ACL에서 발표된 SimCLS: A Simple Framework for Contrastive Learning of Abstractive Summarization입니다.
먼저 기존 framework인 Seq2 Seq learning framework의 한계입니다. Seq2Seq 모델은 기본적으로 Maximum likelihood의 estimation을 통해 학습하게 될 때 Teacher forcing이라는 방법을 사용합니다. 이때 발생하는 두 가지 한계점이 있습니다. 하나는 learning Objective와 Evaluation Metric 간의 부조화입니다. learning Objective의 경우 Previous 토큰이 주어졌을 때 next token을 예측함으로써 token level prediction에 기반하는 반면, Evaluation Metric은 시스템 아웃풋과 Reference 전체 Sequence에 대해 평가를 합니다. 즉 token level의 loss를 통해 모델을 학습시키지만 평가하는 Summary 레벨에서 수행하며 이 차이를 learning Objective와 Evaluation Metric 간의 gap이라 합니다.
두 번째 한계점은 Teacher forcing 학습방법으로 인한 Exposure bias입니다. 모델 훈련 시에는 decoder의 입력으로 Ground-true와 Previous 아웃풋이 주어지는 반면에, 테스트 시에는 Previous 아웃풋만 주어지기 때문에 훈련 단계와 테스트 단계의 Gap을 초래합니다. Exposure bias가 존재할 때 테스트시 Previous 스텝의 오류가 계속해서 누적되기 때문에 성능 저하의 원인이 될 수 있습니다.
앞서 언급한 두 가지 한계점을 극복하기 위한 관련 연구를 설명드리겠습니다. 먼저 강화 학습을 사용함으로써 한계점을 극복하고자 했던 연구들이 있습니다. 강화 학습은 Sequence 레벨을 평가지표를 통해 직접적으로 모델을 학습할 수 있습니다.
다음으로, Self Critical Sequence Training을 설명드리겠습니다. Self Critical Sequence Training은 강화 학습기법 중 하나로 강화 학습의 baseline을 사용합니다. 현재 모델에서 inference를 수행했을 때 리워드를 baseline으로 사용하여 앞선 한계점들을 완화할 수 있는 방법입니다. 2018년 Paulus의 연구에서는 이러한 Self Critical Sequence Training을 사용하여 추상 요약을 수행하였습니다.
기존의 learning Objective는 Previous 스텝의 Ground true token들이 주어졌을 때 next token을 예측하는 방법입니다. 제안된 learning Objective은 L rl항을 추가했습니다. r(y^)이 grid 알고리즘으로 선택된 Sequence에 대한 baseline이고 r(ys)가 sampling strategy로 선택된 Sequence에 대한 리워드로 r(ys)가 baseline보다 커지도록 학습됩니다. 이때 리워드 함수인 Sequence 레벨의 Evaluation Metric과 모델 prediction이 learning Objective에 포함되었으며 이를 통해 앞선 한계점들을 완화할 수 있습니다.
하지만 강화 학습의 사용으로 인해 noise gradient estimation과 같은 RL의 고질적인 문제가 발생하는 한계점이 있습니다.
다음으로, Minimum risk training을 사용한 연구들입니다. Minimum risk training은 posterior distribution에 대한 예측된 Loss인 리스크를 낮추는 방향으로 학습을 하며 입력 문서 x와 이전 입력들이 주어졌을 때 모든 가능한 candidate translation을 고려하며 리스크가 낮은 Sequence를 선택합니다. 이때 search space가 너무 크다는 한계가 있기 때문에 2016년 Shen et al 연구에서는 전체 search space에서 sampling을 통해 선택된 subset을 사용하는 방법을 제안하였습니다.
learning Objective는 search space가 조정되어서 수정된 것입니다. Q distribution은 전체 search space에서 Candidate translation이 선택되는 확률을 sample subset에서 Candidate translation이 선택될 확률로 재조정된 확률 분포입니다. Minimum risk training 역시 learning Objective의 token level이 아닌 sentence level의 Evaluation Metric을 포함하였고 모델 prediction을 포함함으로써 기존 framework의 한계를 완화했습니다. 하지만 sample subset을 사용하기 때문에 예측된 loss의 정확도가 subset의 크기, 즉 Candidate의 수에 제한된다는 한계점이 있습니다.
Sentence level score를 MLE loss에 추가함으로써 한계점을 극복하고자 하는 연구들입니다.
2016년 wiseman and Rush 연구에서는 next token의 확률이 아닌 Sequence level의 스코어를 예측하도록 학습했습니다.
2016년 Norouzi et al 연구에서는 Structured prediction task에 널리 사용되는 token level 및 Sequence level의 loss function 그리고 token level과 Sequence 레벨을 결합한 loss function에 대해 비교연구를 수행했습니다.
2018년 Edunov et al 연구에서는 Conditional log likelihood들을 최적화하기 전에 Ground true 아웃풋과의 스코어에 따른 sampling단계를 추가하였습니다.
본 논문에서 설명하는 framework인 SimCLS에 대해 소개해 드리겠습니다. SimCLS는 MLE framework의 두 가지 한계점을 보완한 2단계 추상 요약 framework로 generation 단계와 Evaluation 단계로 구성됩니다.
위 그림은 SimCLS framework의 학습 과정입니다. generation 단계에서는 입력 document에 따라 여러 후보 요약문들을 생성합니다. 이 Candidate Summary들은 Reference와의 유사도에 따라 Real Score가 매겨지고, Evaluation 모델은 이를 예측하도록 Contrastive learning을 통해 학습합니다.
SimCLS의 동작 과정에 대해 (a) train과 (b) Test 단계를 설명드리겠습니다. generation 모델과 Evaluation 모델은 별도로 학습됩니다. 먼저 (a) train 단계입니다. document가 주어지면 generation 모델은 Candidate Summary set S를 생성하며 Candidate Summary set S~은 Reference summary와의 스코어를 기반으로 내림차순으로 정렬됩니다. Evaluation 모델은 document와 정렬된 Candidate Summary set S~ document와 Reference summary S^간의 Semantic Similarity 스코어를 출력하며 Ranking Loss에 의해 학습됩니다. 다음으로 테스트시에는 Candidate summary set을 정렬하지 않으며 학습된 Evaluation 모델에 의해 생성된 Semantic similarity score와 가장 높은 Candidate summary를 선택하게 됩니다.
SimCLS가 어떻게 기존 MLE framework의 한계점들을 보완했는가에 대해 말씀드리겠습니다. 논문에서는 적절한 Evaluation Metric을 통해 모델을 직접 최적화함으로써 트레이닝과 테스트 단계 간의 GAP들을 완화할 수 있는 방법이 있다고 언급했습니다.
첫 번째로 Contrastive learning의 사용입니다. 2021년 Sun and Li의 연구에서는 좋은 요약문(gold summary)과 그렇지 않은 요약문인 (silver summary) 간의 격차를 둠으로써 silver summary가 선택될 확률을 일정 이상 줄여 Exposure bias로 인한 성능 저하를 완화할 수 있다고 하였습니다.
두 번째로 Metric oriented training입니다. summary 레벨의 Evaluation metric에 기반하여 Evaluation 모델을 훈련시킴으로써 learning Objective와 Evaluation metric 간의 gap을 완화하였습니다.
다음으로 Contrastive learning입니다. 자연어 처리 분야에서 Contrastive learning은 같은 의미의 텍스트들은 의미가 다른 텍스트들보다 더 비슷한 representation을 갖도록 하는 self supervised 학습 방법입니다. 논문에서는 이러한 Contrastive learning을 도입하기 위해 2021년 Zhong et al 연구에서 디자인한 loss function을 채택하였습니다. 해당 연구에서는 좋은 summary는 그렇지 않은 summary들보다 document와 의미적으로 비슷하다는 원리를 기반으로 loss function을 디자인하였습니다. 즉 document와 Candidate summary, Reference summary를 Semantic space에 매핑했을 때 document와 document 핵심 내용인 Reference summary, 그리고 좋은 Candidate summary는 가깝게, 핵심 내용에서 벗어난 Candidate summary는 document와 멀게 매핑되도록 학습하고자 하였습니다.
이 논문에서 채택된 loss function은 Margin-based triplet loss와 Pairwise margin loss 두 가지 항으로 구성됩니다.
document와 Reference summary, Candidate summary가 세 개 있을 때 Margin-based triplet loss는 document와 Candidate 간의 스코어보다 document와 Reference가 더 높은 스코어를 갖도록 동작하는 것을 확인할 수 있습니다. Reference summary가 document 핵심 내용이기 때문에 Evaluation 모델은 이 둘 간의 Semantic similarity 스코어가 가장 높도록 학습합니다. Semantic Space에 매핑했을 때 document와 Reference가 가장 가깝게, Candidate summary가 멀게 매핑되도록 동작합니다.
다음으로 Pairwise margin loss는 가장 높은 순위에 랭크된 Candidate summary ~S0과 document 간의 스코어가 다른 Candidate summary들과 document 간의 스코어보다 더 높은 스코어를 갖도록 동작합니다. Reference를 제외하면 ~S0가 document와 의미적으로 가장 비슷하기 때문에 Candidate summary ~S0와 document 간의 Similarity 스코어가 가장 높아야 합니다.
Semantic Space 매핑했을 때 가장 높은 순위의 Candidate이 document와 가까이, 하위 순위의 Candidate는 더 멀리 매핑되는데 이 순위 차이에 따라서 더 낮은 순위의 Candidate summary가 더 멀리 매핑됩니다.
다음으로 실험을 살펴보겠습니다. 뉴스 기사인 두 데이터셋 CNN-DailyMail과 XSum 데이터셋에서 실험하였으며, 기존에 추상 요약 평가지표로 널리 쓰이는 ROUGE 스코어뿐만 아니라 Semantic Similarity 스코어인 BERTScore, MoverScore 평가지표도 추가하였습니다. 여기서 Origin은 Generation 모델 BART의 성능이며 Min과 Max는 각각 Generation 모델이 생성한 16개의 Candidate summary들 중 가장 낮은 스코어, 가장 높은 스코어를 의미합니다. Random은 이 16개의 Candidate summary들 중 랜덤 하게 선택된 요약문의 성능입니다. CNN DailyMail에서 SOTA를 달성한 것을 확인할 수 있으며 Origin보다 Max의 성능이 더 뛰어난 것으로 보아 Sampling strategy를 사용함으로써 놓칠 수 있었던 추상 요약의 성능을 이끌어 낼 수 있음을 확인할 수 있습니다.
다음은 Candidate summary 수에 따른 Origin과 SimCLS의 성능을 비교하는 실험입니다. SimCLS는 Candidate summary의 개수가 증가할수록 성능이 향상되며 Candidate summary 수가 적더라도 SimCLS는 Origin보다 더 나은 성능을 보이는 것을 확인할 수 있습니다.
다음은 SimCLS가 Origin에 비해 summary 퀄리티를 향상했는지 Fine-grained Analysis 결과에 대해 소개해드리겠습니다. Entitiy, Sentence 이 두 가지 레벨에서 분석을 수행하였습니다. 먼저 Entitiy-level에서는 document와 Reference내에 공통으로 존재하는 salient entities들을 얼마나 추출할 수 있는지에 대해 실험을 수행하였습니다. Sentence-level는 Origin 및 SimCLS 요약문의 각 문장과 매칭 되는 document에 문장을 추출하며 Reference에 의해 매칭 된 document의 문장과 얼마나 겹치는지 비교하는 실험을 수행하였습니다. ROUGE 스코어를 통해 매칭 문장을 추출하였으며 마찬가지로 오른쪽과 같이 F1 스코어를 분석하였습니다. Entitiy이 Sentence-level 모두에서 SimCLS는 Origin에 비해 핵심 단어와 핵심 문장을 파악할 수 있었음을 확인할 수 있습니다.
다음으로 Positional bias입니다. Positional bias는 ground truth의 위치가 어디에 분포했는지 데이터셋의 특징을 분석하기 위해 사용되는데요. 왼쪽 그림에 x축이 상대적인 위치로 숫자가 커질수록 문서에 후반을 의미하고 y축이 매칭률을 나타냅니다.
Origin의 각 문장들은 주로 document 초반에 매칭 되는 것을 확인할 수 있습니다. 그에 비해 상대적으로 Reference는 어느 정도 고르게 분포되어 있습니다. SimCLS는 Origin보다 bias가 완화된 것을 확인할 수 있는데요. Sampling strategy를 통해 여러 Candidate summary를 생성한 후 summary 레벨의 퀄리티를 평가함으로써 re-ranking을 수행하기 때문에 bias가 완화될 수 있었습니다.
XSum 데이터셋에 대한 실험 결과입니다. SOTA를 달성하였지만 CNN DailyMail보다는 Origin과 큰 격차를 보이진 않았습니다, 이에 대해 저자들은 XSum 데이터셋의 특성 때문이라고 언급하였습니다. XSum 데이터셋은 뉴스 기사와 One sentence 요약문으로 구성되어 있습니다. 이때 Reference가 상당히 짧기 때문에 Candidate summary 역시 짧은 요약문을 생성하며 이로 인해 Candidate summary들 간의 의미 다양성이 부족하게 됩니다. Candidate summary들이 유사한 의미를 가졌을 때 Contrastive learning으로 좋은 summary와 그렇지 않은 summary 간의 격차를 두는데 한계가 있기 때문에 큰 성능 향상을 보이기 어렵다고 밝혔습니다.
마지막으로 논문의 컨트리뷰션입니다. 첫 번째로 MLE 학습 framework로 인한 한계점들을 보완하기 위해 Contrastive learning을 이용한 2단계 추상 요약 framework SimCLS를 제안하였습니다. 두 번째로 CNN DailyMail 및 XSum 데이터셋에서 SOTA를 달성했습니다. 마지막으로 SimCLS가 요약문 품질을 향상할 수 있었는가에 대한 Fine-grained Analysis를 제공하였습니다.
댓글