AI - NLP/Articles

KorSciQA 한국어 논문의 기계독해 데이터셋 (2019)

KorSciQA 한국어 논문의 기계독해 데이터셋 (2019)


요약


- 498개의 논문 초록에 대해 일관성 있는 품질의 2490개의 질의응답으로 구성된 기계독해 데이터셋을 구축


1. 서론


- 학술논문은 일반지식을 다루는 위키 데이터와는 달리 전문화된 지식이 없이 이해하기 힘든 특성이 있어서 더욱 도전적인 IR 과제

- 특히 한국어 논문에 대한 NLP 연구는 많이 부족한 실정


2. 관련 연구


- MS MARCO는 인위적 질문이 아닌 실제 존재하는 질문들을 사용하여 상대적으로 높은 난이도 과제를 제안

- 일반적인 위키, 상식 수준의 QA 과제에 대한 연구는 많지만 학술 논문에 대한 연구는 많지 않다




3. 문제 정의


- KorSciQA는 주어진 한국어 논문 초록에 대해 기계가 주요 내용을 이해하였는가를 질의응답 형식으로 평가하는 Task

- SQuAD와 같은 형식으로 질문에 대하여 주어진 논문 초록 텍스트에서 답변에 해당하는 범위를 선택하는 형식

- NDSL의 컴퓨터공학 관련 2018년 논문들 중 한국어 초록이 존재하는 임의의 데이터(논문 498편) 각각에 5개의 질의응답 데이터를 크라우드소싱


4. KorSciQA 데이터셋 구축 방법


- easy, normal, challenge로 난이도를 구별하여 2,2,1개 질문을 생성


5. KorSciQA 데이터셋 평가


- 두 가지 방법으로 실험 결과를 비교

- KorQuAD를 pre-train한 모델에 KorSciQA 독해 능력을 평가 / KorSciQA 데이터셋을 9:1로 나눠 학습 & 평가

- model : BERT-base-multilingual-cased

- 학습 데이터가 KorSciQA에 제한되어 있을 경우 훨신 좋은 성능이 나왔다 => domain specific train model이 성능이 좋다