KorSciQA 한국어 논문의 기계독해 데이터셋 (2019)
요약
- 498개의 논문 초록에 대해 일관성 있는 품질의 2490개의 질의응답으로 구성된 기계독해 데이터셋을 구축
1. 서론
- 학술논문은 일반지식을 다루는 위키 데이터와는 달리 전문화된 지식이 없이 이해하기 힘든 특성이 있어서 더욱 도전적인 IR 과제
- 특히 한국어 논문에 대한 NLP 연구는 많이 부족한 실정
2. 관련 연구
- MS MARCO는 인위적 질문이 아닌 실제 존재하는 질문들을 사용하여 상대적으로 높은 난이도 과제를 제안
- 일반적인 위키, 상식 수준의 QA 과제에 대한 연구는 많지만 학술 논문에 대한 연구는 많지 않다
3. 문제 정의
- KorSciQA는 주어진 한국어 논문 초록에 대해 기계가 주요 내용을 이해하였는가를 질의응답 형식으로 평가하는 Task
- SQuAD와 같은 형식으로 질문에 대하여 주어진 논문 초록 텍스트에서 답변에 해당하는 범위를 선택하는 형식
- NDSL의 컴퓨터공학 관련 2018년 논문들 중 한국어 초록이 존재하는 임의의 데이터(논문 498편) 각각에 5개의 질의응답 데이터를 크라우드소싱
4. KorSciQA 데이터셋 구축 방법
- easy, normal, challenge로 난이도를 구별하여 2,2,1개 질문을 생성
5. KorSciQA 데이터셋 평가
- 두 가지 방법으로 실험 결과를 비교
- KorQuAD를 pre-train한 모델에 KorSciQA 독해 능력을 평가 / KorSciQA 데이터셋을 9:1로 나눠 학습 & 평가
- model : BERT-base-multilingual-cased
- 학습 데이터가 KorSciQA에 제한되어 있을 경우 훨신 좋은 성능이 나왔다 => domain specific train model이 성능이 좋다
'AI - NLP > Articles' 카테고리의 다른 글
기계독해를 이용한 판례 내 주요 정보 추출 방법 (2019)(0) | 2020.12.17 |
---|---|
XML-Roberta 기반 한국어 기계독해 기법 (2020)(0) | 2020.12.17 |
BERT를 이용한 한국어 특허상담 기계독해 (2020)(0) | 2020.12.17 |
Neural networks for Information Retrieval (2018)(0) | 2020.12.16 |
Information Retrieval System and Machine Translation: A Review (2016)(0) | 2020.12.11 |