KorSciQA 한국어 논문의 기계독해 데이터셋 (2019)

KorSciQA 한국어 논문의 기계독해 데이터셋 (2019)

요약

- 498개의 논문 초록에 대해 일관성 있는 품질의 2490개의 질의응답으로 구성된 기계독해 데이터셋을 구축

1. 서론

- 학술논문은 일반지식을 다루는 위키 데이터와는 달리 전문화된 지식이 없이 이해하기 힘든 특성이 있어서 더욱 도전적인 IR 과제

- 특히 한국어 논문에 대한 NLP 연구는 많이 부족한 실정

2. 관련 연구

- MS MARCO는 인위적 질문이 아닌 실제 존재하는 질문들을 사용하여 상대적으로 높은 난이도 과제를 제안

- 일반적인 위키, 상식 수준의 QA 과제에 대한 연구는 많지만 학술 논문에 대한 연구는 많지 않다

3. 문제 정의

- KorSciQA는 주어진 한국어 논문 초록에 대해 기계가 주요 내용을 이해하였는가를 질의응답 형식으로 평가하는 Task

- SQuAD와 같은 형식으로 질문에 대하여 주어진 논문 초록 텍스트에서 답변에 해당하는 범위를 선택하는 형식

- NDSL의 컴퓨터공학 관련 2018년 논문들 중 한국어 초록이 존재하는 임의의 데이터(논문 498편) 각각에 5개의 질의응답 데이터를 크라우드소싱

4. KorSciQA 데이터셋 구축 방법

- easy, normal, challenge로 난이도를 구별하여 2,2,1개 질문을 생성

5. KorSciQA 데이터셋 평가

- 두 가지 방법으로 실험 결과를 비교

- KorQuAD를 pre-train한 모델에 KorSciQA 독해 능력을 평가 / KorSciQA 데이터셋을 9:1로 나눠 학습 & 평가

- model : BERT-base-multilingual-cased

- 학습 데이터가 KorSciQA에 제한되어 있을 경우 훨신 좋은 성능이 나왔다 => domain specific train model이 성능이 좋다

기계독해를 이용한 판례 내 주요 정보 추출 방법 (2019)(0)	2020.12.17
XML-Roberta 기반 한국어 기계독해 기법 (2020)(0)	2020.12.17
BERT를 이용한 한국어 특허상담 기계독해 (2020)(0)	2020.12.17
Neural networks for Information Retrieval (2018)(0)	2020.12.16
Information Retrieval System and Machine Translation: A Review (2016)(0)	2020.12.11

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바