BERT를 이용한 한국어 특허상담 기계독해 (2020)
요약
- 기계독해는 사용자 질의의 관련된 문서를 기계가 이해한 후 정답을 추론하는 인공지능 NLP task
1. 서론
- 기계독해는 QA, 챗봇과 같은 자동 질의응답 시스템의 핵심이 되는 기술
2. 관련 연구
- KorQuAD는 위키백과 문서를 대상으로 문단을 정제하여 질의와 정답을 생성한 일반상식분야에 대한 데이터 셋
- BERT는 pre-trained된 모델을 기반으로 특정 task에 적합한 데이터를 학습하고 모델을 변형하여 학습된 모델의 가중치(weights)를 업데이트하는 representation learning의 한 방법이다.
- 본 연구에서는 BERT-base-multilingual-cased 모델을 사용
3. 특허상담 질의응담 데이터 셋
- 본 논문에서는 특허상담 데이터 셋의 수집, 정제, 포맷, 글자길이 등 모델 최적의 성능을 얻기 위한 범위, 가이드라인 등을 제시한다
- 특허고객 상담센터의 상담이력 데이터, 특허법령, 특허고객 상답사례집을 수집 => 총 6011건의 질의응답 데이터셋을 구축
- context 중 300자 미만의 짧은 글은 제거, 특수문자는 ',",- 로 통일하고 그 이외 문자/이미지/표는 제거
- Context 하나 당 최소 10개 이상의 질의를 생성, answer는 context 안의 동일한 단어를 사용
- EM(Exact Match) : 한국어 기준 정답의 어절단위가 정확하게 일치하는 정도
- F1 score : 예측한 정답과 실제 정답 간의 정밀도와 재현율의 조화평균 값
4. BERT 기반 특허상담 기계독해 모델
- KorQuAD로 학습한 모델 / KorQuAD + Patent Dataset로 학습한 모델 / Patent Dataset으로 학습한 모델을 비교
- Word Tokenizing : Basic Tokenizer / Subword Tokenizer : WordPiece Tokenizer
- Tokenizer를 Mecab으로 바꿔 실험했을 때 한국어에 더욱 맞게 높은 성능이 도출됨
- 본 실험은 BERT의 token embedding과정을 개선한 ReTE(ReTokenizing for Input Embeddings)가 핵심
- word단위 정답을 tokenizing하여 label된 원래 정답과 비교 => 정답에 부합하는 토큰만 정답으로 남겨서 embedding 처리
5. 결론
- 위키백과 코퍼스를 사용하지 않고 patent dataset만을 학습한 pre-trained patent모델과 ReTE를 적용하여 fine-tuning한 모델이 EM 66.50%, F1 82.45%로 가장 좋은 성능을 보였다. => 영역 특화적인 task에서 영역 특화 corpus로 pretrain해야 좋다!
'AI - NLP > Articles' 카테고리의 다른 글
XML-Roberta 기반 한국어 기계독해 기법 (2020) (0) | 2020.12.17 |
---|---|
KorSciQA 한국어 논문의 기계독해 데이터셋 (2019) (2) | 2020.12.17 |
Neural networks for Information Retrieval (2018) (0) | 2020.12.16 |
Information Retrieval System and Machine Translation: A Review (2016) (0) | 2020.12.11 |
Review: Information Retrieval Techniques and Application (2015) (0) | 2020.12.11 |