AI - NLP/Articles

BERT를 이용한 한국어 특허상담 기계독해 (2020)

BERT를 이용한 한국어 특허상담 기계독해 (2020)


요약


- 기계독해는 사용자 질의의 관련된 문서를 기계가 이해한 후 정답을 추론하는 인공지능 NLP task


1. 서론


- 기계독해는 QA, 챗봇과 같은 자동 질의응답 시스템의 핵심이 되는 기술


2. 관련 연구


- KorQuAD는 위키백과 문서를 대상으로 문단을 정제하여 질의와 정답을 생성한 일반상식분야에 대한 데이터 셋

- BERT는 pre-trained된 모델을 기반으로 특정 task에  적합한 데이터를 학습하고 모델을 변형하여 학습된 모델의 가중치(weights)를 업데이트하는 representation learning의 한 방법이다.

- 본 연구에서는 BERT-base-multilingual-cased 모델을 사용


3. 특허상담 질의응담 데이터 셋


- 본 논문에서는 특허상담 데이터 셋의 수집, 정제, 포맷, 글자길이 등 모델 최적의 성능을 얻기 위한 범위, 가이드라인 등을 제시한다

- 특허고객 상담센터의 상담이력 데이터, 특허법령, 특허고객 상답사례집을 수집 => 총 6011건의 질의응답 데이터셋을 구축

- context 중 300자 미만의 짧은 글은 제거, 특수문자는 ',",- 로 통일하고 그 이외 문자/이미지/표는 제거

- Context 하나 당 최소 10개 이상의 질의를 생성, answer는 context 안의 동일한 단어를 사용

- EM(Exact Match) : 한국어 기준 정답의 어절단위가 정확하게 일치하는 정도

- F1 score : 예측한 정답과 실제 정답 간의 정밀도와 재현율의 조화평균 값


4. BERT 기반 특허상담 기계독해 모델


- KorQuAD로 학습한 모델 / KorQuAD + Patent Dataset로 학습한 모델 / Patent Dataset으로 학습한 모델을 비교

- Word Tokenizing : Basic Tokenizer / Subword Tokenizer : WordPiece Tokenizer

- Tokenizer를 Mecab으로 바꿔 실험했을 때 한국어에 더욱 맞게 높은 성능이 도출됨

- 본 실험은 BERT의 token embedding과정을 개선한 ReTE(ReTokenizing for Input Embeddings)가 핵심

- word단위 정답을 tokenizing하여 label된 원래 정답과 비교 => 정답에 부합하는 토큰만 정답으로 남겨서 embedding 처리


5. 결론


- 위키백과 코퍼스를 사용하지 않고 patent dataset만을 학습한 pre-trained patent모델과 ReTE를 적용하여 fine-tuning한 모델이 EM 66.50%, F1 82.45%로 가장 좋은 성능을 보였다. => 영역 특화적인 task에서 영역 특화 corpus로 pretrain해야 좋다!