BERT를 이용한 한국어 특허상담 기계독해 (2020)

BERT를 이용한 한국어 특허상담 기계독해 (2020)

요약

- 기계독해는 사용자 질의의 관련된 문서를 기계가 이해한 후 정답을 추론하는 인공지능 NLP task

1. 서론

- 기계독해는 QA, 챗봇과 같은 자동 질의응답 시스템의 핵심이 되는 기술

2. 관련 연구

- KorQuAD는 위키백과 문서를 대상으로 문단을 정제하여 질의와 정답을 생성한 일반상식분야에 대한 데이터 셋

- BERT는 pre-trained된 모델을 기반으로 특정 task에 적합한 데이터를 학습하고 모델을 변형하여 학습된 모델의 가중치(weights)를 업데이트하는 representation learning의 한 방법이다.

- 본 연구에서는 BERT-base-multilingual-cased 모델을 사용

3. 특허상담 질의응담 데이터 셋

- 본 논문에서는 특허상담 데이터 셋의 수집, 정제, 포맷, 글자길이 등 모델 최적의 성능을 얻기 위한 범위, 가이드라인 등을 제시한다

- 특허고객 상담센터의 상담이력 데이터, 특허법령, 특허고객 상답사례집을 수집 => 총 6011건의 질의응답 데이터셋을 구축

- context 중 300자 미만의 짧은 글은 제거, 특수문자는 ',",- 로 통일하고 그 이외 문자/이미지/표는 제거

- Context 하나 당 최소 10개 이상의 질의를 생성, answer는 context 안의 동일한 단어를 사용

- EM(Exact Match) : 한국어 기준 정답의 어절단위가 정확하게 일치하는 정도

- F1 score : 예측한 정답과 실제 정답 간의 정밀도와 재현율의 조화평균 값

4. BERT 기반 특허상담 기계독해 모델

- KorQuAD로 학습한 모델 / KorQuAD + Patent Dataset로 학습한 모델 / Patent Dataset으로 학습한 모델을 비교

- Word Tokenizing : Basic Tokenizer / Subword Tokenizer : WordPiece Tokenizer

- Tokenizer를 Mecab으로 바꿔 실험했을 때 한국어에 더욱 맞게 높은 성능이 도출됨

- 본 실험은 BERT의 token embedding과정을 개선한 ReTE(ReTokenizing for Input Embeddings)가 핵심

- word단위 정답을 tokenizing하여 label된 원래 정답과 비교 => 정답에 부합하는 토큰만 정답으로 남겨서 embedding 처리

5. 결론

- 위키백과 코퍼스를 사용하지 않고 patent dataset만을 학습한 pre-trained patent모델과 ReTE를 적용하여 fine-tuning한 모델이 EM 66.50%, F1 82.45%로 가장 좋은 성능을 보였다. => 영역 특화적인 task에서 영역 특화 corpus로 pretrain해야 좋다!

저작자표시 (새창열림)

'AI - NLP > Articles' 카테고리의 다른 글

XML-Roberta 기반 한국어 기계독해 기법 (2020) (0)	2020.12.17
KorSciQA 한국어 논문의 기계독해 데이터셋 (2019) (2)	2020.12.17
Neural networks for Information Retrieval (2018) (0)	2020.12.16
Information Retrieval System and Machine Translation: A Review (2016) (0)	2020.12.11
Review: Information Retrieval Techniques and Application (2015) (0)	2020.12.11

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

BERT를 이용한 한국어 특허상담 기계독해 (2020)

'AI - NLP > Articles' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역