안전기준의 검색과 분석을 위한 기계독해 기반 질의응답 시스템 (2020)
1. 서론
2. 관련 연구
- 본 연구는 다음과 같은 논문들을 활용한 QA 모델을 제안
1) Reading Wikipedia to Answer Open-domain Questions (2017)
2) Denoising Distantly Supervised Open-domain Question Answering (2018)
3) Ranking Paragraphs for Improving Answer Recall in Open-domain Question Answering (2018)
4) Evidence Aggregation for answer Re-ranking in Open-domain Question Answering (2017)
3. 기계독해 기반 안전기준 질의응답 시스템
1) 문서 검색기
- 전체 법령문서들 중에서 질문과 연관성이 큰 법령문서들을 검색하는 모둘
- 조문 선별기에서 처리할 문서의 수를 줄임 => 시스템의 처리 속도를 향상
- 사용자 질문에서 색인어를 추출한 다음 해당 색인어를 포함한 모든 문서를 찾는다 => Okapi BM25로 문서 순위화
- KorQuAD 1.0으로 실험한 결과 상위 100개 문서에 정답이 포함된 경우는 83.2%, 300개 문서에는 91.3%
2) 조문 선별기
- 문서 검색기에서 추출된 상위 100개의 법령문서를 조문 단위로 나누고, 그 중에서 질문과 연관성이 큰 조문을 선별
- 조문과 질문 => (조문 선별기) => α, 문서와 질문 => (문서 검색기) => β, 둘을 convolution해서 값이 큰 상위 K개 조문만 선별
3) 조문 독해기
- bert-base-multilingual-cased 모델을 사용, fine-tuning에서는 445개 법령문서 27065개 조문을 활용
- KorQuAD 1.0에 대한 지나친 의존성을 줄이기 위해 무작위로 선택된 질문과 관련이 없는 조문을 corpus에 포함
- Xi = [CLS] q0 q1 .. qn [SEP] pi0 pi1 ... pin 과 같은 포맷으로 BERT에 입력
- 출력값의 차원 수를 2로 설정한 FFNN을 통해서 시작과 끝의 확률을 구함
4) 정답 선택
- 조문 선별기, 조문 추출기는 K개의 조문을 받아 K개의 정답을 출력
- 정답 선택은 이중에서 가장 확률이 높은 1가지 정답을 선택
- 4가지 모델로 최종 결과를 도출해보았다
4. 실험 및 결과
- 조문 선별기의 학습은 KorQuAD 학습/개발 데이터, 문서 검색기의 검색 결과 중 상위 10개를 이용
- 문서 검색기 결과 상위 100개 문서+질문을 조문 선별기에 입력하여 출력된 점수를 기반으로 상위 K개 단락을 추출
- 상위 100개의 단락을 선별한 경우, 트랜스포머를 사용하여 인코딩했을 때 72.72% 정확도를 보임
- 정답 선택에서 4가지 모델 중 [CLS] 토큰을 정답의 시작과 끝으로 선택할 확률이 가장 낮은 단락에서 추출된 정답을 선택하는 게 좋은 성능
5. 결론
- KorQuAD, 법령 데이터를 활용해서 EM 40.42%, F1 55.34% 성능을 달성
- 안전기준 질의응답 데이터 구축, 법령문서에 표함된 표의 기계 해독을 통해 더 좋은 성능을 낼 수 있을 수도
'AI - NLP > Articles' 카테고리의 다른 글
Transformer Feed-Forward Layers Are Key-Value Memories (2020) (0) | 2021.02.05 |
---|---|
BERT 기반의 Sentence-wise Attention을 활용한 계약서 조항 분류 연구 (2019) (0) | 2020.12.18 |
사전 학습된 한국어 BERT의 전이학습을 통한 한국어 MRC 성능개선에 관한 연구 (2020) (0) | 2020.12.18 |
기계독해를 이용한 판례 내 주요 정보 추출 방법 (2019) (0) | 2020.12.17 |
XML-Roberta 기반 한국어 기계독해 기법 (2020) (0) | 2020.12.17 |