AI - NLP/Articles

기계독해를 이용한 판례 내 주요 정보 추출 방법 (2019)

기계독해를 이용한 판례 내 주요 정보 추출 방법 (2019)


1. 서론


- 법률정보통합검색 사이트인 리걸서치에서 학습시킬 데이터셋을 수집하여 한국어 판례 데이터셋 KorCL을 구축


2. 관련 연구


- KorBERT는 ETRI에서 공개한 한국어의 특성을 반영한 형태소 분석 기반의 언어 모델

- 신문 기사와 백과사전 등 23GB의 대용량 텍스트, 47억 개의 형태소를 학습한 모델


3. 데이터 셋


- KorCL 데이터셋은 법원에서 배포하는 판례의 범죄사실에 해당하는 내용을 지문으로 하고 있다

- 리걸 서치에서 1001건의 강력 범죄 판례를 수집

- 1심 재판에 해당하는 사건만 한정, 범죄 사실이 명시되지 않은 판례는 수집에서 제외

- 총 3885개의 질의응답 쌍을 구축


4. BERT 기반 기계독해를 이용한 정보 추출 방법


- 대표적인 다국어 지원 모델로 mBERT, XML이 있다


5. 실험 및 결과


- 질문 유형을 네 가지로 구성 (Who, When, Where, What)

- 질문 유형에 대한 답이 가장 정형적인 When에 대한 답이 가장 좋은 성능을 보임

- 질문 유형에 대한 답이 가장 비정형적인 Where에 대한 답이 가장 안좋은 성능을 보임