AI - NLP/Articles

Information Retrieval System and Machine Translation: A Review (2016)

Information Retrieval System and Machine Translation: A Review (2016)


CLIR : Cross-lingual Information Retrieval

MLIR: Multi-lingual Information Retrieval


인터넷에는 non-English content가 늘고 있으며, 개발국에서 언어에 제약이 없는 정보 검색은 매우 중요


□ CLIR


Query, Document가 각각 하나의 언어로 혹은 섞인 언어로 주어질 수 있다


▶ Machine Translation : 연산 비용이 많이 든다

▶ Bilingual Dictionary 

dictionary에서 찾아서 (look up) query를 번역한다

dictionary에서 찾지 못한 단어들은 simple rule based 번역으로 해결한다

 Parallel Corpora

dictionary base보다 일반적으로 더 좋은 성능을 보인다

양질의 데이터를 얻기 힘들고, parallel corpora 데이터를 만드는 것 자체가 복잡하고 비용이 많이 듬

bilingual machine readable dictionaries가 더 많이 쓰임

 Morphological Analyzer (형태소 분석)

입력 단어들의 형태소를 생성, root word를 찾아내기 용이

POS tagger, Chunker와 결합하여 NLP 기초 단계에서 유용성이 높다

 Word Sense Disambiguation

주변의 단어들을 통해 추론, 같이 등장할 가능성이 높은 단어들을 통해 모호한 단어의 의미들 중 하나로 뜻을 결정


□ Machine Translation Approaches


 Rule-based (Fig.1)

사전에 없는 단어를 번역할 때 간단한 규칙 기반 접근법을 활용할 수 있다

syntactic(문법적), morphological(형태소적), semantic(의미적) 정보를 활용

 Corpus-based

statistical translation model, 대량의 이중 언어 병렬 코퍼스를 활용

example-based MT Approach는 Corpus-based Approach 중 하나다

 Dictionary-based machine translation

단어나 phrase 단위로 equivalent translated verse를 찾는 방식

문장 전체를 번역하지는 못한다

 Example-based machine translation

bilingual-corpus with parallel texts를 main knowledge로 활용

소스 언어에서 비슷한 형태의 문장으로 이루어진 타겟 문장을 사용

4단계 - example acquisition, example base and management, example application, synthesis