Overview of the TREC 2020 Deep Leaning Track (2021)

Abstract

- TREC-style 평가 방법으로, 데이터가 많을 때 랭킹 시스템 간의 비교를 수행

- 올 해 결과는 BERT-style로 프리프레인된 것들이 더 좋은 성능을 내는 것으로 보임

1. Introduction

- IR의 ad hoc ranking에서 핵심 문제는 training-data가 커져도 딥러닝 모델의 성능이 많이 나아지지 않았다는 것

- 한 가지 가능한 설명은 아직 training sets가 너무 작다는 것이다.

- sparse labels로 평가하는 MS MACRO와 달리, TREC의 평가 방법은 comprehensive relevance labeling이다

2. Task description

- Track의 두 가지 tasks는 문서 검색과 문단 검색이다.

- 1) 문서 검색은 두 가지 subtasks로 이루어진다 (i) full retrieval (ii) top-100 reranking

- full retrieval은 모든 문서 콜렉션에서 쿼리와 관련도가 높은 문서를 추출하여 순위를 매긴다 (end-to-end 방식)

- top-100 rerank는 모든 참가자들에게 똑같이 100개의 문서가 주어지고 이것들의 순위를 매긴다

- 2) 문단 검색은 두 가지 subtasks로 이루어진다 (i) full retrieval (ii) top-1000 reranking

- top-1000 rerank에서 참가자들은 query에 대한 답이 포함된 문단들로 순위를 매긴다

3. Datasets

- 문단 검색의 경우 positive label은 해당 문단에 query에 대한 답이 포함되어 있음을 뜻한다.

- 문서 검색의 경우, 라벨링된 문단의 소스 문서에 대응되는 문단 라벨 값을 마찬가지로 사용한다

4. Results and Analysis

- run type은 nnlm, nn, trad로 나눈다

- nnlm : BERT와 같이 사전훈련된 큰 규모의 뉴럴 언어 모델, nn : 뉴럴넷 기반, trad : BM25같은 전통적 IR 방법

- 측정 메트릭 : NDCG(Normalized Discounted Cumulative Gain), AP(Average Precision), RR(Reciprocal Rank)

Neural vs. Trad

- 가장 뛰어난 성능의 nnlm 모델과 nn모델은 가장 뛰어난 trad 모델의 23%, 11% 뛰어난 성능을 보임 (NDCG@10)

- 쿼리 단위에서 win-loss 분석을 했을 때 nnlm은 trad 모델에 84% 이겼고, 문서 검색과 문단 검색 둘 다 비슷했다

End-to-End(Fullrank) vs. reranking

- 문단 검색에서는 fullrank와 rerank의 성능 차이가 거의 없었고, 이는 우리의 예상과 달랐다.

- 문서 검색에서는 fullrank가 rerank보다 NDCG@10에서 5% 정도 더 높은 성능을 보임

- NCG@10와 NDCG@10의 관계의 경우 rerank는 일정하지만 fullrank의 경우 뚜렷한 상관관계가 없다

- ORCAS(Open Resource for Click Analysis in Search) 데이터셋을 사용한 그룹은 약간 더 좋은 성능을 보임

- 이는 아마도 ORCAS 데이터셋이 훈련 데이터에 없는 추가 정보를 담고 있기 때문일 것으로 추측

NIST labels vs. Sparse MS MACRO labels

- 이외에도 라벨링 방법 (NIST labels vs. MS MACRO labels)에 따른 영향도 있다.

- Track에서는 NIST의 4점 척도를 활용하여 쿼리 당 여러 개의 결과가 대응되는 방식으로 labeling함

- 반면 MS MACRO는 하나의 쿼리 당 단 하나의 positive result를 갖도록 labeling함

- 문서 랭킹 태스크에서 데이터간 일치율에 따른 Kendall 상관도는 문서 검색 0.46, 문단 검색 0.69로 낮음

5. Conclusion

생략...

A Survey of Recommender Systems Based on Deep Learning (2018) (0)	2021.02.22
Deep Learning Based Recommendation: A Survey (2017) (0)	2021.02.22
Switch Transformers: Scaling to trillion parameter models with simple and efficient sparcity (2021) (0)	2021.02.16
Scaling Laws for Neural Language Models (2020) (0)	2021.02.05
딥러닝 모델 병렬 처리 (2018) (0)	2021.02.05

티스토리툴바