본문 바로가기

Active Learning 공부

Not All Out-of-Distribution Data Are Harmfulto Open-Set Active Learning 논문 공부

◻ 이 논문은 NeurIPS'24에 publish된 논문으로 2024.04.11 기준 2회의 citation을 보유하고 있다.

◻ 이 논문은 기존의 Open-set AL이 과도하게 OOD samples을 걸러내는 것을 지적한다.

    ◽ OOD detector를 학습시키려면 어느정도 OOD samples도 필요하다는 주장을 한다.

  이 논문은 https://proceedings.neurips.cc/paper_files/paper/2023/hash/2c8d9636f74d0207ff4f65956010f450-Abstract-Conference.html에서, 코드는 https://github.com/njustkmg/PAL.에서 찾아볼 수 있다. 😉

Introduction

◻ 대체적으로 abstract에서 했던말을 반복한다.

    ◽ OOD samples을 적당히 뽑으면 모델 (classifier, OOD detector) 성능에 좋다 (위 figure(a))

◻ 샘플의 informativeness와 representativeness를 동시에 고려하여 selection을 수행한다.

    ◽ informativeness : one-vs-all (OVA) classifier의 entropy를 사용하여 계산

    ◽ representativeness : learned meta-weight를 사용하여 계산

Methodology

Sampling Criteria.

Uncertainty weight.

◻ 이 논문은 one-vs-all (OVA) classifier 를 사용하여 informativeness를 측정한다.

   ◽ OVA classifier는  각 클래스에 대해 하나의 이진 분류기를 생성한다.

   ◽ OVA classifier의 학습 loss는 아래와 같다. (정답 class는 1, 오답 class는 0을 predict하도록...)

   ◽ OVA classifier로 계산한 informativeness는 아래와 같다. (흠.. 뭔가 이상한데? 🤨)

       ◽ 어찌 되었던 $s^{ID}$가 높을수록 정보량이 낮다고 한다 (= 더 in-distribution에 속할 것 같다)

Meta weight.

◻ meta-weight을 통해 represenatation score을 측정한다.

◻ 여기서 meta-weight은 unlabeled sample의 weight이다. (in semi-supervised learning)

    ◽ unlabeled sample에 대한 loss는 entropy minimization loss 이다.

    ◽ (왜인지는 모르겠으나) meta-weight 값이 클수록 representativeness score가 더 높은 샘플이라 한다.

Progressive Sampling.

◻ 흠.. 딱히 progressive한 내용은 없는데, 왜 progressive sampling인지 모르겄다..

◻ 기존의 C개의 OVA classifier를 C+1 개의 classifier로 확장한다 (마지막 class는 labeled / unlabeled 유무 판단)

◻ ID data와 OOD data를 동시에 select한다.

    ◽ ID data의 경우 가장 정보량 (representativeneses & informativeness)가 높은 샘플을 선택한다.

    ◽ OOD data의 경우 가장 정보량이 낮은 샘플을 선택한다.

Classifier Training.

◻ 흠.. 딱히 progressive한 내용은 없는데, 왜 progressive sampling인지 모르겄다..

◻ 기존의 C개의 OVA classifier를 C+1 개의 classifier로 확장한다 (마지막 class는 labeled / unlabeled 유무 판단)

    ◽ ID data를 가지고 C개의 sub-classifier를 학습하고, OOD data로 남은 한개의 sub-classifier를 학습한다.

    ◽ 이 OVA classifier는 이후 informativeness를 측정하는데 사용된다. (위 식 참고)

◻ ID data만 가지고 그냥 일반적인 C-way classifier도 학습된다.

    ◽ 실제로는 이 classifier를 가지고 evaluation을 진행한다.       

       ◽ evaluation은 ID setting에서 진행되기 때문에, C-way classifier만 사용해도 문제가 없다.