NLP/Evaluating Large Language Models

NLP 평가 지표 종류

metamong-data 2024. 11. 25. 13:38
728x90
반응형

1. BLEU (Bilingual Evaluation Understudy)

1.1 개념

BLEU는 기계 번역의 품질을 평가하기 위해 개발된 지표로, 생성된 텍스트와 참조 텍스트 간의 n-gram 유사도를 측정합니다.

1.2 계산 방법

  1. Precision 계산
    BLEU = BP × exp(Σ wn × log pn)
    • pn: n-gram precision
    • wn: 가중치 (보통 균등 분배)
    • BP: Brevity Penalty (짧은 번역 패널티)

1.3 특징

  • 장점

    • 언어에 독립적
    • 계산이 빠르고 간단
    • 여러 참조 번역을 동시에 사용 가능
  • 단점

    • 문장의 유창성을 고려하지 않음
    • 단어의 의미적 유사성을 고려하지 않음
    • 순서가 다르지만 의미가 같은 문장에 대해 낮은 점수 부여

1.4 예시

원문: "The cat is on the mat."
참조 번역: "고양이가 매트 위에 있다."
시스템 번역 1: "고양이는 매트 위에 있습니다." (높은 BLEU 점수)
시스템 번역 2: "매트 위에 고양이가 있네요." (상대적으로 낮은 BLEU 점수)

2. ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

2.1 주요 변형

  1. ROUGE-N

    • N-gram 기반 중첩 계산
    • ROUGE-1 (단일 단어), ROUGE-2 (2단어 연속) 등
  2. ROUGE-L

    • 최장 공통 부분수열(LCS) 기반
    • 연속적이지 않은 매칭도 고려
  3. ROUGE-S

    • Skip-bigram 동시 발생 통계
    • 단어 순서를 유연하게 고려

2.2 계산 공식

ROUGE-N = Σ(중첩되는 N-gram 수) / Σ(참조 텍스트의 N-gram 총 수)

2.3 특징

  • 장점

    • 텍스트 요약 평가에 특화
    • 재현율 중심의 평가로 누락된 정보 파악 용이
    • 다양한 변형으로 여러 측면 평가 가능
  • 단점

    • 표면적 단어 매칭에 의존
    • 문맥적 의미 고려 부족
    • 계산 방식에 따라 결과 편차 발생

3. METEOR (Metric for Evaluation of Translation with Explicit ORdering)

3.1 주요 특징

  • 단어 대 단어 매칭을 넘어선 평가
  • 동의어, 어간, 품사 정보 활용
  • 단어 순서도 평가에 반영

3.2 계산 단계

  1. 매칭 단계

    • 정확한 매칭
    • 어간 매칭
    • 동의어 매칭
    • 의미역 매칭
  2. 점수 계산

    METEOR = Fmean × (1 - Penalty)
    Fmean = (10PR) / (R + 9P)
    • P: Precision
    • R: Recall
    • Penalty: 단어 순서 불일치에 대한 패널티

3.3 장단점

  • 장점

    • 인간의 판단과 높은 상관관계
    • 의미적 유사성 고려
    • 유연한 단어 매칭
  • 단점

    • 계산 복잡도가 높음
    • 언어별 리소스 필요
    • 처리 속도가 상대적으로 느림

4. 비교 분석

4.1 사용 케이스

  • BLEU: 기계 번역 시스템의 전반적인 품질 평가
  • ROUGE: 텍스트 요약 시스템의 포괄성 평가
  • METEOR: 의미적 정확도가 중요한 번역 평가

4.2 성능 비교

지표 계산 속도 의미 고려 구현 복잡도 언어 의존성
BLEU 빠름 낮음 낮음 낮음
ROUGE 중간 중간 중간 중간
METEOR 느림 높음 높음 높음
728x90

'NLP > Evaluating Large Language Models' 카테고리의 다른 글

BLEU(Bilingual Evaluation Understudy)  (0) 2024.11.25