728x90
반응형
1. BLEU (Bilingual Evaluation Understudy)
1.1 개념
BLEU는 기계 번역의 품질을 평가하기 위해 개발된 지표로, 생성된 텍스트와 참조 텍스트 간의 n-gram 유사도를 측정합니다.
1.2 계산 방법
- Precision 계산
BLEU = BP × exp(Σ wn × log pn)
- pn: n-gram precision
- wn: 가중치 (보통 균등 분배)
- BP: Brevity Penalty (짧은 번역 패널티)
1.3 특징
장점
- 언어에 독립적
- 계산이 빠르고 간단
- 여러 참조 번역을 동시에 사용 가능
단점
- 문장의 유창성을 고려하지 않음
- 단어의 의미적 유사성을 고려하지 않음
- 순서가 다르지만 의미가 같은 문장에 대해 낮은 점수 부여
1.4 예시
원문: "The cat is on the mat."
참조 번역: "고양이가 매트 위에 있다."
시스템 번역 1: "고양이는 매트 위에 있습니다." (높은 BLEU 점수)
시스템 번역 2: "매트 위에 고양이가 있네요." (상대적으로 낮은 BLEU 점수)
2. ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
2.1 주요 변형
ROUGE-N
- N-gram 기반 중첩 계산
- ROUGE-1 (단일 단어), ROUGE-2 (2단어 연속) 등
ROUGE-L
- 최장 공통 부분수열(LCS) 기반
- 연속적이지 않은 매칭도 고려
ROUGE-S
- Skip-bigram 동시 발생 통계
- 단어 순서를 유연하게 고려
2.2 계산 공식
ROUGE-N = Σ(중첩되는 N-gram 수) / Σ(참조 텍스트의 N-gram 총 수)
2.3 특징
장점
- 텍스트 요약 평가에 특화
- 재현율 중심의 평가로 누락된 정보 파악 용이
- 다양한 변형으로 여러 측면 평가 가능
단점
- 표면적 단어 매칭에 의존
- 문맥적 의미 고려 부족
- 계산 방식에 따라 결과 편차 발생
3. METEOR (Metric for Evaluation of Translation with Explicit ORdering)
3.1 주요 특징
- 단어 대 단어 매칭을 넘어선 평가
- 동의어, 어간, 품사 정보 활용
- 단어 순서도 평가에 반영
3.2 계산 단계
매칭 단계
- 정확한 매칭
- 어간 매칭
- 동의어 매칭
- 의미역 매칭
점수 계산
METEOR = Fmean × (1 - Penalty) Fmean = (10PR) / (R + 9P)
- P: Precision
- R: Recall
- Penalty: 단어 순서 불일치에 대한 패널티
3.3 장단점
장점
- 인간의 판단과 높은 상관관계
- 의미적 유사성 고려
- 유연한 단어 매칭
단점
- 계산 복잡도가 높음
- 언어별 리소스 필요
- 처리 속도가 상대적으로 느림
4. 비교 분석
4.1 사용 케이스
- BLEU: 기계 번역 시스템의 전반적인 품질 평가
- ROUGE: 텍스트 요약 시스템의 포괄성 평가
- METEOR: 의미적 정확도가 중요한 번역 평가
4.2 성능 비교
지표 | 계산 속도 | 의미 고려 | 구현 복잡도 | 언어 의존성 |
---|---|---|---|---|
BLEU | 빠름 | 낮음 | 낮음 | 낮음 |
ROUGE | 중간 | 중간 | 중간 | 중간 |
METEOR | 느림 | 높음 | 높음 | 높음 |
728x90
'NLP > Evaluating Large Language Models' 카테고리의 다른 글
BLEU(Bilingual Evaluation Understudy) (0) | 2024.11.25 |
---|