NLP/Evaluating Large Language Models 2

NLP 평가 지표 종류

1. BLEU (Bilingual Evaluation Understudy)1.1 개념BLEU는 기계 번역의 품질을 평가하기 위해 개발된 지표로, 생성된 텍스트와 참조 텍스트 간의 n-gram 유사도를 측정합니다.1.2 계산 방법Precision 계산BLEU = BP × exp(Σ wn × log pn)pn: n-gram precisionwn: 가중치 (보통 균등 분배)BP: Brevity Penalty (짧은 번역 패널티)1.3 특징장점언어에 독립적계산이 빠르고 간단여러 참조 번역을 동시에 사용 가능단점문장의 유창성을 고려하지 않음단어의 의미적 유사성을 고려하지 않음순서가 다르지만 의미가 같은 문장에 대해 낮은 점수 부여1.4 예시원문: "The cat is on the mat."참조 번역: "고양이가 ..

BLEU(Bilingual Evaluation Understudy)

BLEU Score란?BLEU(Bilingual Evaluation Understudy)는 기계번역의 품질을 평가하기 위해 개발된 자동 평가 지표입니다.기본 개념시스템이 생성한 번역문과 인간이 번역한 참조 번역문 간의 유사도를 측정0에서 1 사이의 값(0-100%)으로 표현1에 가까울수록 더 나은 번역을 의미작동 원리N-gram 정밀도 계산1-gram부터 4-gram까지의 중첩도 측정각 n-gram에 대해 가중치 적용 (일반적으로 각각 0.25)계산 공식CopyBLEU = BP × exp(Σ(wn × log pn))BP: Brevity Penalty (길이 페널티)wn: n-gram 가중치pn: n-gram 정밀도주요 구성 요소N-gram 정밀도(Precision)생성된 텍스트에서 발견되는 n-gram이..

728x90
반응형