'NLP/Evaluating Large Language Models' 카테고리의 글 목록

NLP/Evaluating Large Language Models 2

1. BLEU (Bilingual Evaluation Understudy)1.1 개념BLEU는 기계 번역의 품질을 평가하기 위해 개발된 지표로, 생성된 텍스트와 참조 텍스트 간의 n-gram 유사도를 측정합니다.1.2 계산 방법Precision 계산BLEU = BP × exp(Σ wn × log pn)pn: n-gram precisionwn: 가중치 (보통 균등 분배)BP: Brevity Penalty (짧은 번역 패널티)1.3 특징장점언어에 독립적계산이 빠르고 간단여러 참조 번역을 동시에 사용 가능단점문장의 유창성을 고려하지 않음단어의 의미적 유사성을 고려하지 않음순서가 다르지만 의미가 같은 문장에 대해 낮은 점수 부여1.4 예시원문: "The cat is on the mat."참조 번역: "고양이가 ..

NLP/Evaluating Large Language Models 2024.11.25

BLEU(Bilingual Evaluation Understudy)

BLEU Score란?BLEU(Bilingual Evaluation Understudy)는 기계번역의 품질을 평가하기 위해 개발된 자동 평가 지표입니다.기본 개념시스템이 생성한 번역문과 인간이 번역한 참조 번역문 간의 유사도를 측정0에서 1 사이의 값(0-100%)으로 표현1에 가까울수록 더 나은 번역을 의미작동 원리N-gram 정밀도 계산1-gram부터 4-gram까지의 중첩도 측정각 n-gram에 대해 가중치 적용 (일반적으로 각각 0.25)계산 공식CopyBLEU = BP × exp(Σ(wn × log pn))BP: Brevity Penalty (길이 페널티)wn: n-gram 가중치pn: n-gram 정밀도주요 구성 요소N-gram 정밀도(Precision)생성된 텍스트에서 발견되는 n-gram이..

NLP/Evaluating Large Language Models 2024.11.25

metamong-data 님의 블로그

metamong-data 님의 블로그 입니다.

너비 우선 탐색(bfs) 알고리즘, 99클럽 #코딩테스트준비 #개발자취업 #항해99 #til, 추천시스템 성능 지표, 티스토리챌린지, precision@k, 추천시스템, online evaluation, 깊이 우선 탐색(dfs) 알고리즘, 문자열 해싱 (string hashing), #99클럽 #코딩테스트준비 #개발자취업 #항해99 #til, ndcg@k, 해시 (hash) 자료구조 & 문자열 해싱 (string hashing), 고전적인 추천 알고리즘, 문자열 해싱, recall@k, hit rate@k, string hashing, 오블완, sql ddl, 온라인 평가지표,

Today :
Yesterday :

728x90

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

NLP/Evaluating Large Language Models 2

티스토리툴바