번역생성품질평가지표 'BLEU, ROUGE, METEOR' 정의
이 지표들은 각각 다른 방식으로 텍스트의 품질을 평가하지만,. 공통적으로 모델이 사람이 작성한 것처럼 자연스럽고 정확한 텍스트를 생성했는지를 평가하는데 사용된다. 비전공자라도 이 지표들을 통해 모델이 잘 작동했는지, 개선이 필요한지 이해할 수 있다. 쉽게 말해 BLEU, ROUGE, METEOR는 생성된 텍스트가 얼마나 잘 만들어졌는지 숫자로 알려주는 점수표라고 생각하면 된다.
BLEU 정의
💡 BLEU (Bilingual Evaluation Uderstudy 다중언어평가연구)가 무엇인가?
BLEU는 번역된 텍스트(모델이 생성한 텍스트)가 참조 텍스트(사람이 번역한 텍스트)와 얼마나 유사한지를 평가하는 지표
💡 어떻게 작동하나? BLEU는 모델이 생성한 텍스트에서 n-그램이라는 작은 단어 묶음을 참조 텍스트와 비교한다. 예를 들어, “The cat is on the mat”라는 문장에서 2-그램은 ”The cat”, “cat is”, “is on”등이 된다. BLUE는 이처럼 작은 단어 묶음들이 참조 텍스트와 얼마나 겹치는지를 계산해 점수를 매긴다
💡 쉽게 설명하면 : BLEU는 사람처럼 문장을 얼마나 비슷하게 생성했는지를 숫자로 표현하는 것이라고 생각하면 된다.점수가 높을수록 더 정확한 번역이나 생성이라고 볼 수 있다.
(개인적인 의견) 같은 문장이라도 사람마다 다르게 번역하는 경우가 많다. 참조 텍스트 자체에 사람간의 격차, 차이가 있을 수 있다는 한계점이 있다.
ROUGE 정의
💡 ROUGE (Recall-Oriented Understudy for Gisting Evaluation, 회수 지향 요약 평가 보조자)은 무엇인가요? ROUGE는 주로 ‘텍스트 요약‘의 품질을 평가하는 데 사용한다. 생성된 요약문이 원본 텍스트에서 얼마나 많은 중요한 단어나 구절을 포함하는지 측정한다.
📌 지표 이름의 ‘Recall(회수)’는 참조 텍스트(사람이 번역한 텍스트)에서 중요한 부분을 얼마나 잘 “회수”했는지를 뜻하는 개념이다.
💡 어떻게 작동하나? ROUGE는 참조 요약문과 생성된 요약문을 비교해 중복된 단어(ROUGE-N)나 중복된 문장(ROUGE-L)의 수를 세고, 얼마나 잘 요약했는지를 점수로 계산한다.
💡 쉽게 설명하면 : ROUGE는 모델이 요약을 얼마나 잘했는지를 확인하는 방법이다. 중요한 내용을 놓치지 않고 잘 요약했는지 보는 것이다.
METEOR의 정의
💡 METERO (Metric for Evalutaion for Translation with Explicit ORdering, 명시적 순서를 가진 번역 평가 지표)가 무엇인가? BLEU와 비슷하지만, 좀 더 정밀하게 번역의 품질을 평가하는 지표이다. 단어의 형태나 순서까지 고려해서 점수를 매긴다.
📌 지표 이름의 ‘Explicit ORdering(명시적 순서)’는 텍스트의 단어 순서까지 고려하는 점을 강조한 표현이다.
💡 어떻게 작동하나? 생성된 텍스트와 참조 텍스트 사이의 어휘 일치뿐만 아니라 형태소(단어의 기본 형태)나 동의어까지 고려해 점수를 계산한다. 예를 들어, “run”과 “ran”같은 동사 형태로 인식될 수 있다.
💡 쉽게 설명하면 : 번역된 문장이 사람의 번역과 얼마나 비슷한지 더욱 세밀하게 평가하는 지표이다. 단어 선택이나 순서까지 고려하는 것이다.
G-Eval은 무슨 뜻인가요? | AI 모델의 성능 평가 방법론
Edu GPT와 Chat GPT의 차이점 | 인공지능 1:1 과외 선생님 만들기
'기술노트' 카테고리의 다른 글
AI 도입 트렌드와 CI/CD 파이프라인 전략: 모델 모니터링의 핵심 (1) | 2024.09.21 |
---|---|
최적화된 AI 클라우드 기반 데이터셋 및 SLM 모델 구축 전략 (3) | 2024.09.21 |
G-Eval은 무슨 뜻인가요? | AI 모델의 성능 평가 방법론 (0) | 2024.09.16 |
PoC 완벽 파헤치기 | 비전공자도 이해하는 용어 개념 (5) | 2024.09.02 |
Edu GPT와 Chat GPT의 차이점 | 인공지능 1:1 과외 선생님 만들기 (1) | 2024.09.01 |