반응형
G-Eval의 정의
G-Eval은 “Generative Evaluation”의 약자로, 주로 생성형 AI 모델의 성능을 평가하는 방법론을 의미한다.G-Eval은 생성형 AI가 만들어낸 텍스트, 이미지, 음악 등 다양한 생성물의 품질을 평가하고, 모델의 성능을 개선하는데 사용한다.
G-EVal의 객관적 평가
- 객관적 평가 (Objective Evaluation):
- 자동화된 지표를 사용해 모델의 출력물의 정확성, 일관성, 유창성 등을 측정한다. 예를 들어, 텍스트 생성 모델의 경우 BLEU, ROUGE, METEOR 등의 지표가 사용된다.
- BLEU, ROUGE, METEOR (번역생성품질평가지표들)
- 장점 : 대규모 데이터에 대해서는 빠르게 평가가 가능하다.
- 단점 : 인간의 주관적인 판단을 완전히 반경하지 못한다.
- 자동화된 지표를 사용해 모델의 출력물의 정확성, 일관성, 유창성 등을 측정한다. 예를 들어, 텍스트 생성 모델의 경우 BLEU, ROUGE, METEOR 등의 지표가 사용된다.
💡 ‘자동화된 평가 지표’
컴퓨터가 텍스트의 품질을 자동으로 평가할 수 있도록 설계된 지표이다. 사람이 직접 평가하지 않고, 알고리즘이 텍스트의 특정 특징을 분석해 점수를 부여한다. 이런 지표들은 대량의 데이터를 빠르고 일관되게 평가할 수 있다는 장점이 있다.
💡 ’자동화되지 않은 평가지표’
사람이 직접 텍스트를 평가하는 방식이다. 이 방법은 주로 텍스트의 창의성, 유창성, 자연스러움 같은 더 복잡하고 주관적인 요소를 평가할 때 사용한다. 인간 평가자들이 결과물을 직접 읽고, 느끼고, 판단해 점수를 매긴다. 예를 들어, 사람이 텍스트를 읽고 창의적이라고 느끼는 정도를 평가하거나 직접 텍스트를 읽으면서 어색하지 않은지로 자연스러움의 정도를 평가한다.
G-EVal의 주관적 평가
- 주관적 평가 (Subjective Evaluation):
- 인간 평가자들이 직접 생성된 결과물을 평가하는 방식이다. 생성된 텍스트나 이미지를 인간이 읽거나 보면서 자연스러움, 창의성, 유용성 등을 기준으로 평가한다.
- 장점 : 실제 사용자 경험(중요)을 반영할 수 있다.
- 단점 : 시간과 비용이 많이 든다.
반응형
평가 지표에 대한 이해
- 모델 성능 분석: 생성형AI 모델이 어떻게 작동하는지 분석할 수 있어야 한다.모델의 출력물에 대한 오류 패턴을 파악하고, 이를 개선하기 위한 방법을 제안할 수 있어야 한다.
- 사례: 자동 텍스트 요약 모델의 오류 분석
- 모델 선택 : 텍스트 요약 모델 하나를 선택하여 사용한다.
- 출력물 수집 : 여러 기사나 문서를 입력하고, 모델이 생성한 요약문을 수집한다.
- 오류 패턴 파악 :
- 단계1: 모델의 요약문을 참조 요약문(사람이 작성한 요약)과 비교한다.
- 단계2: 다음과 같은 오류 패턴을 찾는다.
- 중요한 정보 누락: 모델이 원문에서 중요한 정보를 요약하지 못했는지 확인
- 의미 왜곡: 모델이 원문과 다른 의미로 요약했는지 분석
- 중복: 요약문에 불필요한 중복이 있는지 확인
- 개선 제안: 만약 중요한 정보를 자주 누락한다면, 학습 데이터에 더 많은 중요 정보가 포함된 예시를 추가하거나, 모델의 손실 함수를 수정해 특정 단어의 가중치를 높이는 방법을 제안할 수 있다.
- 사례: 자동 텍스트 요약 모델의 오류 분석
- 사용자 피드백 수집 및 분석: 실제 사용자들의 피드백을 통해서 모델의 성능을 평가하는 방법을 익혀야 한다. 설문조사 또는 A/B테스트 등을 활용해서 주관적 평가 데이터를 수집하고 분석할 수 있어야 한다.
- 사례1: 챗봇과 대화를 마친 사용자 대상 설문조사
- 설문 항목:
- 대화의 자연스러움 (1~5점)
- 질문에 대한 정확한 답변 (1~5점)
- 대화의 유용성 (1~5점)
- 사례2: 서로 다른 버전의 챗봇에 대한 A/B테스트
- 예를 들어, 한 버전은 기본 모델로, 다른 버전은 사전 훈련된 데이터셋을 추가해 학습한 모델로 대화를 시도하게 하여, 두 버전의 사용자 행동을 비교하거나 설문조사 결과를 비교
- 개선 제안 : 만약 ‘자연스러움’이 낮은 점수를 받았다면, 해당 영역을 개선하기 위해 모델의 파인튜닝(Fine-tuning)이나 데이터셋 추가를 제안한다.
PoC 완벽 파헤치기 | 비전공자도 이해하는 용어 개념
Edu GPT와 Chat GPT의 차이점 | 인공지능 1:1 과외 선생님 만들기
AI 모델의 성능을 결정짓는 핵심, 손실 함수란? (Loss Function)
BLEU, ROUGE, METEOR 은 무슨 뜻인가요? | 번역생성품질평가지표들
반응형
'기술노트' 카테고리의 다른 글
최적화된 AI 클라우드 기반 데이터셋 및 SLM 모델 구축 전략 (3) | 2024.09.21 |
---|---|
BLEU, ROUGE, METEOR 은 무슨 뜻인가요? | 번역생성품질평가지표들 (0) | 2024.09.16 |
PoC 완벽 파헤치기 | 비전공자도 이해하는 용어 개념 (5) | 2024.09.02 |
Edu GPT와 Chat GPT의 차이점 | 인공지능 1:1 과외 선생님 만들기 (1) | 2024.09.01 |
AI 모델의 성능을 결정짓는 핵심, 손실 함수란? (Loss Function) (1) | 2024.08.31 |