무제
[Langchain] Model Evaluation - 1 본문
1. 성능 평가 방식에 대해 잘 정리된 블로그 링크
[LLM Evaluation] LLM 성능 평가 방법 : Metric, Benchmark, LLM-as-a-judge 등
🤖 LLM 성능 평가 방법 정리 📌 개요 LLM의 성능을 제대로 측정하는 작업은 모델의 개발 과정뿐만 아니라 수많은 LLM 중 어떤 모델을 선택할 것인지 결정하는 상황에서도 매우 중요하다. 즉, LLM
gagadi.tistory.com
2. Allganize의 자동평가코드 사용법이 상세히 기재된 블로그
[RAG] RAG 벤치마크 데이터셋 & 성능 평가 리뷰 : RAG-Evaluation-Dataset-KO
개요 한국어 RAG 솔루션 성능 평가를 위해 RAG 벤치마크 데이터셋과 평가 관련 리서치를 진행,올거나이즈에서 운영중인 RAG 리더보드에서 사용하는 벤치마크 데이터셋을 찾게 되었다. https://huggin
didi-universe.tistory.com
내가 만든 Laywer LLM을 평가하기 위해서 다음과 같은 파이프라인을 구축할 것이다.
1) Allganize에서 제공한 데이터셋 중 도메인 분야가 law인 dataset만 추출
2) 관련 pdf 문서 다운로드
-> 1,2번의 경우 테스트가 완료되면 Law QA 데이터셋을 추가로 확보하여 50~100문항 정도를 준비해야겠다
3) 평가 자동화 코드 구현 및 테스트
4) 성능 검증(모델 / Summarization 방법 등등을 비교)
'Project > LLM' 카테고리의 다른 글
| LLM 관련 자료 모음 (0) | 2024.11.30 |
|---|---|
| [Langchain] LLM 모델로 LLM 평가하기 (2) | 2024.11.29 |
| [Langchain] Map Re-rank (1) | 2024.11.22 |
| [Langhchain] Refine (0) | 2024.11.21 |
| [Langchain] Map Reduce (0) | 2024.11.17 |
Comments