무제

[Langchain] Model Evaluation - 1 본문

Project/LLM

[Langchain] Model Evaluation - 1

mugan1 2024. 11. 24. 17:50

1. 성능 평가 방식에 대해 잘 정리된 블로그 링크

 

https://gagadi.tistory.com/58

 

[LLM Evaluation] LLM 성능 평가 방법 : Metric, Benchmark, LLM-as-a-judge 등

🤖 LLM 성능 평가 방법 정리  📌 개요 LLM의 성능을 제대로 측정하는 작업은 모델의 개발 과정뿐만 아니라 수많은 LLM 중 어떤 모델을 선택할 것인지 결정하는 상황에서도 매우 중요하다. 즉, LLM

gagadi.tistory.com

 

2. Allganize의 자동평가코드 사용법이 상세히 기재된 블로그

 

https://didi-universe.tistory.com/entry/RAG-RAG-%EB%B2%A4%EC%B9%98%EB%A7%88%ED%81%AC-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%85%8B-%EC%84%B1%EB%8A%A5-%ED%8F%89%EA%B0%80-%EB%A6%AC%EB%B7%B0-RAG-Evaluation-Dataset-KO

 

[RAG] RAG 벤치마크 데이터셋 & 성능 평가 리뷰 : RAG-Evaluation-Dataset-KO

개요 한국어 RAG 솔루션 성능 평가를 위해 RAG 벤치마크 데이터셋과 평가 관련 리서치를 진행,올거나이즈에서 운영중인 RAG 리더보드에서 사용하는 벤치마크 데이터셋을 찾게 되었다. https://huggin

didi-universe.tistory.com

 

내가 만든 Laywer LLM을 평가하기 위해서 다음과 같은 파이프라인을 구축할 것이다. 

 

1) Allganize에서 제공한 데이터셋 중 도메인 분야가 law인 dataset만 추출

 

2) 관련 pdf 문서 다운로드 

 

-> 1,2번의 경우 테스트가 완료되면 Law QA 데이터셋을 추가로 확보하여 50~100문항 정도를 준비해야겠다

 

3) 평가 자동화 코드 구현 및 테스트

 

4) 성능 검증(모델 / Summarization 방법 등등을 비교)

'Project > LLM' 카테고리의 다른 글

LLM 관련 자료 모음  (0) 2024.11.30
[Langchain] LLM 모델로 LLM 평가하기  (2) 2024.11.29
[Langchain] Map Re-rank  (1) 2024.11.22
[Langhchain] Refine  (0) 2024.11.21
[Langchain] Map Reduce  (0) 2024.11.17
Comments