[Langchain] Model Evaluation

Recent Comments

Recent Posts

관리 메뉴

무제

Project/LLM

mugan1 2024. 11. 24. 17:50

1. 성능 평가 방식에 대해 잘 정리된 블로그 링크

[LLM Evaluation] LLM 성능 평가 방법 : Metric, Benchmark, LLM-as-a-judge 등

🤖 LLM 성능 평가 방법 정리 📌 개요 LLM의 성능을 제대로 측정하는 작업은 모델의 개발 과정뿐만 아니라 수많은 LLM 중 어떤 모델을 선택할 것인지 결정하는 상황에서도 매우 중요하다. 즉, LLM

gagadi.tistory.com

2. Allganize의 자동평가코드 사용법이 상세히 기재된 블로그

[RAG] RAG 벤치마크 데이터셋 & 성능 평가 리뷰 : RAG-Evaluation-Dataset-KO

개요 한국어 RAG 솔루션 성능 평가를 위해 RAG 벤치마크 데이터셋과 평가 관련 리서치를 진행,올거나이즈에서 운영중인 RAG 리더보드에서 사용하는 벤치마크 데이터셋을 찾게 되었다. https://huggin

didi-universe.tistory.com

내가 만든 Laywer LLM을 평가하기 위해서 다음과 같은 파이프라인을 구축할 것이다.

1) Allganize에서 제공한 데이터셋 중 도메인 분야가 law인 dataset만 추출

2) 관련 pdf 문서 다운로드

-> 1,2번의 경우 테스트가 완료되면 Law QA 데이터셋을 추가로 확보하여 50~100문항 정도를 준비해야겠다

3) 평가 자동화 코드 구현 및 테스트

4) 성능 검증(모델 / Summarization 방법 등등을 비교)

'Project/LLM' Related Articles

Comments