METHOD
평가표는 모델을 이기기 위한 표가 아니라 운영을 기억하기 위한 표입니다.
LLMS 코리아의 방법론은 작은 회귀 세트에서 시작합니다. 모델이 바뀔 때마다 모든 것을 새로 증명하려 하지 않고, 서비스가 실제로 망가지기 쉬운 장면을 꾸준히 반복해 확인합니다. 중요한 것은 점수를 예쁘게 만드는 일이 아니라 다음 배포 회의에서 같은 질문을 다시 던질 수 있게 만드는 일입니다.
평가 문서는 기술팀만 보는 문서가 아닙니다. 운영자, 기획자, 법무 담당자, 고객 응대 담당자가 서로 다른 위험을 발견할 수 있어야 합니다. 그래서 판정 기준은 짧고 구체적이어야 하며, 모델의 내부 용어보다 사용자가 겪는 결과를 먼저 설명해야 합니다.

입력 묶음
실제 사용자의 질문을 업무 맥락별로 보관하고, 짧은 질문과 긴 문서를 분리합니다.
판정 문장
정답 여부만 적지 않고 왜 위험하거나 유용한지 사람이 읽을 수 있는 문장으로 남깁니다.
운영 신호
비용, 지연, 재시도, 검수 요청처럼 배포 이후에만 보이는 신호를 평가표에 붙입니다.
변경 기록
모델, 프롬프트, 검색 인덱스, 후처리 규칙의 변경을 한 줄로 묶어 비교 가능하게 만듭니다.