EVALUATION RADAR
평가노트는 빠른 결론보다 느린 관찰을 남깁니다.
새 모델이 나오면 비교표가 쏟아지지만, 서비스 운영자는 조금 다른 질문을 합니다. 기존 고객 질문에서 실패가 줄었는지, 출처 표기가 안정적인지, 거절해야 할 질문을 부드럽게 처리하는지, 비용 제한 안에서도 답변이 무너지지 않는지를 봅니다. 평가노트는 그런 관찰을 한 곳에 모으기 위한 형식입니다.

회귀 질문
어제 잘하던 질문을 오늘도 같은 근거로 처리하는지 확인합니다.
거절 품질
모르는 내용을 꾸며내지 않고 다음 행동을 제안하는지 봅니다.
인용 신뢰
답변의 문장과 연결된 출처가 실제로 같은 내용을 말하는지 점검합니다.
운영 비용
긴 답변의 만족도와 지연, 토큰 비용 사이의 균형을 함께 기록합니다.