Vertex AI Gen AI 평가 서비스를 통한 LLM 품질 및 해석성 향상 > 뉴스

기타 Vertex AI Gen AI 평가 서비스를 통한 LLM 품질 및 해석성 향상

페이지 정보

작성자 관리자
댓글 0건 조회 138회 작성일 24-08-01 10:21

본문

Vertex AI Gen AI 평가 서비스를 통한 LLM 품질 및 해석성 향상

대규모 언어 모델(LLM)의 힘을 활용하는 개발자는 종종 두 가지 주요 장애물에 부딪힙니다. 출력의 고유한 무작위성을 관리하고 가끔씩 사실과 다른 정보를 생성하는 경향을 해결해야 합니다. 주사위를 굴리는 것과 비슷하게 LLM은 예측할 수 없는 터치를 제공하여 동일한 프롬프트가 주어지더라도 다른 응답을 생성합니다. 이러한 무작위성은 창의성을 북돋울 수 있지만 일관성이나 사실 정확성이 중요할 때 걸림돌이 될 수도 있습니다. 게다가 LLM이 자신 있게 잘못된 정보를 제시하는 가끔씩의 "환각"은 기능에 대한 신뢰를 훼손할 수 있습니다. 많은 실제 작업에 단 하나의 확실한 답이 없다는 점을 고려하면 이러한 과제는 더욱 심화됩니다. 복잡한 정보를 요약하든, 설득력 있는 마케팅 카피를 작성하든, 혁신적인 제품 아이디어를 브레인스토밍하든, 설득력 있는 이메일을 초안하든, 종종 여러 가지 유효한 솔루션이 필요합니다.

이 블로그 게시물과 첨부 노트북에서는 다양한 LLM 생성 응답 세트를 생성하고 Vertex Gen AI Evaluation Service를 사용하여 최상의 응답 선택 프로세스를 자동화하고 관련 품질 지표와 설명을 제공하는 새로운 워크플로를 도입하여 이러한 과제를 해결하는 방법을 살펴보겠습니다. 이 프로세스는 다중 모드 입력 및 출력으로 확장 가능하며 산업 및 LLM 전반에 걸쳐 거의 모든 사용 사례에 도움이 될 것입니다.

상상해보세요. 은행 고문과의 고객 대화를 요약하려고 애쓰는 금융 기관. 장애물은? 이러한 요약이 현실에 기반을 두고, 도움이 되고, 간결하며, 잘 작성되었는지 확인하는 것입니다. 요약을 작성하는 방법은 다양하지만 품질은 크게 달랐습니다. 다음은 LLM의 확률적 특성과 Vertex Gen AI Evaluation Service를 활용하여 LLM에서 생성된 요약의 성과를 높인 방법입니다.

1단계: 다양한 응답 생성

여기서 핵심 아이디어는 첫 번째 응답을 넘어서 생각하는 것이었습니다. 인과적 디코더 기반 LLM에는 약간의 무작위성이 내장되어 있어 각 단어를 확률적으로 샘플링합니다. 따라서 여러 개의 약간 다른 응답을 생성함으로써 완벽한 적합성을 찾을 확률을 높입니다. 여러 경로를 탐색하는 것과 같습니다. 하나가 막다른 길로 이어지더라도 다른 하나가 숨겨진 보석을 보여줄 수 있다는 것을 아는 것과 같습니다.

예를 들어, LLM에게 "일본의 수도는 어디입니까?"라고 묻는다고 상상해 보세요. "교토는 일본의 수도였습니다.", "도쿄는 일본의 현재 수도입니다." 또는 "도쿄는 일본의 수도였습니다."와 같이 다양한 답변을 받을 수 있습니다. 여러 옵션을 생성함으로써 가장 정확하고 관련성 있는 답변을 얻을 가능성이 높아집니다.

이를 실행하기 위해 금융 기관은 LLM을 사용하여 각 필사본에 대해 다섯 가지 요약을 생성했습니다. 그들은 출력의 무작위성을 제어하는 LLM의 "온도"를 0.2~0.4 범위로 조정하여 주제에서 너무 벗어나지 않으면서도 적절한 양의 다양성을 장려했습니다. 이를 통해 다양한 옵션이 보장되어 이상적이고 고품질의 요약을 찾을 가능성이 높아졌습니다.

2단계: 최상의 응답 찾기

다음으로 다양한 응답 세트를 검색하여 가장 좋은 응답을 찾아야 했습니다. 이를 자동으로 수행하기 위해 금융 기관은 Vertex Gen AI Evaluation Service에서 제공하는 쌍별 평가 방식을 적용했습니다. 응답 간의 일대일 대결이라고 생각해 보세요. 우리는 응답 쌍을 서로 맞붙여 원래 지침과 맥락에 따라 판단하여 사용자의 의도와 가장 일치하는 응답을 식별합니다.

위의 예를 계속 설명하자면, 일본의 수도에 대한 세 가지 응답이 있다고 가정해 보겠습니다. 쌍별 비교를 사용하여 가장 좋은 응답을 찾고 싶습니다.

응답 1 대 응답 2: API는 응답 2를 선호하며, "응답 1은 기술적으로 정확하지만 일본의 현재 수도 에 대한 질문에 직접적으로 답하지 않습니다."라고 설명할 수 있습니다.
응답 2(지금까지 가장 좋은 응답) vs 응답 3: 응답 2가 또 이겼네요! 응답 3은 과거형을 사용해서 넘어졌어요.
이렇게 두 차례의 비교를 거친 결과, 우리는 응답 2가 가장 좋은 답이라는 결론을 내렸습니다.

금융 기관의 경우, 생성된 요약 5개를 쌍으로 비교하여 가장 좋은 요약을 선택했습니다.

3단계: 응답이 충분히 좋은지 평가

그런 다음 워크플로는 이전 단계에서 가장 성과가 좋은 응답(응답 2)을 가져와서 지점별 평가 서비스를 사용하여 평가합니다. 이 평가는 품질 점수를 할당하고 정확성, 근거성, 유용성과 같은 다양한 차원에서 해당 점수에 대한 사람이 읽을 수 있는 설명을 생성합니다. 이 프로세스는 가장 좋은 응답을 강조할 뿐만 아니라 모델이 이 응답을 생성한 이유 와 다른 응답보다 우수한 것으로 간주되는 이유에 대한 통찰력을 제공 하여 시스템의 의사 결정에서 신뢰와 투명성을 촉진합니다. 금융 기관의 경우, 이제 승리한 응답에 대한 지점별 평가에서 요약 관련 메트릭을 사용하여 이 답변이 근거 있고 유용하며 고품질인지에 대한 설명을 얻었습니다. 가장 좋은 응답만 반환하거나 더 큰 투명성을 위해 관련 품질 메트릭과 설명을 포함할 수 있습니다.

본질적으로 워크플로(이 블로그 배너에 나와 있음)는 다양한 LLM 응답을 생성하고, 체계적으로 평가하고, 가장 적합한 응답을 선택하는 것을 포함하며, 동시에 특정 응답이 최적이라고 여겨지는 이유에 대한 통찰력을 제공합니다. 샘플 노트북을 탐색 하고 사용 사례에 맞게 조정하여 시작하세요. 개별 응답을 점별 점수에 따라 순위를 매긴 다음 상위 후보에 대해서만 쌍별 비교를 수행하여 쌍별 및 점별 평가 순서를 역전할 수 있습니다. 또한 이 예는 텍스트에 초점을 맞추지만 이 접근 방식은 이 블로그에 나와 있는 것과 같이 질문에 대한 답변 및 요약을 포함하되 이에 국한되지 않는 모든 모달리티 또는 사용 사례에 적용할 수 있습니다. 마지막으로 대기 시간을 최소화해야 하는 경우 두 워크플로 모두 다양한 API 호출을 병렬화하여 큰 이점을 얻을 수 있습니다.

다음 단계로 나아가세요

LLM의 본질적인 가변성을 수용하고 Vertex Gen AI Evaluation Service를 활용함으로써, 우리는 도전을 기회로 전환할 수 있습니다. 다양한 응답을 생성하고, 체계적으로 평가하고, 명확한 설명과 함께 최상의 옵션을 선택하면 LLM의 잠재력을 최대한 발휘할 수 있습니다. 이 접근 방식은 LLM 출력의 품질과 신뢰성을 향상시킬 뿐만 아니라 신뢰와 투명성을 촉진합니다. 샘플 노트북 에서 이 접근 방식을 탐색하고 Vertex Gen AI Evaluation Service에 대한 설명서를 확인하세요 .