'모델 붕괴' 문제: 인간 데이터 부족이 AI 발전을 제한하는 방식 > 뉴스

기타 '모델 붕괴' 문제: 인간 데이터 부족이 AI 발전을 제한하는 방식

페이지 정보

작성자 관리자
댓글 0건 조회 56회 작성일 24-07-26 10:00

본문

'모델 붕괴' 문제: 인간 데이터 부족이 AI 발전을 제한하는 방식

20240726%EC%9D%B4%EB%AF%B8%EC%A7%80019.png

기사 상단 또는 측면에 있는 공유 버튼을 통해 찾은 공유 도구를 사용하세요.다른 사람과 공유하기 위해 기사를 복사하는 것은 FT.com 이용약관 및 저작권 정책을 위반하는 것입니다 . 추가 권리를 구매하려면 license@ft.com 으로 이메일을 보내세요.구독자는 선물 기사 서비스를 사용하여 한 달에 최대 10개 또는 20개의 기사를 공유할 수 있습니다.자세한 내용은 여기에서 확인할 수 있습니다 .https
://www.ft.com/content/ae507468-7f5b-440b-8512-aea81c6bf4a5

새로운 연구에 따르면, 컴퓨터 생성 데이터를 사용하여 인공 지능 모델을 훈련하면 터무니없는 결과가 생성될 위험이 있습니다.이 연구는 떠오르는 기술에 대한 닥쳐오는 과제를 강조합니다.OpenAI와 Microsoft를 포함한 선도적인 AI 회사는 최첨단 기술을 개선할 수 있는 인간이 만든 자료의 한계에 도달함에 따라 AI 시스템에서 생성한 정보인 "합성" 데이터의 사용을 테스트했습니다.합성 데이터는 최첨단 기술을 개선할 수 있는 인공 자료의 한계에 도달한 대규모 언어 모델(LLM)도 훈련하는 데 사용됩니다. 수요일에 Nature에 게재된 연구에 따르면 이러한 데이터를 사용하면 AI 모델이 빠르게 저하될 수 있다고 합니다. 중세 건축에 대한 합성 입력 텍스트를 사용한 한 실험은 10세대 미만의 출력 후에 토끼에 대한 논의로 전락했습니다. 이 연구는 AI 개발자가 훈련을 위해 인간이 생성한 방대한 양의 데이터를 서둘러 구매한 이유를 강조하며, 이러한 유한한 소스가 고갈되면 어떻게 될지에 대한 의문을 제기합니다. 이 연구의 주저자인 일리아 슈마일로프는 "합성 데이터는 작동하게 만들면 놀랍습니다."라고 말했습니다. "하지만 우리가 말하고자 하는 것은 현재의 합성 데이터가 어떤 면에서는 오류가 있을 가능성이 있다는 것입니다. 가장 놀라운 것은 이런 일이 얼마나 빨리 일어나는가입니다." 이 논문은 연속적인 훈련 세대에서 불가피하게 축적되고 확대되는 실수 때문에 시간이 지남에 따라 AI 모델이 붕괴되는 경향을 탐구합니다. 저하 속도는 모델 설계, 학습 프로세스 및 사용된 데이터의 품질의 단점의 심각성과 관련이 있습니다. 붕괴의 초기 단계에는 일반적으로 "분산 손실"이 수반되는데, 이는 데이터에서 대다수의 부분 집단이 소수 집단을 희생하여 점차 과대 표현되는 것을 의미합니다. 붕괴의 후반 단계에서는 데이터의 모든 부분이 횡설수설로 전락할 수 있습니다. "귀하의 모델은 이전 세대에서 도입한 모든 오류와 오해, 그리고 모델 자체에 압도되어 유용성을 잃습니다."라고 캠브리지, 임페리얼 칼리지 런던, 에든버러, 토론토의 동료들과 함께 옥스퍼드 대학교에서 작업을 수행한 슈마일로프가 말했습니다.

기사 상단이나 측면에 있는 공유 버튼을 통해 찾은 공유 도구를 사용하세요. 다른 사람과 공유하기 위해 기사를 복사하는 것은 FT.com 이용약관 및 저작권 정책을 위반하는 것입니다 . 추가 권리를 구매하려면 license@ft.com으로 이메일을 보내세요 . 구독자는 선물 기사 서비스를 사용하여 한 달에 최대 10개 또는 20개의 기사를 공유할 수 있습니다. 자세한 내용은 여기에서 확인할 수 있습니다 .
https://www.ft.com/content/ae507468-7f5b-440b-8512-aea81c6bf4a5

연구자들은 이전 세대에서 생성된 정보로 훈련된 합성 데이터를 사용하면 문제가 종종 악화된다는 것을 발견했습니다. 그들이 조사한 재귀적으로 훈련된 언어 모델의 거의 대부분이 반복되는 문구를 생성하기 시작했습니다. 잭래빗 사례에서 첫 번째 입력 텍스트는 14세기와 15세기의 영국 교회 탑 건물을 조사했습니다. 훈련의 1세대에서 출력은 로마와 부에노스 아이레스의 대성당에 대한 정보를 제공했습니다. 5세대는 언어 번역으로 넘어갔고, 9세대는 꼬리 색깔이 다른 라고모프를 나열했습니다. 또 다른 예로, 미국 듀크 대학의 에밀리 웬저가 Nature에 기고한 동반 논문에 따르면, 자체 출력으로 훈련된 AI 모델이 개 품종 이미지 데이터 세트를 망가뜨리는 방법이 있습니다. 처음에는 골든 리트리버와 같은 일반적인 유형이 지배하는 반면 달마시안과 같은 덜 일반적인 품종은 사라졌습니다. 마지막으로 골든 리트리버 이미지 자체가 신체 부위가 잘못된 위치에 있는 해부학적 혼란이 되었습니다. 웬저는 지금까지 문제를 완화하는 것이 간단하지 않다고 말했습니다. 선도적인 기술 회사에서 이미 구축한 한 가지 기술은 훈련 데이터 세트에서 제외할 AI 생성 콘텐츠를 표시하는 "워터마크"를 포함하는 것입니다. 어려운 점은 이를 위해 실용적이지 않거나 상업적으로 실행 가능하지 않을 수 있는 기술 회사 간의 조정이 필요하다는 것입니다. 웬저는 "모델 붕괴의 한 가지 주요 의미는 생성 AI 모델을 구축하는 데 있어 선두 주자 이점이 있다는 것입니다."라고 말했습니다. "AI 이전 인터넷에서 교육 데이터를 공급받은 회사는 실제 세계를 더 잘 표현하는 모델을 보유할 수 있습니다."