알파카: 지침을 따르는 강력하고 재현 가능한 모델

스탠퍼드대 연구팀은 메타 대규모 언어 모델인 LLaMA 7B 모델을 미세 조정해 오픈소스보다 나은 명령 순차성을 구현한 대규모 언어 모델 알파카 7B를 공개했다.

Alpaca를 사용하면 GPT-3.5와 유사한 동작을 훨씬 더 작은 환경에서 쉽고 저렴하게 재현할 수 있습니다.

Stanford University에 따르면 GPT-3.5(text-davinci-003), ChatGPT, Claude 및 Bing Chat과 같은 언어 모델은 여전히 ​​강력하지만 많은 단점이 남아 있습니다.

이 문제를 해결하기 위한 최대 진전에는 학문적 노력이 필요하지만, 명령 추종자 모델은 text-davinci-003이 제공하는 폐쇄형 모델과 비슷한 기능을 가진 오픈 소스 모델이 아니기 때문에 학계에서 연구하는 것이 어려웠습니다.

이에 스탠포드 대학은 개방형 데이터세트에서만 훈련된 메타-대형 언어 모델인 LLaMA 7B 모델을 기반으로 미세 조정을 통해 알파카라는 언어 모델을 개발해 공개했다.

메모리 80GB 엔비디아 A100 8개로 미세조정에 3시간이 걸렸다고 한다.

많은 클라우드 컴퓨팅 제공업체에서 100달러 미만으로 사용할 수 있습니다.

Alpaca는 text-davinci-003과 유사한 많은 동작을 보이지만 놀라울 정도로 작고 단순하며 재생산 비용이 저렴합니다.

웹 데모웹 사이트를 사용해 볼 수도 있습니다.

또한 알파카의 사용은 학술적 목적으로 제한되며 상업적인 사용은 금지됩니다.

즉, 기본 LLaMA는 비상업용 라이센스이고 명령 데이터는 text-davinci-003을 기반으로 하며, OpenAI와 경쟁하는 모델의 개발을 금지하는 세 가지 이유는 보안 조치가 불충분하고 관련 정보로 인해 확산되지 않는다는 것입니다.

여기에서 찾을 수 있습니다

원래의 https://techrecipe.co.kr/posts/51845

알파카: 지침을 따르는 강력하고 재현 가능한 모델

저자: 로한 타오리* 그리고 이샨 굴라자니* 그리고 장 톈이* 그리고 얀 뒤부아* 그리고 Xuechen Li* 그리고 카를로스 구스트린 그리고 퍼시 리앙 그리고 타츠노리 B. 하시모토


소개합니다 알파카 7B, LLaMA 7B 모델에서 52,000개의 지침에 따른 시연으로 미세 조정된 모델입니다.

단일 회전 지침 준수에 대한 예비 평가에서 Alpaca는 OpenAI의 text-davinci-003과 질적으로 유사하게 동작하지만 놀라울 정도로 작고 재생하기 쉽고/저렴합니다(<$600).
웹 데모 GitHub

알파카: 지침을 따르는 강력하고 재현 가능한 모델 1

개요

GPT-3.5(text-davinci-003), ChatGPT, Claude 및 Bing Chat과 같은 지침을 따르는 모델은 점점 더 강력해지고 있습니다.

이제 많은 사용자가 이러한 모델과 정기적으로 상호 작용하고 업무용으로 사용하기도 합니다.

그러나 광범위한 사용에도 불구하고 지침 따르기 모델에는 여전히 많은 단점이 있습니다.

잘못된 정보를 생성하고 사회적 고정관념을 퍼뜨리며 유독한 언어를 생성할 수 있습니다.

이러한 시급한 문제를 해결하는 데 최대한의 진전을 이루기 위해서는 학계의 참여가 중요합니다.

안타깝게도 OpenAI의 text-davinci-003과 같은 폐쇄 소스 모델의 기능과 일치하는 쉽게 사용할 수 있는 모델이 없기 때문에 과학에서 명령을 따르는 모델에 대한 연구는 어려웠습니다.

우리는 동기화된 지침을 따르는 언어 모델에 대한 연구 결과를 게시합니다.

알파카Meta에 의해 미세 조정됩니다.

라마승 7B 모델. 다음 스타일로 생성된 52,000개의 지침에 따른 시연을 사용하여 알파카 모델을 훈련합니다.

너 자신을 가르쳐 text-davinci-003으로. Self-Instruct 평가 세트에서 Alpaca는 OpenAI의 text-davinci-003과 유사한 동작을 많이 보여주지만 놀라울 정도로 작고 재현하기 쉽고/저렴합니다.

훈련 레시피와 데이터를 공개하고 있으며 향후 모델 가중치를 공개할 예정입니다.

우리는 또한 하나를 호스팅 대화식 데모 연구 커뮤니티가 알파카 행동을 더 잘 이해할 수 있도록 합니다.

상호 작용은 이러한 모델의 향후 평가에서 우리를 안내할 예기치 않은 기능과 버그를 드러낼 수 있습니다.

또한 이러한 행동을 더 잘 이해하고 완화할 수 있도록 사용자가 웹 데모에서 우려되는 행동을 보고하도록 권장합니다.

모든 릴리스에는 위험이 수반되므로 이 공개 릴리스에 대한 생각 프로세스는 이 블로그 게시물의 뒷부분에서 논의합니다.

우리는 알파카가 의도적으로 만들어졌다고 생각합니다.

과학 연구 전용 그리고 다 상업적 이용을 금합니다. 이 결정에는 세 가지 요소가 작용합니다.

첫째, Alpaca는 비상업적 LLaMA를 기반으로 합니다.

특허, 그래서 우리는 필연적으로 그 결정을 물려받습니다.

둘째, 명령 데이터는 OpenAI의 text-davinci-003을 기반으로 합니다.

이용약관 OpenAI와 경쟁하는 모델의 개발을 금지합니다.

마지막으로 적절한 보안 조치를 개발하지 않았기 때문에 Alpaca는 일반 용도로 사용할 준비가 되어 있지 않습니다.

트레이닝 레시피

교육 예산에 따라 고품질의 지침 따르기 모델을 교육하는 데는 두 가지 주요 과제가 있습니다.

바로 강력한 사전 훈련된 언어 모델과 고품질 지침 따르기 데이터입니다.

첫 번째 과제는 Meta의 새로운 LLaMA 모델의 최근 출시로 해결되었습니다.

두 번째 도전의 경우, 너 자신을 가르쳐 Paper는 기존의 강력한 언어 모델을 사용하여 교육 데이터를 자동으로 생성할 것을 제안합니다.

특히 Alpaca는 OpenAI의 text-davinci-003에서 생성된 52K 스레드 데모에서 LLaMA 7B 모델의 지도 학습으로 미세 조정된 언어 모델입니다.

아래 이미지는 알파카 모델을 얻은 방법을 보여줍니다.

데이터의 경우 자가 교육 방법을 기반으로 교육 준수 시연을 생성했습니다.

우리는 175개의 인간이 작성한 명령-출력 쌍으로 시작했습니다.

자기 학습을 위한 씨앗 세트. 그런 다음 text-davinci-003에게 시드 세트를 컨텍스트 예제로 사용하여 더 많은 문장을 생성하도록 요청했습니다.

생성 파이프라인을 단순화하여 자가 학습 방법을 개선했습니다(자세한 내용은 GitHub) 비용을 크게 줄였습니다.

우리의 데이터 생성 프로세스는 52,000개의 고유한 명령문과 OpenAI API를 사용하여 비용이 $500 미만인 해당 출력을 생성합니다.


알파카: 지침을 따르는 강력하고 재현 가능한 모델 2

이 명령 준수 데이터 세트로 무장한 다음 완전히 샤딩된 데이터 병렬 및 혼합 정밀 교육과 같은 기술을 사용하여 Hugging Face 교육 프레임워크로 LLaMA 모델을 미세 조정했습니다.

첫 번째 실행에서 7B LLaMA 모델을 8개의 80GB A100으로 미세 조정하는 데 3시간이 걸렸으며 대부분의 클라우드 컴퓨팅 제공업체에서 100달러 미만의 비용이 듭니다.

우리는 교육 효율성을 개선하여 비용을 더욱 절감할 수 있음을 확인했습니다.

예비 등급

알파카 점수를 매기기 위해 입력에 대해 인간 채점(5명의 학생 저자가 수행)을 수행합니다.

자가 학습 평가 세트. 자가 학습의 저자가 편집한 이 평가 세트에는 이메일 작성, 소셜 미디어 및 생산성 도구를 포함한 다양한 사용자 중심 지침 목록이 포함되어 있습니다.

우리는 text-davinci-003과 Alpaca 7B 사이에 블라인드 쌍대 비교를 실행했고 이 두 모델이 매우 유사하게 수행된다는 것을 발견했습니다.

우리는 작은 모델 크기와 데이터를 따르는 적당한 양의 지침을 고려할 때 이 결과에 상당히 놀랐습니다.

이 정적 스코어링 세트를 사용하는 것 외에도 우리는 Alpaca 모델을 대화식으로 테스트했으며 Alpaca가 종종 다양한 입력에 대해 text-davinci-003과 유사하게 작동한다는 것을 발견했습니다.

검토 범위와 다양성이 제한될 수 있음을 알고 있습니다.

그래서 하나 공개합니다 대화식 데모 독자들이 직접 알파카를 평가하고 피드백을 제공하도록 권장합니다.

이 섹션의 나머지 부분에서는 Alpaca의 능력과 한계를 보여주기 위해 몇 가지 상호 작용 예제를 추가합니다.


알파카: 지침을 따르는 강력하고 재현 가능한 모델 3


알파카: 지침을 따르는 강력하고 재현 가능한 모델 4

위의 예는 Alpaca의 출력이 일반적으로 잘 작성되었음을 보여줍니다.

우리는 알파카가 지침 준수 기록의 일반적인 스타일을 반영한다는 것을 발견했습니다.

결과적으로 Alpaca의 답장은 일반적으로 ChatGPT의 답장보다 짧으며 text-davinci-003 출력이 더 짧습니다.

알려진 제한 사항

알파카는 또한 환각, 독성 및 고정관념을 포함하여 몇 가지 일반적인 언어 모델 결함을 나타냅니다.

특히 환각은 Text-Davinci-003과 비교해도 알파카의 일반적인 실패 모드인 것 같습니다.

예를 들어 아래 이미지에서 알파카는 탄자니아의 수도가 탄자니아에서 가장 큰 도시인 다르에스살람이라고 잘못 말합니다.

(1974년 도도마로 교체되기 전까지 수도였다.

)


알파카: 지침을 따르는 강력하고 재현 가능한 모델 5

또한 Alpaca는 아래 예에서 볼 수 있듯이 잘못된 정보를 퍼뜨리는 잘 작성된 출력을 생성하는 데 사용할 수 있습니다.


알파카: 지침을 따르는 강력하고 재현 가능한 모델 6

Alpaca에는 기본 언어 모델 및 명령문 튜닝 데이터와 관련된 다른 많은 제한 사항이 있을 수 있습니다.

그러나 우리는 아티팩트가 주요 결함을 조사하기 위한 기반으로 사용할 비교적 간단한 모델을 제공하므로 여전히 커뮤니티에 유용할 것이라고 믿습니다.

우리는 사용자가 웹 데모에서 버그를 보고하여 새로운 유형의 버그를 식별하는 데 도움을 줄 것을 권장합니다.

전반적으로 우리는 알파카의 출판이 지침을 따르고 이를 인간의 가치와 일치시키기 위한 모델의 추가 탐색을 용이하게 할 수 있기를 바랍니다.

공유 자산

오늘 다음 자산을 릴리스합니다.

가까운 시일 내에 다음 자산을 출시할 예정입니다.

  • 모델 가중치: 우리는 7B Alpaca와 더 큰 LLaMA 모델의 미세 조정 버전 모두에 대한 Alpaca 모델 가중치 출시에 대한 지침을 위해 Meta에 연락했습니다.

출시 결정

우리는 위 자산의 출시로 학계가 교육 언어 모델에 대한 통제된 과학적 연구를 수행할 수 있게 되어 더 나은 과학과 궁극적으로 이러한 모델의 기존 결함을 해결하는 새로운 기술로 이어질 것이라고 믿습니다.

동시에 모든 발행물에는 일정한 위험이 따릅니다.

첫째, 교육 레시피를 게시하면 특정 기술의 실행 가능성이 드러난다는 점을 인식하고 있습니다.

한편으로 이것은 (의도적이든 아니든) 해를 끼칠 수 있는 모델을 만들 수 있는 더 많은 사람들(나쁜 행위자 포함)을 허용합니다.

다른 한편으로, 이러한 인식은 특히 이러한 모델에 대한 더 깊은 보안 연구를 수행할 수 있는 수단을 통해 권한을 부여받은 학계에서 신속한 대응책을 촉발할 수 있습니다.

전반적으로 우리는 연구 커뮤니티에 대한 이점이 이 특정 출판물의 위험보다 더 크다고 믿습니다.

교육 레시피를 게시하고 있다는 점을 감안할 때 데이터, 모델 가중치 및 교육 코드를 게시하면 레시피의 단순성으로 인해 추가 위험이 최소화된다고 생각합니다.

동시에 이러한 자산을 게시하면 재현 가능한 과학에 엄청난 이점이 있으므로 학계에서 표준 데이터 세트, 모델 및 코드를 사용하여 제어된 비교를 수행하고 확장을 탐색할 수 있습니다.

Alpaca에 대한 대화형 데모를 제공하면 다음과 같은 잠재적인 위험도 따릅니다.

B. 유해한 콘텐츠를 추가로 확산하고 스팸, 사기 또는 허위 정보에 대한 장벽을 낮춥니다.

우리는 두 가지 위험 완화 전략을 구현했습니다.

먼저 콘텐츠 필터를 구현했습니다.

OpenAI 콘텐츠 조정 API, OpenAI 사용 제한 정책에 따라 유해한 콘텐츠를 필터링합니다.

둘째, 에 설명된 방법을 사용하여 모든 모델 출력에 워터마크를 표시합니다.

Kirchenbauer et al. 2023년, Alpaca 7B 릴리스가 오는 경우 다른 사람들이 (일부 확률로) 볼 수 있습니다.

마지막으로 데모 사용에 대한 엄격한 조건이 있습니다.

비상업적인 용도로 다음과 같은 용도에 한합니다.

LLaMA 라이선스 계약.

우리는 모델 가중치를 게시하거나 사용자가 자신의 지침에 따라 모델을 훈련할 때 이러한 완화를 우회할 수 있음을 알고 있습니다.

그러나 이러한 대책을 설치함으로써 우리는 모범 사례를 발전시키고 궁극적으로 발전시키기를 희망합니다.

커뮤니티 규범 시작 모델의 책임 있는 사용을 위해.

향후 방향

우리는 알파카가 열어주는 연구 기회에 흥분하고 있습니다.

흥미로운 미래 방향이 많이 있습니다.

  • 평가: 알파카를 더 엄격하게 평가해야 합니다.

    우리는 시작 헬멧 (Language Models의 전체론적 평가), 지침을 따르는 보다 생성적인 시나리오를 캡처하도록 진화할 것입니다.

  • 안전성: 우리는 알파카의 위험을 더 자세히 조사하고 자동 레드 팀 구성, 감사 및 적응형 테스트와 같은 방법을 사용하여 알파카의 안전성을 개선하고자 합니다.

  • 이해: 교육 레시피에서 기술이 어떻게 나타나는지 더 잘 이해하기를 바랍니다.

    기본 모델의 어떤 기능이 필요합니까? 확장하면 어떻게 되나요? 명령 데이터의 어떤 속성이 필요합니까? text-davinci-003에서 self-instruct를 사용하는 것의 대안은 무엇입니까?

감사해요

이 작업은 Stanford Institute for Human-Centered AI(HAI) 및 Stanford Natural Language Processing(NLP) 그룹의 지원을 받아 CRFM(Center for Research on Foundation Models)에서 수행되었습니다.

데모 배포에 유용한 기술 지원을 제공한 Yifan Mai에게 특별한 감사를 드립니다.

Alpaca는 기존 작업에 직접적이고 비판적으로 의존합니다.

LLaMA 모델을 교육하고 게시한 Meta AI Research, 데이터 생성 파이프라인의 기초를 제공한 Self-Instruct 팀, 교육 코드를 위한 Hugging Face, 길을 닦고 가능한 것을 보여준 OpenAI에 대한 공로를 인정합니다.

또한 다음을 포함하여 지침을 따르는 LLM 및 채팅 모델에 대한 다른 많은 공개 노력이 있음을 강조하고 싶습니다.

오픈챗킷, 마법사 열기그리고 카퍼 AI.