통의천문개원 320억 매개 변수모델 이미 7개 대언어모델 전부 개원 실현

强绝商爸摇发表于 2024-4-7 17:04:53

294 0 0

알리 클라우드 통의 천문 오픈 소스 320억 매개변수 모델 Qwen1.5-32B는 성능, 효율, 메모리 점용의 균형을 최대한 고려하여 기업과 개발자에게 더 높은 가격 비율의 모델 선택을 제공할 수 있다.현재 통의천문은 모두 7개의 큰 언어 모델을 오픈소스로 국내외 오픈 소스 커뮤니티에서 누적 다운로드 300만 명을 돌파했다.
통의천문은 이전에 이미 5억, 18억, 40억, 70억, 140억, 720억 파라미터의 6개 대언어 모델을 오픈하여 모두 1.5 버전으로 업그레이드하였는데, 그 중 몇 가지 작은 사이즈 모델은 편리하게 엔드 사이드에 배치할 수 있고, 720억 파라미터 모델은 업계 최고의 성능을 가지고 있으며, 여러 차례 HuggingFace 등 모델 차트에 올랐다.이번에 오픈소스된 320억 매개변수 모델은 성능, 효율, 메모리 점용 사이에서 더 이상적인 균형을 이룰 것이다. 예를 들어 14B 모델보다 32B가 지능체 장면에서 더 강하다.72B에 비해 32B의 추리 비용은 더 낮다.통의천문팀은 32B 오픈소스 모델이 다운스트림 애플리케이션에 더 나은 솔루션을 제공할 수 있기를 희망한다.
기초능력면에서 통의천문 320억매개변수모델은 MMLU, GSM8K, HumanEval, BBH 등 여러 평가에서 우수한 성적을 거두었으며 성능은 통의천문 720억매개변수모델에 접근하여 기타 300억급 매개변수모델을 훨씬 초과하였다.
챗 모델의 경우 Qwen1.5-32B-챗 모델은 MT-Bench 평가에서 8점 이상을 받아 Qwen1.5-72B-챗과의 격차가 상대적으로 적었다.
다언어능력면에서 통의천문팀은 아랍어, 에스빠냐어, 프랑스어, 일본어, 한국어 등을 포함한 12개 언어를 선택하여 시험, 리해, 수학 및 번역 등 여러 분야에서 평가를 내렸다.Qwen1.5-32B의 다언어 능력은 통의 천문 720억 매개변수 모델에 약간 못 미친다.

통의천문개원 320억 매개 변수모델 이미 7개 대언어모델 전부 개원 실현

浏览过的版块