ChatGLM3는 즈푸AI와 칭화대학교 KEG 연구실이 공동으로 발표한 대화형 사전 훈련 모델입니다. ChatGLM3-6B는 ChatGLM3 시리즈의 오픈 소스 모델로, 이전 두 세대 모델의 대화 유창성, 낮은 배포 장벽 등 많은 우수한 특성을 유지하면서 ChatGLM3-6B는 여러 가지 중요한 새로운 특성과 개선 사항을 도입했습니다.
프로젝트 주소: https://github.com/THUDM/ChatGLM3
ChatGLM3-6B의 기초 모델인 ChatGLM3-6B-Base는 더욱 다양한 훈련 데이터, 충분한 훈련 단계 및 합리적인 훈련 전략을 채택했습니다. 의미, 수학, 추론, 코드, 지식 등 다양한 각도의 데이터 세트에서 평가한 결과, ChatGLM3-6B-Base는 10B 이하의 기초 모델 중 가장 강력한 성능을 가지고 있습니다.
다양한 요구 사항을 충족하기 위해 여러 버전을 제공합니다.
8개의 중영문 대표 데이터 세트에서의 테스트 결과:
모델 | GSM8K | MATH | BBH | MMLU | C-Eval | CMMLU | MBPP | AGIEval |
---|---|---|---|---|---|---|---|---|
ChatGLM2-6B-Base | 32.4 | 6.5 | 33.7 | 47.9 | 51.7 | 50.0 | - | - |
ChatGLM3-6B-Base | 72.3 | 25.7 | 66.1 | 61.4 | 69.0 | 67.5 | 52.4 | 53.7 |
여러 장문 텍스트 응용 시나리오에서 ChatGLM3-6B-32K에 대한 수동 평가 테스트를 수행했습니다. 2세대 모델과 비교하여 효과가 평균 50% 이상 향상되었습니다. 논문 읽기, 문서 요약 및 재무 보고서 분석과 같은 응용 분야에서 특히 향상되었습니다.
git clone https://github.com/THUDM/ChatGLM3
cd ChatGLM3
pip install -r requirements.txt
from transformers import AutoTokenizer, AutoModel
# 모델 로드
tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True, device='cuda')
model = model.eval()
# 대화 상호 작용
response, history = model.chat(tokenizer, "你好", history=[])
print(response)
# Gradio 버전
python web_demo_gradio.py
# Streamlit 버전
streamlit run web_demo_streamlit.py
python cli_demo.py
cd openai_api_demo
python api_server.py
OpenAI 호환 API 인터페이스 제공, 다음 지원:
프로젝트는 완전한 미세 조정 도구 세트를 제공하며 다음을 지원합니다.
여러 우수한 오픈 소스 프로젝트 지원:
추론 가속:
미세 조정 프레임워크:
응용 프레임워크:
프로젝트는 세 가지 모드를 통합한 종합 데모를 제공합니다.
프로젝트는 오픈 소스 커뮤니티를 적극적으로 수용하고 여러 우수한 프로젝트와 긴밀하게 협력하여 완전한 생태계를 형성했습니다. 개발자는 ChatGLM3를 기반으로 다양한 혁신적인 응용 프로그램을 개발할 수 있습니다.