neuralmagic/deepsparseView GitHub Homepage for Latest Official Releases

CPU를 위해 설계된 희소성 인식 딥러닝 추론 런타임

NOASSERTIONPythondeepsparseneuralmagic 3.2k Last Updated: June 02, 2025

DeepSparse - CPU 전용 희소성 인식 딥러닝 추론 엔진

프로젝트 개요

DeepSparse는 Neural Magic에서 개발한 혁신적인 CPU 추론 런타임으로, 신경망의 희소성을 활용하여 딥러닝 모델의 추론 과정을 가속화하도록 특별히 설계되었습니다. 이 프로젝트는 SparseML 최적화 라이브러리와 결합하여 CPU 하드웨어에서 뛰어난 추론 성능을 달성합니다.

중요 업데이트: 2025년 1월, Neural Magic은 Red Hat에 인수되었으며, DeepSparse 커뮤니티 버전은 2025년 6월 2일에 유지 관리가 중단되고 더 이상 사용되지 않습니다. 팀은 vLLM 기반의 상업 및 오픈 소스 솔루션으로 전환할 예정입니다.

핵심 기능

1. 희소성 최적화

희소 커널 지원: 비정형 희소 가중치를 통해 가속 및 메모리 절약 실현
8비트 양자화: 가중치 및 활성화의 8비트 양자화 지원
캐시 최적화: 캐시된 주의 키-값 쌍을 효율적으로 활용하여 메모리 이동 최소화

2. 대규모 언어 모델(LLM) 지원

DeepSparse는 대규모 언어 모델 추론을 위한 초기 지원을 제공하며, 다음을 포함합니다.

MPT-7B 모델의 희소 미세 조정 기술
밀집 기준선 대비 7배의 가속 성능 (희소-양자화 모델)
정확도 손실 없이 최대 60% 희소도를 지원하는 모델

3. 광범위한 모델 지원

컴퓨터 비전: ResNet, EfficientNet, YOLOv5/8, ViT 등
자연어 처리: BERT, Transformer 변형 등
다중 모드 모델: 다양한 CNN 및 Transformer 아키텍처 지원

시스템 요구 사항

하드웨어 지원

x86 아키텍처: AVX2, AVX-512, AVX-512 VNNI
ARM 아키텍처: v8.2+

소프트웨어 환경

운영 체제: Linux
Python 버전: 3.8-3.11
ONNX 지원: 버전 1.5.0-1.15.0, 연산 집합 버전 11 이상

참고: Mac 및 Windows 사용자는 Docker Linux 컨테이너 사용을 권장합니다.

설치 방법

안정 버전

pip install deepsparse

야간 빌드 버전 (최신 기능 포함)

pip install deepsparse-nightly

LLM 지원 버전

pip install -U deepsparse-nightly[llm]

소스에서 설치

pip install -e path/to/deepsparse

세 가지 배포 API

1. Engine API (하위 레벨 API)

가장 낮은 수준의 API로, ONNX 모델을 직접 컴파일하고 텐서 입출력을 처리합니다.

from deepsparse import Engine

# 모델 다운로드 및 컴파일
zoo_stub = "zoo:nlp/sentiment_analysis/obert-base/pytorch/huggingface/sst2/pruned90_quant-none"
compiled_model = Engine(model=zoo_stub, batch_size=1)

# 추론 실행
inputs = compiled_model.generate_random_inputs()
output = compiled_model(inputs)

2. Pipeline API (중간 레벨 API)

Engine을 래핑하고 전처리 및 후처리 기능을 추가하여 원시 데이터를 직접 처리할 수 있습니다.

from deepsparse import Pipeline

# 파이프라인 설정
sentiment_analysis_pipeline = Pipeline.create(
    task="sentiment-analysis",
    model_path="zoo:nlp/sentiment_analysis/obert-base/pytorch/huggingface/sst2/pruned90_quant-none"
)

# 추론 실행
prediction = sentiment_analysis_pipeline("I love using DeepSparse Pipelines")
print(prediction)
# 출력: labels=['positive'] scores=[0.9954759478569031]

3. Server API (고급 API)

FastAPI를 기반으로 Pipeline을 래핑하여 REST API 서비스를 제공합니다.

# 서버 시작
deepsparse.server \
    --task sentiment-analysis \
    --model_path zoo:nlp/sentiment_analysis/obert-base/pytorch/huggingface/sst2/pruned90_quant-none

# 요청 전송
import requests

url = "http://localhost:5543/v2/models/sentiment_analysis/infer"
obj = {"sequences": "Snorlax loves my Tesla!"}
response = requests.post(url, json=obj)
print(response.text)
# 출력: {"labels":["positive"],"scores":[0.9965094327926636]}

대규모 언어 모델 예제

from deepsparse import TextGeneration

pipeline = TextGeneration(model="zoo:mpt-7b-dolly_mpt_pretrain-pruned50_quantized")
prompt = """
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction: what is sparsity?
### Response:
"""

result = pipeline(prompt, max_new_tokens=75)
print(result.generations[0].text)

기술적 장점

1. 희소 미세 조정 기술

IST Austria와 협력하여 개발한 혁신적인 기술
미세 조정 과정에서 MPT-7B를 60% 희소도로 가지치기
정확도 손실 없이 상당한 가속 실현

2. 성능 최적화

CPU에서 GPU 수준의 추론 성능 구현
메모리 사용량 대폭 감소
고도로 최적화된 희소-양자화 모델 지원

3. 생태계 통합

SparseML 최적화 라이브러리와 원활하게 통합
SparseZoo 모델 라이브러리에서 사전 최적화된 모델 제공
다양한 배포 시나리오 지원

사용 사례

엣지 컴퓨팅: 리소스가 제한된 환경에서 고성능 AI 모델 배포
클라우드 추론: 클라우드 컴퓨팅 비용 절감, 추론 효율성 향상
실시간 애플리케이션: 낮은 지연 시간이 필요한 실시간 AI 애플리케이션
대규모 배포: 높은 동시성 추론 요청을 처리해야 하는 생산 환경

개인 정보 보호 및 분석

DeepSparse는 제품 사용 분석을 위해 기본 사용 원격 측정 데이터를 수집합니다. 사용자는 환경 변수를 설정하여 비활성화할 수 있습니다.

export NM_DISABLE_ANALYTICS=True

학술 인용

이 프로젝트는 다음과 같은 여러 중요한 학술 논문을 기반으로 합니다.

Sparse Fine-Tuning for Inference Acceleration of Large Language Models (2023)
The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning (2022)
Inducing and Exploiting Activation Sparsity for Fast Inference (ICML 2020)

요약

DeepSparse는 CPU 추론 최적화 분야의 획기적인 발전을 나타내며, 혁신적인 희소성 활용 기술을 통해 일반 CPU 하드웨어에서 전례 없는 딥러닝 추론 성능을 달성했습니다. 커뮤니티 버전의 유지 관리가 곧 중단되지만, 기술 혁신과 아이디어는 Red Hat의 지원 하에 계속 발전하여 AI 추론 최적화 분야에 더 큰 기여를 할 것입니다.