VectorSpaceLab/OmniGen2Please refer to the latest official releases for information GitHub Homepage
첨단 멀티모달 생성 AI 모델로, 텍스트 기반 이미지 생성, 명령어 기반 이미지 편집, 컨텍스트 생성을 지원합니다.
Apache-2.0Jupyter Notebook 3.4kVectorSpaceLabOmniGen2 Last Updated: 2025-07-05
OmniGen2 프로젝트 상세 소개
프로젝트 개요
OmniGen2는 다양한 생성 작업을 위해 설계된 통합 솔루션인 고급 멀티모달 생성 AI 모델입니다. OmniGen v1의 업그레이드 버전으로, 더욱 강력한 기능과 높은 효율성을 제공합니다.
핵심 기능
1. 통합 멀티모달 아키텍처
- 이중 디코딩 경로 설계: OmniGen v1과 달리 OmniGen2는 텍스트 및 이미지 모달리티를 위한 두 개의 고유한 디코딩 경로를 가지며, 비공유 매개변수와 분리된 이미지 토크나이저를 활용합니다.
- Qwen-VL-2.5 기반: 텍스트 및 이미지 모달리티를 위한 고유한 디코딩 경로를 가진 Qwen-VL-2.5를 기반으로 구축되었습니다.
- VAE 입력 재적응 불필요: 이 설계 덕분에 OmniGen2는 기존 멀티모달 이해 모델을 기반으로 구축될 수 있으며, VAE 입력을 재적응할 필요가 없습니다.
2. 네 가지 핵심 역량
OmniGen2는 네 가지 주요 기능에서 경쟁력 있는 성능을 제공합니다:
시각적 이해 (Visual Understanding)
- 이미지 콘텐츠를 이해하고 분석할 수 있습니다.
- 복잡한 시각적 추론 작업을 지원합니다.
텍스트-이미지 생성 (Text-to-Image Generation)
- 텍스트 설명에 따라 고품질 이미지를 생성합니다.
- 다양한 창작 요구를 지원합니다.
지시 기반 이미지 편집 (Instruction-Guided Image Editing)
- 자연어 지시를 통해 이미지를 편집합니다.
- 단일 이미지, 조합 이미지, 여러 이미지 내 개념 및 객체를 통합하여 편집할 수 있습니다.
문맥 내 생성 (In-Context Generation)
- 문맥 정보를 기반으로 생성합니다.
- 복잡한 다중 이미지 처리 작업을 지원합니다.
3. 기술적 장점
효율적인 처리 능력
- 단일 및 다중 사진 입력에서 뛰어난 성능을 발휘하며, 원본 입력 이미지를 존중하고 텍스트 프롬프트에 부합하는 고품질 이미지를 생성할 수 있습니다.
- 추론 효율성 향상을 위해 CPU 오프로딩을 지원합니다.
유연한 적용 시나리오
- 크리에이터, 개발자 및 기업에 적합합니다.
- 다양한 생성 작업을 위한 통합 프레임워크를 지원합니다.
기술 아키텍처
이중 구성 요소 아키텍처
OmniGen2는 이중 구성 요소 아키텍처를 사용합니다:
- 독립적인 텍스트 처리 경로
- 독립적인 이미지 처리 경로
- 분리된 이미지 토크나이저
모델 기반
- 고급 멀티모달 이해 모델 기반
- 통합 생성 프레임워크 채택
- 엔드투엔드 훈련 및 추론 지원
설치 및 사용
환경 요구 사항
# 1. 저장소 복제
git clone git@github.com:VectorSpaceLab/OmniGen2.git
cd OmniGen2
# 2. (선택 사항) Python 환경 생성
conda create -n omnigen2 python=3.11
conda activate omnigen2
# 3. 의존성 설치
# 3.1 PyTorch 설치 (올바른 CUDA 버전 선택)
기능 통합
- Diffusers 통합: Diffusers 라이브러리와의 통합을 지원합니다.
- ComfyUI 데모: ComfyUI 인터페이스 지원을 제공합니다.
- 훈련 데이터 파이프라인: 완전한 훈련 데이터 구축 프로세스.
성능 특성
생성 품질
- 고품질 이미지 생성 능력
- 정확한 지시 이해 및 실행
- 원본 이미지 특징 유지 및 편집 요구 사항 충족
효율성 최적화
- 메모리 사용 최적화를 위한 CPU 오프로딩 지원
- 향상된 추론 효율성
- 최적화된 메모리 점유율 및 시간 비용
적용 시나리오
창의적 디자인
- 컨셉 아트 창작
- 제품 디자인 시각화
- 마케팅 자료 생성
콘텐츠 편집
- 이미지 후처리
- 스타일 변환
- 객체 추가/제거
교육 및 연구
- 학술 연구 도구
- 교육 시연
- 개념 증명
오픈 소스 생태계
커뮤니티 지원
- 오픈 소스 라이선스: Apache-2.0
- 활발한 GitHub 커뮤니티
- 지속적인 기능 업데이트 및 개선
리소스 가용성
- 전체 소스 코드
- 상세 문서
- 예제 및 튜토리얼
기술 보고서 및 벤치마크
연구 성과
- 상세한 기술 보고서 발행
- 문맥 내 생성 벤치마크 제공: OmniContext
- 지속적인 성능 평가 및 개선
모델 가용성
- Hugging Face 모델 허브에서 사전 훈련된 모델 제공
- 로컬 배포 지원
- 클라우드 API 인터페이스