Stability AI 的生成式模型庫是一個開源項目,提供了多種先進的 AI 生成模型,包括圖像生成、視頻生成和多視角合成等功能。該項目採用模塊化設計,支持多種擴散模型的訓練和推理。
instantiate_from_config()
函數構建和組合子模塊LatentDiffusion
重構為 DiffusionEngine
GeneralConditioner
類處理所有類型的條件輸入denoiser_weighting.py
)denoiser_scaling.py
)sigma_sampling.py
)git clone https://github.com/Stability-AI/generative-models.git
cd generative-models
# 創建虛擬環境
python3 -m venv .pt2
source .pt2/bin/activate
# 安裝依賴
pip3 install -r requirements/pt2.txt
pip3 install .
pip3 install -e git+https://github.com/Stability-AI/datapipelines.git@main#egg=sdata
# 下載模型權重到 checkpoints/ 文件夾
# 運行Streamlit演示
streamlit run scripts/demo/sampling.py --server.port <your_port>
# 下載SVD模型
# 運行簡單的視頻採樣
python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png>
# SV3D_u (軌道視頻)
python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_u
# SV3D_p (指定相機路徑)
python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_p --elevations_deg 10.0
python scripts/sampling/simple_video_sample_4d.py --input_path assets/sv4d_videos/test_video1.mp4 --output_folder outputs/sv4d
# MNIST條件生成訓練
python main.py --base configs/example_training/toy/mnist_cond.yaml
# 文本到圖像訓練
python main.py --base configs/example_training/txt2img-clipl.yaml
example = {
"jpg": x,
"txt": "a beautiful image"
}
項目使用 invisible-watermark 庫在生成圖像中嵌入不可見水印:
# 安裝水印檢測環境
python -m venv .detect
source .detect/bin/activate
pip install "numpy>=1.17" "PyWavelets>=1.1.1" "opencv-python>=4.1.0.25"
pip install --no-deps invisible-watermark
# 檢測水印
python scripts/demo/detect.py <filename>
這個項目代表了當前生成式 AI 領域的最先進技術,為研究者和開發者提供了強大的工具來探索和應用生成式 AI 技術。