CosyVoiceは、Alibaba FunAudioLLMチームが開発した多言語大規模音声生成モデルであり、完全な推論、トレーニング、デプロイメントのフルスタックソリューションを提供します。このプロジェクトは、高品質な音声合成技術に焦点を当て、多様な言語とアプリケーションシナリオをサポートします。
サポート言語
技術的ブレークスルー
CosyVoice2-0.5B(推奨)
CosyVoice-300M シリーズ
[laughter]
、呼吸 [breath]
などの特殊なマーキングをサポート<strong></strong>
をサポート# リポジトリをクローン
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice
# 環境を作成
conda create -n cosyvoice -y python=3.10
conda activate cosyvoice
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt
from modelscope import snapshot_download
# CosyVoice2.0をダウンロード(推奨)
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
# その他のバージョンをダウンロード
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
from cosyvoice.cli.cosyvoice import CosyVoice2
from cosyvoice.utils.file_utils import load_wav
import torchaudio
# モデルを初期化
cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B')
# ゼロショット音声クローン
prompt_speech = load_wav('./asset/zero_shot_prompt.wav', 16000)
for i, result in enumerate(cosyvoice.inference_zero_shot(
'收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐。',
'希望你以后能够做的比我还好呦。',
prompt_speech
)):
torchaudio.save(f'output_{i}.wav', result['tts_speech'], cosyvoice.sample_rate)
# 指示制御合成
for i, result in enumerate(cosyvoice.inference_instruct2(
'今天天气真不错,我们去公园散步吧。',
'用四川话说这句话',
prompt_speech
)):
torchaudio.save(f'instruct_{i}.wav', result['tts_speech'], cosyvoice.sample_rate)
python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice2-0.5B
cd runtime/python
docker build -t cosyvoice:v1.0 .
# gRPCサービス
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 \
/bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/grpc && \
python3 server.py --port 50000 --model_dir iic/CosyVoice2-0.5B"
# FastAPIサービス
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 \
/bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/fastapi && \
python3 server.py --port 50000 --model_dir iic/CosyVoice2-0.5B"