huggingface/parler-ttsPlease refer to the latest official releases for information GitHub Homepage

軽量なテキスト読み上げモデルで、自然言語による記述を通じて高品質で自然な音声を生成できます。

Apache-2.0Python 5.3khuggingfaceparler-tts Last Updated: 2024-12-10

Parler TTS プロジェクト詳細

プロジェクト概要

Parler-TTS は、高品質で自然な音声を生成し、話者のスタイル（性別、音調、話し方など）を制御できる軽量なテキスト読み上げ (TTS) モデルです。このプロジェクトは、Stability AI とエディンバラ大学の研究論文「Natural language guidance of high-fidelity text-to-speech with synthetic annotations」のオープンソース実装です。

プロジェクトの特徴

完全オープンソース: 他の TTS モデルとは異なり、Parler-TTS は完全にオープンソースで公開されています。
データセット公開: すべてのデータセット、前処理、トレーニングコード、および重みが、緩いライセンスの下で公開されています。
自然言語制御: 簡単なテキストプロンプトで音声の特徴を制御できます。
複数のモデル規模: さまざまなパラメータ規模のモデルバージョンを提供します。

利用可能なモデルバージョン

1. Parler-TTS Mini v1

パラメータ数: 880M
訓練データ: 45K 時間のオーディオブックデータ
特徴: 軽量で、高速な推論に適しています。

2. Parler-TTS Large v1

パラメータ数: 2.2B パラメータ
訓練データ: 45K 時間のオーディオデータ
特徴: より高品質な音声生成

3. Parler-TTS Mini Expresso

特色機能: 優れた感情制御（喜び、困惑、笑い、悲しみ）と一貫した声（Jerry、Thomas、Elisabeth、Talia）を提供します。

インストール方法

基本インストール

pip install git+https://github.com/huggingface/parler-tts.git

Apple Silicon ユーザー

pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

使用方法

基本的な使用例

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"
model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")

prompt = "Hey, how are you doing today?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

プリセットされた話者の使用

このモデルは、Laura、Gary、Jon、Lea、Karen、Rick、Brenda、David、Eileen、Jordan、Mike、Yann、Joy、James、Eric、Lauren、Rose、Will、Jason、Aaron、Naomie、Alisa、Patrick、Jerry、Tina、Jenna、Bill、Tom、Carol、Barbara、Rebecca、Anna、Bruce、Emilyを含む34人のプリセットされた話者をサポートしています。

prompt = "Hey, how are you doing today?"
description = "Jon's voice is monotone yet slightly fast in delivery, with a very close recording that almost has no background noise."

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

使用のヒント

最高品質のオーディオを生成するには、"very clear audio" を使用します。
高レベルのバックグラウンドノイズを追加するには、"very noisy audio" を使用します。
句読点を使用して音声の韻律を制御できます。たとえば、コンマを使用して音声に短い休止を追加します。
残りの音声の特徴（性別、話速、音調、およびリバーブ）は、プロンプトを介して直接制御できます。

トレーニングとファインチューニング

高速トレーニング

accelerate launch ./training/run_parler_tts_training.py ./helpers/training_configs/starting_point_v1.json

ファインチューニングのサポート

プロジェクトは、完全なトレーニングとファインチューニングのガイドを提供します。

アーキテクチャの紹介
入門ステップ
詳細なトレーニングガイド
単一話者データセットのファインチューニングの例

技術的な最適化

プロジェクトには、さまざまなパフォーマンス最適化が含まれています。

SDPA および Flash Attention 2 の互換性
モデルコンパイル機能
ストリーミング生成のサポート
静的キャッシュの最適化

プロジェクト構造

推論コード: コア TTS 推論機能
トレーニングコード: 完全なトレーニングおよびファインチューニングプロセス
Data-Speech 統合: データセットアノテーションライブラリとの連携
最適化ツール: さまざまな推論速度最適化オプション

応用シーン

オーディオブック制作
音声アシスタント
教育コンテンツ制作
アクセシビリティ支援技術
マルチメディアコンテンツ制作

オープンソースライセンスと引用

プロジェクトは緩いオープンソースライセンスを採用しており、コミュニティの貢献と商用利用を奨励しています。このプロジェクトを使用する場合は、以下を引用することをお勧めします。

@misc{lacombe-etal-2024-parler-tts,
author = {Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi},
title = {Parler-TTS},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/huggingface/parler-tts}}
}

コミュニティへの貢献

プロジェクトは、特に以下の分野でコミュニティの貢献を歓迎します。

データセットの拡張と多様性
トレーニング方法の最適化
多言語サポート
パフォーマンスの最適化
評価指標の改善

Parler TTS は、オープンソース TTS 技術の重要な進歩を表しており、研究者と開発者に強力で柔軟なテキスト読み上げソリューションを提供します。