نموذج أساسي مفتوح المصدر للذكاء الاصطناعي من Boson AI لتحويل النص إلى صوت، تم تدريبه مسبقًا على بيانات صوتية مدتها 10 ملايين ساعة، ويدعم توليد كلام معبر وإنتاج صوت متعدد اللغات.

Apache-2.0Pythonhiggs-audioboson-ai 6.1k Last Updated: July 30, 2025

تفاصيل مشروع Higgs Audio V2

نظرة عامة على المشروع

Higgs Audio V2 هو نموذج صوتي أساسي قوي مفتوح المصدر من Boson AI، تم تدريبه مسبقًا على أكثر من 10 ملايين ساعة من البيانات الصوتية وبيانات نصية متنوعة. على الرغم من عدم خضوعه للتدريب اللاحق أو الضبط الدقيق، يتفوق Higgs Audio V2 في توليد الصوت التعبيري، وذلك بفضل فهمه العميق للغة والصوتيات.

الميزات الأساسية

1. قدرة قوية على تركيب الكلام

  • يدعم توليد الكلام التعبيري
  • يدعم توليد الصوت متعدد اللغات
  • توليد حوار طبيعي متعدد المتحدثين
  • تكيف إيقاعي تلقائي للسرد
  • دندنة لحنية باستخدام صوت مستنسخ
  • توليد الكلام والموسيقى الخلفية في وقت واحد

2. أداء متميز

في تقييم EmergentTTS-Eval، حقق النموذج معدل فوز بلغ 75.7% في فئة "العاطفة" و 55.7% في فئة "السؤال" على التوالي، متجاوزًا "gpt-4o-mini-tts". كما حقق أداءً رائدًا في الصناعة في اختبارات TTS التقليدية مثل Seed-TTS Eval ومجموعة بيانات الكلام العاطفي (ESD).

3. قدرات ناشئة فريدة

يُظهر هذا النموذج قدرات نادرة في الأنظمة السابقة:

  • توليد حوار طبيعي متعدد اللغات ومتعدد المتحدثين
  • تكيف إيقاعي تلقائي أثناء السرد
  • دندنة لحنية باستخدام صوت مستنسخ
  • توليد الكلام والموسيقى الخلفية في وقت واحد

البنية التقنية

الابتكارات التقنية الأساسية

  1. خط أنابيب التسمية التلقائية: تم استخدام نماذج ASR متعددة، ونماذج تصنيف الأحداث الصوتية، ونماذج فهم الصوت الداخلية لتنظيف وتسمية 10 ملايين ساعة من البيانات الصوتية (المعروفة باسم AudioVerse).

  2. مُجزئ صوتي موحد: مُجزئ صوتي موحد تم تدريبه من الصفر، قادر على التقاط الميزات الدلالية والصوتية.

  3. بنية DualFFN: عززت قدرة نماذج اللغة الكبيرة (LLM) على نمذجة الرموز الصوتية، مع الحفاظ على الحد الأدنى من التكلفة الحسابية.

إعداد البيئة

بيئة Docker الموصى بها

# استخدام حاوية NVIDIA للتعلم العميق
docker run --gpus all --ipc=host --net=host --ulimit memlock=-1 --ulimit stack=67108864 -it --rm nvcr.io/nvidia/pytorch:25.02-py3 bash

طرق التثبيت القياسية

باستخدام Git + pip

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
pip install -r requirements.txt
pip install -e .

باستخدام بيئة افتراضية

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .

باستخدام Conda

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
conda create -n higgs_audio_env python=3.10
conda activate higgs_audio_env
pip install -r requirements.txt
pip install -e .

باستخدام uv

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
uv venv --python 3.10
source .venv/bin/activate
uv pip install -r requirements.txt
uv pip install -e .

أمثلة الاستخدام

مثال على كود Python الأساسي

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent
import torch
import torchaudio
import time
import click

MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"

system_prompt = (
"Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)

messages = [
    Message(
        role="system",
        content=system_prompt,
    ),
    Message(
        role="user",
        content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
    ),
]

device = "cuda" if torch.cuda.is_available() else "cpu"
serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)

output: HiggsAudioResponse = serve_engine.generate(
    chat_ml_sample=ChatMLSample(messages=messages),
    max_new_tokens=1024,
    temperature=0.3,
    top_p=0.95,
    top_k=50,
    stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)

torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

أمثلة استخدام سطر الأوامر

توليد الكلام باستخدام صوت مرجعي

python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--ref_audio belinda \
--temperature 0.3 \
--out_path generation.wav

بدون استخدام صوت مرجعي (يقرر النموذج الصوت تلقائيًا)

python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--temperature 0.3 \
--out_path generation.wav

توليد حوار متعدد المتحدثين

python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--seed 12345 \
--out_path generation.wav

توليد حوار متعدد المتحدثين باستخدام أصوات محددة

python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--ref_audio belinda,broom_salesman \
--ref_audio_in_system_message \
--chunk_method speaker \
--seed 12345 \
--out_path generation.wav

نتائج تقييم الأداء

اختبارات TTS التقليدية

نتائج تقييم SeedTTS-Eval و ESD

النموذج SeedTTS-Eval ESD
WER ↓ SIM ↑ WER ↓ SIM (emo2vec) ↑
Cosyvoice2 2.28 65.49 2.71 80.48
Qwen2.5-omni† 2.33 64.10 - -
ElevenLabs Multilingual V2 1.43 50.00 1.66 65.87
Higgs Audio v1 2.18 66.27 1.49 82.84
Higgs Audio v2 (base) 2.44 67.70 1.78 86.13

تقييم EmergentTTS-Eval

النموذج العاطفة (%) ↑ السؤال (%) ↑
Higgs Audio v2 (base) 75.71% 55.71%

تقييم متعدد المتحدثين

صمم هذا المشروع أيضًا معيارًا مخصصًا لتقييم المتحدثين المتعددين، يتضمن ثلاث مجموعات فرعية:

  • two-speaker-conversation: 1000 حوار مُركّب يتضمن متحدثين اثنين.
  • small talk (no ref): 250 حوار مُركّب، يتميز بعبارات قصيرة وعدد محدود من الأدوار.
  • small talk (ref): 250 حوار مُركّب مشابه، يتضمن عبارات أقصر.

متطلبات الأجهزة

ملاحظة هامة: للحصول على أفضل أداء، يوصى بتشغيل أمثلة التوليد على جهاز مزود بوحدة معالجة رسوميات (GPU) بذاكرة فيديو (VRAM) لا تقل عن 24 جيجابايت.

الميزات المتقدمة

خادم API لـ vLLM

يوفر المشروع أيضًا خادم API متوافقًا مع OpenAI يعتمد على محرك vLLM للاستخدام المتقدم عالي الإنتاجية. لمزيد من التفاصيل، يرجى الرجوع إلى دليل examples/vllm.

مُجزئ صوتي مخصص

يقدم المشروع مُجزئًا صوتيًا جديدًا مُقسّمًا، يعمل بتردد 25 إطارًا في الثانية فقط، مع الحفاظ على جودة الصوت أو حتى تحسينها، مقارنةً بالمُجزئات ذات معدل البت المزدوج. هذا النموذج هو أول نظام موحد يتم تدريبه على بيانات 24 كيلو هرتز، ويغطي الكلام والموسيقى والأحداث الصوتية.

أهمية المشروع

مع إطلاق الإصدار مفتوح المصدر، يدعو Higgs Audio V2 المطورين حول العالم للمشاركة في تشكيل مستقبل التفاعل بين الإنسان والآلة. عندما تقوم بتوليد أول عينة، فإنك لا تسمع مجرد كلام مُركّب - بل تختبر المرحلة التالية من تطور تقنية الكلام.

يمثل Higgs Audio V2 اختراقًا هامًا في تقنية توليد الصوت، ويوفر أداة قوية للمطورين والباحثين لاستكشاف وابتكار تطبيقات الذكاء الاصطناعي الصوتي.

Star History Chart