VideoLingo هي أداة شاملة تجمع بين ترجمة الفيديو وتوطينه ودبلجته، تهدف إلى إنتاج ترجمات بجودة مستوى Netflix. يزيل هذا المشروع الترجمة الآلية الفجة ومشكلة الترجمة متعددة الأسطر، مع إضافة دبلجة عالية الجودة، مما يسمح بمشاركة المعرفة العالمية عبر الحواجز اللغوية.
*تستخدم اللغة الصينية نموذج Whisper محسنًا للعلامات الترقيمية بشكل منفصل
تدعم الترجمة جميع اللغات، وتعتمد لغات الدبلجة على طريقة TTS المختارة.
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6
إلى مسار النظام (PATH)choco install ffmpeg
(عبر Chocolatey)brew install ffmpeg
(عبر Homebrew)sudo apt install ffmpeg
(Debian/Ubuntu)git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py
streamlit run st.py
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
يتطلب CUDA 12.4 وإصدار برنامج تشغيل NVIDIA > 550
يدعم VideoLingo تنسيق API المشابه لـ OpenAI وواجهات TTS متنوعة:
claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts
(يمكن تعديل TTS المخصص في custom_tts.py)تأثير جودة الصوت: قد يتأثر أداء النسخ في WhisperX بضوضاء الخلفية في الفيديو، بالنسبة لمقاطع الفيديو ذات الموسيقى الخلفية العالية، يرجى تمكين وظيفة تحسين فصل الصوت البشري.
معالجة الأحرف الرقمية: قد يتم اقتطاع الترجمة التي تنتهي بأرقام أو أحرف خاصة مبكرًا، لأن wav2vac لا يمكنه تعيين الأحرف الرقمية (مثل "1") إلى شكلها المنطوق (مثل "واحد").
توافق النموذج: قد يؤدي استخدام نموذج أضعف إلى حدوث أخطاء أثناء المعالجة بسبب متطلبات تنسيق JSON الصارمة.
كمال الدبلجة: نظرًا للاختلافات في سرعة الكلام والنبرة بين اللغات، وتأثير خطوات الترجمة، قد لا تكون وظيفة الدبلجة مثالية بنسبة 100٪.
التعرف على اللغات المتعددة: سيحتفظ التعرف على ترجمة الفيديو متعدد اللغات باللغة الرئيسية فقط.
دبلجة متعددة الشخصيات: لا يمكن دبلجة شخصيات متعددة بشكل منفصل حاليًا، لأن قدرة WhisperX على تمييز المتحدثين ليست موثوقة بدرجة كافية.