Zyphra Zonos TTS – استنساخ صوتي وتحويل النص إلى كلام بالذكاء الاصطناعي مع تحكم في العواطف، مجاني ومفتوح المصدر!
Zonos-v0.1، وهو نموذج تحويل النص إلى كلام مدرب على أكثر من 200,000 ساعة من بيانات الكلام متعدد اللغات، بما في ذلك الإنجليزية واليابانية والصينية والفرنسية والألمانية. يعمل بمعدل عينة صوتية 44 kHz، ويقدم جودة وتعبيرًا عاليين، مع ميزات مثل تكرار الصوت من 5 إلى 30 ثانية، وتحكم في المشاعر مثل الحزن والخوف والسعادة. يتميز بأداء فعال، حيث يعمل بسرعة مضاعفة للوقت الفعلي على جهاز RTX 4090، وهو مفتوح المصدر تحت ترخيص Apache 2.0.
أما مجموعة Zamba2، فهي عائلة من نماذج اللغة بأحجام من 2.7B إلى 7B من المعلمات، تستخدم هندسة مختلطة تجمع بين نماذج الحالة المكانية ومحولات. على سبيل المثال، Zamba2-7B يتفوق على نماذج مثل Mistral-7B وGemma-7B من جوجل وLlama3-8B من ميتا، مع كفاءة استدلال عالية، حيث يكون أسرع بنسبة 25% في وقت الرمز الأول ويستخدم ذاكرة أقل. النماذج الأصغر مثل Zamba2-2.7B-Instruct مصممة للتطبيقات على الجهاز، مع تأخر استدلال منخفض وحجم ذاكرة صغير.
لديهم أيضًا "Maia"، وهو نظام وكيل متعدد الوسائط للاستخدام التجاري، يجمع بين البحث المتقدم في هندسات العصبونات وذاكرة المدى الطويل والتعلم بالتعزيز.
روابط مهمة:
https://playground.zyphra.com/audio
https://github.com/Zyphra/Zonos
#ai #aitools #aivoice #voicecloning #texttospeech