مدل تبدیل متن به گفتار Dia؛ رقیبی متنباز برای ElevenLabs و OpenAI

در دنیایی که رقابت بر سر ساخت گفتار مصنوعی هر روز پیچیدهتر میشود، معرفی یک مدل جدید همیشه با دیدهی تردید نگریسته میشود. اما مدل متنباز «دیا» (Dia) ساختهی استارتاپ دو نفرهی «ناری لبز» (Nari Labs)، با عملکردی فراتر از انتظار، حالا رقبایی چون ElevenLabs، OpenAI و Google را به چالش کشیده است. این مدل ۱.۶ میلیارد پارامتری در زمانی عرضه شده که رقابت میان محصولات تجاری بسیار فشرده است، و ویژگیهای آن نویدبخش تحولی واقعی در صنعت تبدیل متن به گفتار است.
رؤیایی که از یک ویژگی پادکست آغاز شد
همهچیز از علاقهی بنیانگذاران ناری لبز به قابلیت تولید پادکست در «NotebookLM» (محصول Google) آغاز شد. آنها که در ابتدا تخصصی در حوزهٔ هوش مصنوعی نداشتند، با انگیزهای شخصی وارد مسیر شدند. آنچه کم داشتند، چیزی بود که هیچ یک از TTS APIهای موجود در بازار ارائه نمیدادند: صدایی که شبیه به گفتوگوی واقعی انسان باشد، با لحن، تأکید، و سکوتهایی طبیعی.
پس از ماهها تلاش و با بهرهگیری از دسترسی رایگان به چیپهای TPU گوگل از طریق فضای ابری پژوهشی (Google TPU Research Cloud)، موفق به آموزش مدلی شدند که اکنون با عنوان «دیا» در اختیار عموم قرار گرفته است. کد و وزنهای مدل بهصورت کامل روی پلتفرمهای متنباز منتشر شدهاند، و هر کاربری میتواند آن را روی سیستم خود اجرا کند یا در پروژههای شخصی و تجاری بهکار گیرد.
ویژگیهای فنی و قابلیتهای کمنظیر
«دیا» نهتنها متن را به صدا تبدیل میکند، بلکه ویژگیهایی را در دل گفتار مصنوعی قرار میدهد که پیشتر بیشتر در آرزوها جای داشتند:
پردازش دقیق علائم غیرکلامی: تگهایی مثل (میخندد)، (سرفه میکند) یا (نفس عمیق میکشد) در متن قرار میگیرند و مدل آنها را بهدرستی به صداهای واقعی تبدیل میکند، برخلاف بسیاری از مدلهای دیگر که آنها را نادیده میگیرند یا به متن بیروحی مثل «هاها» خلاصه میکنند.
تشخیص گویندگان و گفتگوهای چندنفره: با علامتگذاری مانند [S1] و [S2]، مدل گویندهها را از هم تفکیک کرده و خروجی صوتی متفاوت و منطبق با شخصیت هر بخش تولید میکند.
پشتیبانی از نمونه صوتی: کاربران میتوانند کلیپ صوتی کوتاهی بارگذاری کرده و از مدل بخواهند با همان لحن و جنس صدا، ادامهی متن را بخواند. این ویژگی، کلونسازی صدا یا Audio Conditioning نام دارد.
لحن احساسی و انتقال حس در گفتار: در سناریوهای نمایشی، همچون صحنه اضطراری یا دیالوگ عاشقانه، دیا توانایی تغییر لحن، بالا رفتن تُن صدا و حتی سکوتهای هدفمند را دارد.
برتری در مقایسه با رقبا
ناری لبز با ارائه مجموعهای از فایلهای صوتی در سایت خود، «دیا» را در کنار مدلهایی مانند ElevenLabs Studio و Sesame CSM-1B قرار داده و به مقایسهی مستقیم پرداخته است. در این آزمایشها:
زمانبندی طبیعی در گفتار، حتی در گفتگوهای چندمرحلهای، در مدل دیا واقعیتر بهنظر میرسد.
بازسازی کامل افکتهای صوتی غیرکلامی، درحالیکه سایر مدلها یا از آنها عبور میکنند یا با عبارات جایگزین میسازند.
توانایی اجرای محتوای پیچیده مثل اشعار و ترانهها، بدون افت ریتم یا یکنواختی.
در نمونهای مشخص، حتی گفته شده مدل Sesame در نسخهی نمایشی خود احتمالاً از مدل ۸ میلیارد پارامتری استفاده کرده، درحالیکه نسخه عمومی آن فقط ۱ میلیارد پارامتر دارد؛ شکافی که میتواند اعتماد کاربران را نسبت به عملکرد واقعی خدشهدار کند.
ابزارهای اجرا و شرایط فنی
مدل دیا برای اجرا نیازمند کارت گرافیکی با حداقل ۱۰ گیگابایت VRAM (مثل NVIDIA A4000) و نسخههای جدید PyTorch و CUDA است. سرعت تولید گفتار با این مشخصات حدود ۴۰ توکن در ثانیه است. فعلاً نسخهی فعلی فقط روی GPU اجرا میشود، اما تیم توسعه وعده داده بهزودی پشتیبانی از CPU و نسخه کمحجمشده (Quantized) هم منتشر شود.
کاربران میتوانند از کتابخانه پایتون (Python library) یا ابزار خط فرمان (CLI tool) برای اجرای مدل استفاده کنند. همچنین یک دموی گرافیکی مبتنی بر Gradio در اختیار عموم قرار گرفته که حتی بدون دانش فنی، قابلیت تست را فراهم میکند.
متنباز، اما متعهد به اخلاق
نکته قابلتوجه در مورد «دیا» این است که تحت لایسنس Apache 2.0 منتشر شده، یعنی برای استفاده تجاری، توسعه محصول یا حتی اپلیکیشنهای مستقل هیچ محدودیتی وجود ندارد. با این حال، تیم ناری لبز استفاده از مدل را در مواردی مثل:
جعل هویت (Impersonation)
تولید اطلاعات نادرست (Misinformation)
کاربردهای غیرقانونی یا غیراخلاقی
بهصراحت ممنوع کرده و از کاربران خواسته در مسیر توسعه اخلاقمدار هوش مصنوعی حرکت کنند.
آیندهی پیشرو: صدایی آزاد، انسانی و واقعی
در بازار امروز که مدلهای گفتار مصنوعی به سمت تجاریسازی سنگین و پنهانکاری میروند، معرفی «دیا» بهعنوان مدلی متنباز، انعطافپذیر و قابل استقرار روی سیستمهای شخصی، نوید آیندهای دموکراتیکتر برای صداهای مصنوعی است.
ناری لبز، با تیمی متشکل از تنها دو نفر (یک نفر تماموقت و یک نفر پارهوقت)، توانسته نمونهای بینقص از کیفیت، استقلال، و نوآوری را ارائه دهد. این تیم همچنین مشغول ساخت نسخهای از دیا برای کاربران عمومیست؛ برای آنهایی که میخواهند دیالوگهای خلاقانه بسازند، صداهای شخصیشده تولید کنند یا حتی محتوای صوتی جذاب و قابلانتشار خلق کنند.