مدل تبدیل متن به گفتار Dia؛ رقیبی متن‌باز برای ElevenLabs و OpenAI

۳ اردیبهشت ۱۴۰۴آخرین بروزرسانی: ۳ اردیبهشت ۱۴۰۴

زمان تقریبی مطالعه 3 دقیقه

مدل تبدیل متن به گفتار Dia؛ رقیبی متن‌باز برای ElevenLabs و OpenAI

در دنیایی که رقابت بر سر ساخت گفتار مصنوعی هر روز پیچیده‌تر می‌شود، معرفی یک مدل جدید همیشه با دیده‌ی تردید نگریسته می‌شود. اما مدل متن‌باز «دیا» (Dia) ساخته‌ی استارتاپ دو نفره‌ی «ناری لبز» (Nari Labs)، با عملکردی فراتر از انتظار، حالا رقبایی چون ElevenLabs، OpenAI و Google را به چالش کشیده است. این مدل ۱.۶ میلیارد پارامتری در زمانی عرضه شده که رقابت میان محصولات تجاری بسیار فشرده است، و ویژگی‌های آن نویدبخش تحولی واقعی در صنعت تبدیل متن به گفتار است.

رؤیایی که از یک ویژگی پادکست آغاز شد

همه‌چیز از علاقه‌ی بنیان‌گذاران ناری لبز به قابلیت تولید پادکست در «NotebookLM» (محصول Google) آغاز شد. آن‌ها که در ابتدا تخصصی در حوزهٔ هوش مصنوعی نداشتند، با انگیزه‌ای شخصی وارد مسیر شدند. آنچه کم داشتند، چیزی بود که هیچ یک از TTS APIهای موجود در بازار ارائه نمی‌دادند: صدایی که شبیه به گفت‌وگوی واقعی انسان باشد، با لحن، تأکید، و سکوت‌هایی طبیعی.

پس از ماه‌ها تلاش و با بهره‌گیری از دسترسی رایگان به چیپ‌های TPU گوگل از طریق فضای ابری پژوهشی (Google TPU Research Cloud)، موفق به آموزش مدلی شدند که اکنون با عنوان «دیا» در اختیار عموم قرار گرفته است. کد و وزن‌های مدل به‌صورت کامل روی پلتفرم‌های متن‌باز منتشر شده‌اند، و هر کاربری می‌تواند آن را روی سیستم خود اجرا کند یا در پروژه‌های شخصی و تجاری به‌کار گیرد.

ویژگی‌های فنی و قابلیت‌های کم‌نظیر

«دیا» نه‌تنها متن را به صدا تبدیل می‌کند، بلکه ویژگی‌هایی را در دل گفتار مصنوعی قرار می‌دهد که پیش‌تر بیشتر در آرزوها جای داشتند:

پردازش دقیق علائم غیرکلامی: تگ‌هایی مثل (می‌خندد)، (سرفه می‌کند) یا (نفس عمیق می‌کشد) در متن قرار می‌گیرند و مدل آن‌ها را به‌درستی به صداهای واقعی تبدیل می‌کند، برخلاف بسیاری از مدل‌های دیگر که آن‌ها را نادیده می‌گیرند یا به متن بی‌روحی مثل «هاها» خلاصه می‌کنند.

تشخیص گویندگان و گفتگوهای چندنفره: با علامت‌گذاری مانند [S1] و [S2]، مدل گوینده‌ها را از هم تفکیک کرده و خروجی صوتی متفاوت و منطبق با شخصیت هر بخش تولید می‌کند.

پشتیبانی از نمونه صوتی: کاربران می‌توانند کلیپ صوتی کوتاهی بارگذاری کرده و از مدل بخواهند با همان لحن و جنس صدا، ادامه‌ی متن را بخواند. این ویژگی، کلون‌سازی صدا یا Audio Conditioning نام دارد.

لحن احساسی و انتقال حس در گفتار: در سناریوهای نمایشی، همچون صحنه اضطراری یا دیالوگ عاشقانه، دیا توانایی تغییر لحن، بالا رفتن تُن صدا و حتی سکوت‌های هدفمند را دارد.

برتری در مقایسه با رقبا

ناری لبز با ارائه مجموعه‌ای از فایل‌های صوتی در سایت خود، «دیا» را در کنار مدل‌هایی مانند ElevenLabs Studio و Sesame CSM-1B قرار داده و به مقایسه‌ی مستقیم پرداخته است. در این آزمایش‌ها:

زمان‌بندی طبیعی در گفتار، حتی در گفتگوهای چندمرحله‌ای، در مدل دیا واقعی‌تر به‌نظر می‌رسد.
بازسازی کامل افکت‌های صوتی غیرکلامی، درحالی‌که سایر مدل‌ها یا از آن‌ها عبور می‌کنند یا با عبارات جایگزین می‌سازند.
توانایی اجرای محتوای پیچیده مثل اشعار و ترانه‌ها، بدون افت ریتم یا یکنواختی.
در نمونه‌ای مشخص، حتی گفته شده مدل Sesame در نسخه‌ی نمایشی خود احتمالاً از مدل ۸ میلیارد پارامتری استفاده کرده، درحالی‌که نسخه عمومی آن فقط ۱ میلیارد پارامتر دارد؛ شکافی که می‌تواند اعتماد کاربران را نسبت به عملکرد واقعی خدشه‌دار کند.

ابزارهای اجرا و شرایط فنی

مدل دیا برای اجرا نیازمند کارت گرافیکی با حداقل ۱۰ گیگابایت VRAM (مثل NVIDIA A4000) و نسخه‌های جدید PyTorch و CUDA است. سرعت تولید گفتار با این مشخصات حدود ۴۰ توکن در ثانیه است. فعلاً نسخه‌ی فعلی فقط روی GPU اجرا می‌شود، اما تیم توسعه وعده داده به‌زودی پشتیبانی از CPU و نسخه کم‌حجم‌شده (Quantized) هم منتشر شود.

کاربران می‌توانند از کتابخانه پایتون (Python library) یا ابزار خط فرمان (CLI tool) برای اجرای مدل استفاده کنند. همچنین یک دموی گرافیکی مبتنی بر Gradio در اختیار عموم قرار گرفته که حتی بدون دانش فنی، قابلیت تست را فراهم می‌کند.

متن‌باز، اما متعهد به اخلاق

نکته قابل‌توجه در مورد «دیا» این است که تحت لایسنس Apache 2.0 منتشر شده، یعنی برای استفاده تجاری، توسعه محصول یا حتی اپلیکیشن‌های مستقل هیچ محدودیتی وجود ندارد. با این حال، تیم ناری لبز استفاده از مدل را در مواردی مثل:

جعل هویت (Impersonation)
تولید اطلاعات نادرست (Misinformation)
کاربردهای غیرقانونی یا غیراخلاقی

به‌صراحت ممنوع کرده و از کاربران خواسته در مسیر توسعه اخلاق‌مدار هوش مصنوعی حرکت کنند.

آینده‌ی پیش‌رو: صدایی آزاد، انسانی و واقعی

در بازار امروز که مدل‌های گفتار مصنوعی به سمت تجاری‌سازی سنگین و پنهان‌کاری می‌روند، معرفی «دیا» به‌عنوان مدلی متن‌باز، انعطاف‌پذیر و قابل استقرار روی سیستم‌های شخصی، نوید آینده‌ای دموکراتیک‌تر برای صداهای مصنوعی است.

ناری لبز، با تیمی متشکل از تنها دو نفر (یک نفر تمام‌وقت و یک نفر پاره‌وقت)، توانسته نمونه‌ای بی‌نقص از کیفیت، استقلال، و نوآوری را ارائه دهد. این تیم همچنین مشغول ساخت نسخه‌ای از دیا برای کاربران عمومی‌ست؛ برای آن‌هایی که می‌خواهند دیالوگ‌های خلاقانه بسازند، صداهای شخصی‌شده تولید کنند یا حتی محتوای صوتی جذاب و قابل‌انتشار خلق کنند.