فناوری VALL-E AI جدید مایکروسافت می تواند صدای شما را تنها با 3 ثانیه گوش کردن، تقلید کند!

۲۱ دی ۱۴۰۱آخرین بروزرسانی: ۲۹ دی ۱۴۰۱

زمان تقریبی مطالعه 2 دقیقه

محققان مایکروسافت یک مدل جالب جدید هوش مصنوعی تبدیل متن به گفتار به نام Vall-E ارائه کرده‌اند که می‌تواند تنها چند ثانیه به یک صدا گوش دهد و سپس آن صدا را تقلید کند، از جمله لحن احساسی و یا صدای آکوستیک یا کلا هرچه دوست دارید بگویید.

این جدیدترین الگوریتم از الگوریتم‌های هوش مصنوعی است که می‌تواند صدای ضبط شده یک فرد را ضبط کند و سپس کلمات و جملاتی را تولید کند که شخص هرگز صحبت نکرده.

الگوریتم Lyrebird سال 2017 از دانشگاه مونترال برای تجزیه و تحلیل به یک دقیقه کامل سخنرانی نیاز داشت، Vall-E تنها به یک قطعه صوتی سه ثانیه‌ای نیاز دارد!

هوش مصنوعی بر روی حدود 60000 ساعت گفتار انگلیسی آموزش دیده. به نظر می‌رسد که نمونه‌ها عمدتا کتاب‌های صوتی بوده و محققان نمونه‌هایی را ارائه کرده اند که در آن Vall-E تلاش می‌کند طیفی از صداهای انسان را تقلید کند.

هوش مصنوعی مایکروسافت کار خارق‌العاده‌ای برای گرفتن حالت و ماهیت صدا و ساختن جملات جدیدی انجام می‌دهد تا طبیعی به نظر می‌رسند. طوری که شنونده به تقلا می‌افتد تا بگوید کدام صدا واقعی و کدام تولیدی است. در برخی صداهای تولیدی، تنها زمانی می‌توان شک کرد که که هوش مصنوعی در کار بوده که تاکید در جمله، جاهای عجیبی در جمله قرار بگیرد.

Vall-E به ویژه در بازسازی محیط صوتی نمونه اصلی عالی است. حتی اگر نمونه از طریق تلفن ضبط شده است، باز می‌تواند صدای نو تولید کند. در مورد بازسازی لهجه‌ها نیز بسیار خوب است، حداقل لهجه‌های آمریکایی، بریتانیایی و چند لهجه اروپایی.

از نظر احساسی، نتایج کمتر چشمگیر هستند. به نظر می‌رسد اگر دستور تولید نمونه صدای در حالت عصبانی، خواب‌آلود، سرگرم‌کننده یا منزجر را بدهی، نتیجه خوبی نمی‌گیرید.

پیامدهای این نوع فناوری کاملاً واضح است. از جنبه مثبت، در برخی مواقع می ‌وانید از مورگان فریمن بخواهید که لیست خرید شما را در حالی که سوار بر چرخ دستی در راهروی سوپرمارکت می نشینید، روایت کند. یا اگر بازیگری در نیمه راه تولید فیلم بمیرد، سازندگان فیلم می‌توانند با استفاده از سیستم‌هایی مانند این، تولید خود را از طریق ویدیو و صدای دیو فیک شده به پایان برساند.

اپل اخیرا کاتالوگی از کتاب‌های صوتی را معرفی کرده است که توسط یک هوش مصنوعی برای شما خوانده می‌شود و به نظر می‌رسد که به زودی می‌توانید از بین راوی‌ها انتخاب کنید.

اما از سوی دیگر این خبر خوبی برای صداپیشه‌ها و گویندگان نیست. گرچه مثلا تولید خبرهای صوتی یا پادکست یا کتاب صوتی احتمالا خیل ارزان می‌شود، اما انتظار هنر زیادی از آن نداشته باشید. آنها آثار داگلاس آدامز را مانند استیون فرای برای شما نمی‌خوانند.

پتانسیل سوء استفاده کلاهبرداران نیز بسیار بالاست. اگر یک کلاهبردار بتواند با شما ۳ ثانیه تلفنی صحبت کند، می تواند صدای شما را بدزدد و با با همان لحن صدای شما به مادربزرگتان زنگ بزند. یا هر دستگاه امنیتی تشخیص صدا را دور بزنید. این دقیقاً همان چیزی است که روبات‌های ترمیناتور برای برقراری تماس تلفنی به آن نیاز دارند!

و البته، همه هنوز منتظر لحظه‌ای هستند که اولین سخنرانی جعل عمیق یک شخصیت سیاسی، آنقدر مردم را فریب دهد که کاملا مردم فریب بخورند!

تیم مایکروسافت Vall-E بیانیه اخلاقی کوتاهی را در انتهای صفحه نمایش خود آورده است: «آزمایشات در این کار با این فرض انجام شد که خود کاربر مدل بلندگوی هدف است و یا آزمایش توسط سخنران تایید شده.»

به نظر می‌رسد ظهور هوش مصنوعی خلاقی مانند DALL-E ، ChatGPT، الگوریتم‌های دیپ‌فیک مختلف و تعداد بی‌شماری الگوریتم‌های دیگر در چند ماه گذشته در نقطه عطفی قرار دارد و شروع به خارج شدن از آزمایشگاه‌ها و ورود به دنیای واقعی کرده. مانند همه تغییرات، فرصت‌ها و خطراتی را به همراه دارد. ما واقعاً در زمان جالبی زندگی می‌کنیم. (امیدوارم!)

تمام نمونه های صوتی را در صفحه نمایشی Vall-E را خودتان بررسی کنید.