فناوری VALL-E AI جدید مایکروسافت می تواند صدای شما را تنها با 3 ثانیه گوش کردن، تقلید کند!
محققان مایکروسافت یک مدل جالب جدید هوش مصنوعی تبدیل متن به گفتار به نام Vall-E ارائه کردهاند که میتواند تنها چند ثانیه به یک صدا گوش دهد و سپس آن صدا را تقلید کند، از جمله لحن احساسی و یا صدای آکوستیک یا کلا هرچه دوست دارید بگویید.
این جدیدترین الگوریتم از الگوریتمهای هوش مصنوعی است که میتواند صدای ضبط شده یک فرد را ضبط کند و سپس کلمات و جملاتی را تولید کند که شخص هرگز صحبت نکرده.
الگوریتم Lyrebird سال 2017 از دانشگاه مونترال برای تجزیه و تحلیل به یک دقیقه کامل سخنرانی نیاز داشت، Vall-E تنها به یک قطعه صوتی سه ثانیهای نیاز دارد!
هوش مصنوعی بر روی حدود 60000 ساعت گفتار انگلیسی آموزش دیده. به نظر میرسد که نمونهها عمدتا کتابهای صوتی بوده و محققان نمونههایی را ارائه کرده اند که در آن Vall-E تلاش میکند طیفی از صداهای انسان را تقلید کند.
هوش مصنوعی مایکروسافت کار خارقالعادهای برای گرفتن حالت و ماهیت صدا و ساختن جملات جدیدی انجام میدهد تا طبیعی به نظر میرسند. طوری که شنونده به تقلا میافتد تا بگوید کدام صدا واقعی و کدام تولیدی است. در برخی صداهای تولیدی، تنها زمانی میتوان شک کرد که که هوش مصنوعی در کار بوده که تاکید در جمله، جاهای عجیبی در جمله قرار بگیرد.
Vall-E به ویژه در بازسازی محیط صوتی نمونه اصلی عالی است. حتی اگر نمونه از طریق تلفن ضبط شده است، باز میتواند صدای نو تولید کند. در مورد بازسازی لهجهها نیز بسیار خوب است، حداقل لهجههای آمریکایی، بریتانیایی و چند لهجه اروپایی.
از نظر احساسی، نتایج کمتر چشمگیر هستند. به نظر میرسد اگر دستور تولید نمونه صدای در حالت عصبانی، خوابآلود، سرگرمکننده یا منزجر را بدهی، نتیجه خوبی نمیگیرید.
پیامدهای این نوع فناوری کاملاً واضح است. از جنبه مثبت، در برخی مواقع می وانید از مورگان فریمن بخواهید که لیست خرید شما را در حالی که سوار بر چرخ دستی در راهروی سوپرمارکت می نشینید، روایت کند. یا اگر بازیگری در نیمه راه تولید فیلم بمیرد، سازندگان فیلم میتوانند با استفاده از سیستمهایی مانند این، تولید خود را از طریق ویدیو و صدای دیو فیک شده به پایان برساند.
اپل اخیرا کاتالوگی از کتابهای صوتی را معرفی کرده است که توسط یک هوش مصنوعی برای شما خوانده میشود و به نظر میرسد که به زودی میتوانید از بین راویها انتخاب کنید.
اما از سوی دیگر این خبر خوبی برای صداپیشهها و گویندگان نیست. گرچه مثلا تولید خبرهای صوتی یا پادکست یا کتاب صوتی احتمالا خیل ارزان میشود، اما انتظار هنر زیادی از آن نداشته باشید. آنها آثار داگلاس آدامز را مانند استیون فرای برای شما نمیخوانند.
پتانسیل سوء استفاده کلاهبرداران نیز بسیار بالاست. اگر یک کلاهبردار بتواند با شما ۳ ثانیه تلفنی صحبت کند، می تواند صدای شما را بدزدد و با با همان لحن صدای شما به مادربزرگتان زنگ بزند. یا هر دستگاه امنیتی تشخیص صدا را دور بزنید. این دقیقاً همان چیزی است که روباتهای ترمیناتور برای برقراری تماس تلفنی به آن نیاز دارند!
و البته، همه هنوز منتظر لحظهای هستند که اولین سخنرانی جعل عمیق یک شخصیت سیاسی، آنقدر مردم را فریب دهد که کاملا مردم فریب بخورند!
تیم مایکروسافت Vall-E بیانیه اخلاقی کوتاهی را در انتهای صفحه نمایش خود آورده است: «آزمایشات در این کار با این فرض انجام شد که خود کاربر مدل بلندگوی هدف است و یا آزمایش توسط سخنران تایید شده.»
به نظر میرسد ظهور هوش مصنوعی خلاقی مانند DALL-E ، ChatGPT، الگوریتمهای دیپفیک مختلف و تعداد بیشماری الگوریتمهای دیگر در چند ماه گذشته در نقطه عطفی قرار دارد و شروع به خارج شدن از آزمایشگاهها و ورود به دنیای واقعی کرده. مانند همه تغییرات، فرصتها و خطراتی را به همراه دارد. ما واقعاً در زمان جالبی زندگی میکنیم. (امیدوارم!)
تمام نمونه های صوتی را در صفحه نمایشی Vall-E را خودتان بررسی کنید.