فقط یک عکس و یک تکه کوچک از صدای یک شخص را بدهید تا VASA-۱ مایکروسافت، فیلم شخص را در حال حرف زدن یا آواز خواندن برایتان تولید کند – یک پیشرفت یا سوء استفاده در جعل عمیق؟!

۱ اردیبهشت ۱۴۰۳آخرین بروزرسانی: ۱ اردیبهشت ۱۴۰۳

زمان تقریبی مطالعه 2 دقیقه

روز سه‌شنبه، Microsoft Research Asia از VASA-۱، رونمایی کرد که یک مدل هوش مصنوعی است که می‌تواند یک ویدئوی متحرک همگام‌سازی شده از صحبت کردن یا آواز خواندن اشخاص را تنها با استفاده از یک عکس و یک قطعه صوتی موجود ایجاد کند.

این مدل هوش مصنوعی، می‌تواند آواتار‌های مجازی را در آینده متحول کند. به این ترتیب شما می‌توانید با دادن نمونه‌های معدود صوتی و عکس، به راحتی محتوای ویدئویی داشته باشید و خارج از این هم این برنامه به درد بازاریابی و روابز عمومی‌ها یا صنعت فیلم و سرگرمی‌سازی هم خواهد خورد.

VASA (مخفف عبارت Visual Affective Skills Animator) از یادگیری ماشینی برای تجزیه و تحلیل یک تصویر ثابت همراه با یک کلیپ صوتی سخنرانی استفاده می‌کند. سپس می‌تواند یک ویدیوی واقعی با حالات صورت دقیق، حرکات سر آن هم با همگام‌سازی لب با صدا ایجاد کند.

مایکروسافت ادعا می‌کند که این مدل به طور قابل توجهی از روش‌های قبلی انیمیشن‌های سخنگو از نظر واقع گرایی، بیان و کارایی بهتر عمل می‌کند.

تلاش‌های تحقیقاتی هوش مصنوعی برای متحرک کردن یک عکس از یک شخص، به چند سال قبل بازمی‌گردد. در ماه فوریه، یک مدل هوش مصنوعی به نام EMO: Emote Portrait Alive از گروه تحقیقاتی مؤسسه محاسبات هوشمند علی بابا، رویکردی مشابه VASA-۱ داشت. آن برنامه Audio۲Video نامیده شد.

محققان مایکرؤسافت VASA-۱ را بر روی مجموعه داده VoxCeleb۲ که در سال ۲۰۱۸ توسط سه محقق از دانشگاه آکسفورد ایجاد شد، آموزش دادند. بر اساس اطلاعات وب‌سایت VoxCeleb۲ که از ویدیو‌های آپلود شده در یوتیوب استخراج شده، این مجموعه داده حاوی «بیش از ۱ میلیون گفته برای ۶۱۱۲ سلبریتی» است.

طبق گزارش‌ها، VASA-۱ می‌تواند ویدیو‌هایی با وضوح ۵۱۲x۵۱۲ پیکسل تا حداکثر ۴۰ فریم در ثانیه با حداقل تأخیر تولید کند، به این معنی که می‌تواند به طور بالقوه برای برنامه‌های بیدرنگ مانند کنفرانس ویدیویی استفاده شود.

نمونه‌های ارائه شده شامل رپ‌خوانی مونالیزا است که جالب به نظر می‌رسد. بدیهی است که این تکنیک می‌تواند به صورت مشابه در مورد عکس‌های افراد واقعی نیز انجام شود. البته محققان می‌گویند که هدف آن‌ها تسهیل جعل عمیق نیست.

محققان می‌گویند: «ما در حال کاوش در تولید مهارت‌های عاطفی بصری برای شخصیت‌های مجازی و تعاملی هستیم، نه جعل هویت شخصی در دنیای واقعی. این فقط یک نمایش تحقیقاتی است و هیچ محصول یا برنامه‌ای برای انتشار API وجود ندارد.»

در حالی که محققان مایکروسافت از کاربردهای مثبت بالقوه این برنامه یاد می‌کنند، این فناوری همچنین می‌تواند به راحتی مورد سوء استفاده قرار گیرد. به عنوان مثال، می‌تواند به افراد اجازه دهد تا چت‌های ویدیویی جعلی داشته باشند، شبیه افراد دیگر به نظر برسند که چیز‌هایی را می‌گویند که هرگز واقعاً نگفته‌اند، یا اجازه آزار و اذیت با استفاده از یک عکس یک شخص در رسانه‌های اجتماعی را بدهد.

در حال حاضر، ویدیوهای تولید شده هنوز از برخی جهات ناقص به نظر می‌رسد، اما اگر کسی نداند که آنها یک انیمیشن تولید شده با هوش مصنوعی هستند، می‌تواند برای برخی افراد نسبتاً قانع‌کننده باشد. محققان می‌گویند به دلیل همین موضوع، کدی را که مدل را توانمندتر، منتشر نمی‌کنند.

VASA-۱ تنها یک نمایش تحقیقاتی است، اما می‌شود تصور کرد که این قبیل مولدهای ویدئویی علیرغم احتیاطها و پرهیزهای اولیه به زودی یا در میان مدت منبع باز و رایگان در دسترس قرار بگیرند. در آن صورت چه راهبردهایی برای مقابله برای جعل عمیق خواهیم داشت. دنیا به زودی بسیار تغییر خواهد کرد و ما هنوز آماده این همه تحول سریع نیستیم.