فقط یک عکس و یک تکه کوچک از صدای یک شخص را بدهید تا VASA-۱ مایکروسافت، فیلم شخص را در حال حرف زدن یا آواز خواندن برایتان تولید کند – یک پیشرفت یا سوء استفاده در جعل عمیق؟!
تلاشهای تحقیقاتی هوش مصنوعی برای متحرک کردن یک عکس از یک شخص، به چند سال قبل بازمیگردد. در ماه فوریه، یک مدل هوش مصنوعی به نام EMO: Emote Portrait Alive از گروه تحقیقاتی مؤسسه محاسبات هوشمند علی بابا، رویکردی مشابه VASA-۱ داشت. آن برنامه Audio۲Video نامیده شد.
محققان میگویند: «ما در حال کاوش در تولید مهارتهای عاطفی بصری برای شخصیتهای مجازی و تعاملی هستیم، نه جعل هویت شخصی در دنیای واقعی. این فقط یک نمایش تحقیقاتی است و هیچ محصول یا برنامهای برای انتشار API وجود ندارد.»
در حالی که محققان مایکروسافت از کاربردهای مثبت بالقوه این برنامه یاد میکنند، این فناوری همچنین میتواند به راحتی مورد سوء استفاده قرار گیرد. به عنوان مثال، میتواند به افراد اجازه دهد تا چتهای ویدیویی جعلی داشته باشند، شبیه افراد دیگر به نظر برسند که چیزهایی را میگویند که هرگز واقعاً نگفتهاند، یا اجازه آزار و اذیت با استفاده از یک عکس یک شخص در رسانههای اجتماعی را بدهد.
در حال حاضر، ویدیوهای تولید شده هنوز از برخی جهات ناقص به نظر میرسد، اما اگر کسی نداند که آنها یک انیمیشن تولید شده با هوش مصنوعی هستند، میتواند برای برخی افراد نسبتاً قانعکننده باشد. محققان میگویند به دلیل همین موضوع، کدی را که مدل را توانمندتر، منتشر نمیکنند.
VASA-۱ تنها یک نمایش تحقیقاتی است، اما میشود تصور کرد که این قبیل مولدهای ویدئویی علیرغم احتیاطها و پرهیزهای اولیه به زودی یا در میان مدت منبع باز و رایگان در دسترس قرار بگیرند. در آن صورت چه راهبردهایی برای مقابله برای جعل عمیق خواهیم داشت. دنیا به زودی بسیار تغییر خواهد کرد و ما هنوز آماده این همه تحول سریع نیستیم.
این نوشتهها را هم بخوانید