پرواز رویایی به یک عکس دوبعدی! یک برنامه هوش مصنوعی به شما این امکان را می‌دهد که به عکس یک منظره «پرواز» کنید

۱۴ مهر ۱۴۰۱آخرین بروزرسانی: ۲۱ مهر ۱۴۰۱

زمان تقریبی مطالعه 2 دقیقه

گوگل برنامه‌ای ایجاد کرده که بیننده می‌تواند با استفاده از مدل‌های سه‌بعدی با هوش مصنوعی (AI) به یک عکس ثابت «پرواز» کند!

در مقاله جدیدی با عنوان InfiniteNature-Zero، محققان ادعا می‌کنند که می‌توانند کاری کنند که شما مانند یک پرنده به داخل یک عکس ثابت پرواز کنید. این کار را نرم‌افزار هوشمندی‌ای انجام می‌دهد که به لطف یادگیری ماشینی، منظره جعلی ایجاد می‌کند.

کار آسانی نیست. محققان مجبور هستند اطلاعاتی اضافی را که در واقع در عکس موجود نیست، مانند مناطق پنهان در پشت یک تپه یا جنگل را «پر» کنند.

برای این کار نرم‌افزارشان «نقاشی درونی» می‌کند، هوش مصنوعی آنچه را که فکر می‌کند باید در منظره باشد با فرآیند یادگیری ماشینی و استفاده از مجموعه داده‌های عظیم شبیه‌سازی می‌کند.

به طور مشابه، برای به دست آوردن افکت پرواز، هوش مصنوعی باید چیزی را که خارج از مرز‌های عکس است تولید کند. این را “نقاشی بیرونی” نام نهاده‌اند و بسیار شبیه ابزار آگاه از محتوا در فتوشاپ است که در آن هوش مصنوعی تصویر وسیع‌تری را بر اساس عکس اصلی و با کمک یادگیری ژرف ایجاد می‌کند.

همانطور که هر کسی که تا به حال روی یک عکس زوم کرده است می‌داند، کیفیت تصویر به تدریج به صورت پیکسل‌های تار کاهش می‌یابد. برای جلوگیری از این اتفاق، گوگل از «سوپر رزولوشن» استفاده می‌کند، فرآیندی که در آن هوش مصنوعی یک تصویر پیکسلی شده را به یک تصویر واضح تبدیل می‌کند.

پس این برنامه که محققان آن را «تسلسل دائمی صحنه‌های طبیعی از تصاویر منفرد» نامیدند، این سه تکنیک را ترکیب می‌کند: نقاشی درونی، نقاشی بیرونی و وضوح فوق‌العاده برای ایجاد افکت پرواز.

در تلاش‌های قبلی محققان، تصویر تقریباً بلافاصله با پرواز بیننده از بین می‌رود. اما در آخرین مقاله پژوهشگران Google Research، دانشگاه کرنل و دانشگاه برکلی اختصاص دارد، تصویر بسیار بهتر و برای مدت طولانی‌تری حفظ می‌شود. البته هنوز با کمال فاصله دارند، اما بسیار قابل توجه هستند.

در نسخه قدیم ، سازنده‌های دید دائمی قبلی توسط فیلم‌های پهپادی واقعی آموزش می‌دیدند، در حالی که این نمونه‌های جدید تنها عکس‌های منفرد از مناظر را به عوان پایگاه اطلاعات داشتند.

تیم هوش مصنوعی گوگل از میدان‌های تابشی عصبی Neural Radiance Fields (NeRF) استفاده می‌کند که قبلاً به محققان اجازه می‌داد مدل‌های سه‌بعدی دقیقی از مکان‌های دنیای واقعی بسازند و نویز تصاویر را بگیرند و به طور مؤثری کاربر را قادر به «دیدن در تاریکی» کند.

با این حال، برنامه‌های فوق به یک حافظه پنهان بزرگ از تصاویر مکانی که تولید می‌کردند متکی بودند، در حالی که مولد نمای دائمی جدید فقط به یک تصویر نیاز دارد.

در اوایل سال جاری، هم آزمایشگاه‌های سامسونگ راهی برای ایجاد آواتار‌های با وضوح بالا یا دیپ‌فیک از یک عکس با فریم ثابت به نام MegaPortraits توسعه داده بودند.

این پست را که می‌نوشتم نمی‌دانم چرا یاد فیلم What Dreams May Come رابین ویلیامز افتادم.