فناوری جدید انویدیا می‌تواند مجموعه‌ای از عکس‌ها را در چند ثانیه به صحنه‌های سه بعدی تبدیل کند

۵ فروردین ۱۴۰۱آخرین بروزرسانی: ۹ فروردین ۱۴۰۱

زمان تقریبی مطالعه 3 دقیقه

تصور کنید که چند عکس پی در پی از شخص یا منظره‌ای با فاصله کوتاه از چند زاویه داشته باشید و بعد آرزو کرده باشید که در آن هنگام به جای عکس، ویدئویی می‌گرفتید. فناوری جدید آمده که این آرزو را برآورده می‌کند:

Instant NeRF انویدیا یک مدل رندر عصبی است که می‌تواند یک صحنه سه بعدی را از ورودی داده‌های دوبعدی در چند ثانیه تولید کند.

این فرآیند به عنوان رندر معکوس شناخته می‌شود و در آن هوش مصنوعی به صورت تقریبی، نحوه رفتار نور در دنیای واقعی را برآورد می‌کند و می‌توان از آن برای تبدیل مجموعه‌ای از تصاویر ثابت به یک صحنه دیجیتال سه بعدی در چند ثانیه استفاده کرد.

حالا تیم تحقیقاتی انویدیا رویکردی را توسعه داده است که کار را با سرعت بسیار زیادی، تقریبا بی‌درنگ- انجام می‌دهد. به این ترتیب این فناوری به یکی از اولین مدل‌های در نوع خود تبدیل می‌شود که می‌تواند آموزش شبکه عصبی فوق سریع و رندر سریع را با هم ارائه دهد.

NeRF چیست؟

نام “NeRF” مخفف میدان‌های درخشندگی عصبی یا neural radiance fields یا روشی برای ترکیب نما‌های جدید از صحنه‌های پیچیده با بهینه‌سازی یک تابع صحنه حجمی پیوسته زیربنایی با استفاده از مجموعه‌ای پراکنده از نما‌های ورودی است! (عجیب توضیحی شد!)

NVIDIA این توضیح را ساده می‌کند و می‌گوید که NeRF‌ها از شبکه‌های عصبی برای نمایش و ارائه صحنه‌های سه بعدی بر اساس مجموعه ورودی از تصاویر دو بعدی استفاده می‌کنند.

شبکه عصبی به چند ده تصویر گرفته شده از موقعیت‌های مختلف در اطراف صحنه و همچنین موقعیت دوربین هر یک از آن عکس‌ها نیاز دارد.

«در صحنه‌ای که شامل افراد یا سایر عناصر متحرک است، هر چه سریع‌تر این عکس‌ها گرفته شود، بهتر است. » انویدیا می‌گوید: «اگر حرکت بیش از حد در فرآیند ثبت تصویر دوبعدی وجود داشته باشد، صحنه سه‌بعدی تولید شده توسط هوش مصنوعی تار می‌شود. »

با این اطلاعات، NeRF اساساً جا‌های خالی را پر می‌کند تا با پیش بینی رنگ نوری که در هر جهت از هر نقطه‌ای در فضای سه بعدی تابش می‌شود، صحنه کامل را ایجاد کند.

نسخه NVIDIA به قدری سریع کار می‌کند که تقریباً آنی است و می‌تواند یک صحنه 3 بعدی حاصل را در عرض چند میلی ثانیه پس از ارائه ورودی‌های صحیح ارائه دهد.

دیوید لوبکه، معاون تحقیقات گرافیکی در NVIDIA، می‌گوید: « Instant NeRF می‌تواند به همان اندازه که دوربین‌های دیجیتال و فشرده‌سازی JPEG برای عکاسی دوبعدی مهم بوده‌اند، برای سه‌بعدی سازی مهم باشد و سرعت، سهولت و دسترسی به عکس‌برداری و اشتراک‌گذاری سه‌بعدی را افزایش می‌دهد. »

NVIDIA می‌گوید که Instant NeRF می‌تواند برای ایجاد آواتار یا حتی صحنه‌های کامل برای دنیای مجازی استفاده شود. برای ادای احترام به روز‌های اولیه تصاویر پولاروید، تیم تحقیقاتی NVIDIA یک عکس نمادین از اندی‌وارهول را در حال گرفتن عکس فوری بازسازی کردند و آن را با استفاده از Instant NeRF به یک صحنه سه بعدی تبدیل کردند.

1000 بار سریعتر

قبل از NeRF، ایجاد یک صحنه سه بعدی بسته به پیچیدگی و وضوح ساعت‌ها طول می‌کشید. اضافه کردن هوش مصنوعی به معادله مطمئناً کار‌ها را سرعت می‌بخشد، اما هنوز هم ممکن است ساعت‌ها طول بکشد تا به درستی آموزش داده شود.

Instant NeRF زمان‌های رندر را با استفاده از تکنیک توسعه‌یافته توسط NVIDIA به نام رمزگذاری شبکه‌ای با وضوح چندگانه، ۱۰۰۰ ضریب کاهش می‌دهد. این مدل با استفاده از NVIDIA CUDA Toolkit و کتابخانه شبکه‌های عصبی Tiny CUDA توسعه یافته است.

NVIDIA توضیح می‌دهد که از آنجایی که یک شبکه عصبی سبک وزن است، می‌توان آن را آموزش داد و روی یک واحد پردازش گرافیکی NVIDIA (آن‌هایی که سریع‌ترین کار را روی کارت‌هایی با هسته‌های تانسور NVIDIA اجرا می‌کنند) اجرا کرد.

«این فناوری می‌تواند برای آموزش ربات‌ها و اتومبیل‌های خودران برای درک اندازه و شکل اشیاء واقعی با گرفتن تصاویر دوبعدی یا فیلم‌برداری ویدیویی از آن‌ها استفاده شود». همچنین می‌تواند در معماری و سرگرمی برای تولید سریع بازنمایی‌های دیجیتالی از محیط‌های واقعی استفاده شود .

ویدئوی این فناوری را ببینید: