بیایید هوش‌های مصنوعی تولیدکننده عکس را با هم مقایسه کنیم و ببینیم تخیل کدام یک بهتر یا واقع‌گراتر است: مقایسه DALL-E ، Midjourney و Stable Diffusion

۲ شهریور ۱۴۰۱آخرین بروزرسانی: ۱۰ شهریور ۱۴۰۱

زمان تقریبی مطالعه 2 دقیقه

فابیان استلزر اخیراً یک آزمایش مقایسه تصویری بین سه مولد متن به تصویر مبتنی بر هوش مصنوعی (AI) انجام داده است: DALL-E ، Midjourney و Stable Diffusion.

استلزر یافته‌های خود را در توییتر منتشر کرده و در آن فرآیند را توضیح داده. او درخواست متنی یکسانی به هر هوش مصنوعی فرستاده و نسبت تصویر 1:1 را در نظر گرفته تا مقایسه در شرایط یکسان انجام شود.

استلزر می‌گوید که هر برنامه‌ای را که ترکیب‌های تصویر را تبدیل می‌کند، به‌عنوان «ابزار» می‌بیند و هر مولد سبک، لحن و حالت خاص خود را تولید می‌کند.

Midjourney من را به یاد یک سینتی سایزر آنالوگ زیبای Moog می‌اندازد – تقریبا غیرممکن است که از آن صدای بدی خارج بشود و می‌توانید کارهای باورنکردنی با آن انجام دهید، اما در عوض، تنوع آن محدودتر است. خروجی آن مانند اعوجاج‌های آنالوگ هستند و بسیار خوشایند می‌نمایند.

شاید شناخته‌شده‌ترین تولیدکننده تصویر هوش مصنوعی، DALL-E 2، شبیه یک ایستگاه کاری دیجیتالی باشد. تنوع خروجی آن باورنکردنی است، اما تقریباً همیشه کمی بیش از حد دیجیتال به نظر می‌رسد.

Stable Diffusion مانند یک سینت سایزر ماژولار پیچیده است، تقریباً می‌توانید هر صدایی را از آن بگیرید، اما استفاده از آن کمی دشوارتر است.

این آزمایش خلاقانه بینشی از نحوه تفسیر هر مولد تصویر هوش مصنوعی از دستورالعمل‌ها به ما می‌دهد و ما را با سبک هر هوش مصنوعی آشنا می‌کند.

Midjourney نسبت به دو مورد دیگر به طور مداوم احساسی منفی‌گرا دارد. مثل این می‌ماند که وقتی عکس ماه را درخواست می‌کنید، به جای عکس‌های آشنای زیبا از جلوی ماه، یک عکس از پشت ماه به شما تحویل داده شود.

در حالی که DALL-E 2 و Stable Diffusion تصویری به مراتب واقعی‌تری تولید می کنند. پیشنهاد Midjourney حسی آخرالزمانی دارد.

با این حال، به نظر می‌رسد Midjourney قادر به ایجاد یک تصویر فوتورئالیستی نیست، Stable Diffusion در آزمایش به بهترین وجه واقع‌گرا بوده است.

در زمانه عجیبی هستیم و همان طور که قبلا هم برایتان نوشتم از زمان ظهور عکاسی و پیدایش روتوش و ویرایش دیجیتال عکس، چنین تحولی را ندیده بودیم.

تولیدکننده‌های هوشمند تصویر کارهای خلاقانه را متحول می‌کنند. من کم کم با دیدن خروجی‌های آنها یاد فصل جدید وست ورلد می‌افتم، جایی که هنرمند تصویرساز شرکت گیم، کارش تنها تخیل کردن است و هوش مصنوعی بر پایه درخواست‌های کلامی و ویرایش گام به گام خودش تصویرسازی می‌کند.

یعنی ما کم کم داریم وارد عصری می‌شویم که دیگر نیاز نیست کار با قلم‌مو یا نرم‌افزارهای تولید عکس دوبعدی و سه‌بعدی را بلد باشیم، کافی است در ذهن چیزی را تصور کنیم و با هوش مصنوعی گام به گام تصویر ذهنی را متحول کنیم. در این میان هوش مصنوعی این قابلیت را دارد که ایده‌های جدیدی به مغز شما تزریق کند!

کسی چه می‌داند شاید دو سه دهه بعد به سرعت بتوانیم چیزی تعریف کنیم و پیش‌فرض‌هایی را به صورت کلامی به نرم‌افزارهای هوش مصنوعی بدهیم تا به سرعت فیلمی برای ما تولید شود.

آینده شگفت‌انگیز است، گرچه تاب آوردن در دنیای مملو از مصیبت‌های انسانی و محیط زیست نابود شده و بیماری‌های فراگیر سخت است، اما همین چیزها وسوسه‌مان می‌کند که بیشتر تحمل کنیم!