بیایید هوشهای مصنوعی تولیدکننده عکس را با هم مقایسه کنیم و ببینیم تخیل کدام یک بهتر یا واقعگراتر است: مقایسه DALL-E ، Midjourney و Stable Diffusion
فابیان استلزر اخیراً یک آزمایش مقایسه تصویری بین سه مولد متن به تصویر مبتنی بر هوش مصنوعی (AI) انجام داده است: DALL-E ، Midjourney و Stable Diffusion.
استلزر یافتههای خود را در توییتر منتشر کرده و در آن فرآیند را توضیح داده. او درخواست متنی یکسانی به هر هوش مصنوعی فرستاده و نسبت تصویر 1:1 را در نظر گرفته تا مقایسه در شرایط یکسان انجام شود.
استلزر میگوید که هر برنامهای را که ترکیبهای تصویر را تبدیل میکند، بهعنوان «ابزار» میبیند و هر مولد سبک، لحن و حالت خاص خود را تولید میکند.
Midjourney من را به یاد یک سینتی سایزر آنالوگ زیبای Moog میاندازد – تقریبا غیرممکن است که از آن صدای بدی خارج بشود و میتوانید کارهای باورنکردنی با آن انجام دهید، اما در عوض، تنوع آن محدودتر است. خروجی آن مانند اعوجاجهای آنالوگ هستند و بسیار خوشایند مینمایند.
شاید شناختهشدهترین تولیدکننده تصویر هوش مصنوعی، DALL-E 2، شبیه یک ایستگاه کاری دیجیتالی باشد. تنوع خروجی آن باورنکردنی است، اما تقریباً همیشه کمی بیش از حد دیجیتال به نظر میرسد.
Stable Diffusion مانند یک سینت سایزر ماژولار پیچیده است، تقریباً میتوانید هر صدایی را از آن بگیرید، اما استفاده از آن کمی دشوارتر است.
این آزمایش خلاقانه بینشی از نحوه تفسیر هر مولد تصویر هوش مصنوعی از دستورالعملها به ما میدهد و ما را با سبک هر هوش مصنوعی آشنا میکند.
Midjourney نسبت به دو مورد دیگر به طور مداوم احساسی منفیگرا دارد. مثل این میماند که وقتی عکس ماه را درخواست میکنید، به جای عکسهای آشنای زیبا از جلوی ماه، یک عکس از پشت ماه به شما تحویل داده شود.
در حالی که DALL-E 2 و Stable Diffusion تصویری به مراتب واقعیتری تولید می کنند. پیشنهاد Midjourney حسی آخرالزمانی دارد.
با این حال، به نظر میرسد Midjourney قادر به ایجاد یک تصویر فوتورئالیستی نیست، Stable Diffusion در آزمایش به بهترین وجه واقعگرا بوده است.
در زمانه عجیبی هستیم و همان طور که قبلا هم برایتان نوشتم از زمان ظهور عکاسی و پیدایش روتوش و ویرایش دیجیتال عکس، چنین تحولی را ندیده بودیم.
تولیدکنندههای هوشمند تصویر کارهای خلاقانه را متحول میکنند. من کم کم با دیدن خروجیهای آنها یاد فصل جدید وست ورلد میافتم، جایی که هنرمند تصویرساز شرکت گیم، کارش تنها تخیل کردن است و هوش مصنوعی بر پایه درخواستهای کلامی و ویرایش گام به گام خودش تصویرسازی میکند.
یعنی ما کم کم داریم وارد عصری میشویم که دیگر نیاز نیست کار با قلممو یا نرمافزارهای تولید عکس دوبعدی و سهبعدی را بلد باشیم، کافی است در ذهن چیزی را تصور کنیم و با هوش مصنوعی گام به گام تصویر ذهنی را متحول کنیم. در این میان هوش مصنوعی این قابلیت را دارد که ایدههای جدیدی به مغز شما تزریق کند!
کسی چه میداند شاید دو سه دهه بعد به سرعت بتوانیم چیزی تعریف کنیم و پیشفرضهایی را به صورت کلامی به نرمافزارهای هوش مصنوعی بدهیم تا به سرعت فیلمی برای ما تولید شود.
آینده شگفتانگیز است، گرچه تاب آوردن در دنیای مملو از مصیبتهای انسانی و محیط زیست نابود شده و بیماریهای فراگیر سخت است، اما همین چیزها وسوسهمان میکند که بیشتر تحمل کنیم!