بهترین تولیدکننده‌های تصویر با هوش مصنوعی در سال 2023

۱۹ دی ۱۴۰۱آخرین بروزرسانی: ۲۹ دی ۱۴۰۱

زمان تقریبی مطالعه 9 دقیقه

چه آنها را دوست داشته باشید یا نه، تولید کننده‌های تصویر هوش مصنوعی (AI) از سال میلادی پیش محبوبیت زیادی پیدا کرده‌اند و این فناوری پیوسته پیشرفت می‌کند و همگانی و روتین می‌شود.

در آغاز سال 2022، تقریباً هیچ مولد متن به تصویر هوش مصنوعی در دسترس عموم نبود، اما DALL-E سرانجام در ماه جولای در نسخه بتا در دسترس قرار گرفت و Stable Diffusion یک ماه بعد منتشر شد، اکنون ناگهان مجموعه‌ای از تولیدکنندگان تصویر هوش مصنوعی در حال رقابت برای تبدیل شدن به بهترین نرم افزار بازار هستند.

بنابراین اگر در مورد اینکه در سال 2023 از کدام یک از مولدهای تصویر هوش مصنوعی استفاده کنید، سردرگم هستید، این راهنمای کاملی برای بهترین گزینه‌های موجود است.

DALL-E 2

محصول آزمایشگاه تحقیقاتی OpenAI که توسط ایلان ماسک تأسیس شده، که ما به سادگی از آن به عنوان DALL-E یاد می‌کنیم، نرم افزاری است که بیشتر کسانی که جسته و گریخته هم اخبار فناوری را دنبال می‌کنند، آن را می‌شناسند.

وقتی DALL-E در ماه آوریل راه اندازی شد، رسانه‌های اجتماعی را با توانایی خود در تبدیل یک توضیح متنی کوتاه به یک تصویر واقعی شگفت زده کرد.

برای معدود افرادی که دسترسی ممتاز به ابزار بسته شده داشتند، DALL-E آنقدر استثنایی بود که تقریباً شبیه جادو بود، چه شامل ایجاد تصاویری از “یک فضانورد راکون که بازتاب کیهان روی شیشه کلاهش مشخص بود” یا ” خرس‌های عروسکی در حال خرید مواد غذایی در مصر باستان!»، هر فرمان صوتی توسط آن پاسخی تصویری داشت.

از آن زمان، DALL-E به عنوان پیشروترین تولیدکننده متن به تصویر هوش مصنوعی در دسترس مشهور شده.

DALL-E به هیچ وجه تنها نرم افزار یادگیری ماشینی نیست که می تواند تصویر تولید کند. پس شهرت بی نظیر مولد هوش مصنوعی چیست؟

اول از همه، این واقعیت که تصاویری که DALL-E ایجاد می کند از نظر دیداری جذاب هستند و یکی از دلایل کلیدی موفقیت آن همین است. در حالی که سایر تولیدکننده‌های تصویر هوش مصنوعی اغلب آثار هنری با تم آخرالزمانی تولید می‌کنند، Dall-E تصاویری می‌سازد که به‌طور تکان‌دهنده‌ای واقع‌گرایانه هستند و از نظر زیبایی‌شناختی برای سازندگانی که از قبل حس هنری دقیقی دارند، بسیار دلپذیرتر هستند.

این نرم‌افزار اولین نرم‌افزاری بود که به کاربران امکان کنترل فوق‌العاده بر سبک، موضوع و ویژگی‌های تصاویر دیجیتالی که ایجاد می‌کرد را می‌داد، حتی به کاربران اجازه می‌داد لنز و دیافراگم را در عکس‌های تولیدشده با هوش مصنوعی کنترل کنند. به نظر می‌رسید این فناوری امکانات بی‌پایانی را در زمینه ایجاد تصویر فراهم می‌کند.

DALL-E همچنین با توانایی قابل توجه خود در درک پیام‌های متنی بهتر از هر نرم افزار پیشین خود بود و کاربران را غافلگیر کرد. این به خاطر این واقعیت است که DALL-E از GPT-3 متعلق به OpenAI استفاده می کند که مسلماً پیشرفته‌ترین الگوریتم یادگیری ماشینی زبان طبیعی است.

تازه می‌توان تصاویر دریافتی را تغییر را به سادگی در DALL-E تغییر داد و با ارائه یک عکس دیگر، تحریکش کرد به همان سبک، تولید کند. در پاسخ به تصویر ارائه شده، DALL-E یک سری تصاویر اضافی تولید می کند که زیبایی شناسی و موضوع اصلی را منعکس می‌کند.

گرگوری کرودسون، لباسشویی در آخر شب مه آلود، نئون – تولید شده توسط DALL-E 2

ویرایش‌های دیگر هم ممکن هستند: می‌توانید عکسی بدهید و از DALL-E بخواهید که یک «بچه فیل در حال حمام کردن» را به عکسی از آب اضافه کند، یک کفشدوزک خارج از فوکوس را واضح کند ، یک شی را در یک تصویر حذف کند یا «آن را در حالت شب بسازد». فناوری هوش مصنوعی حتی چیزهایی مانند انعکاس‌ها را درک می کند و در هنگام ویرایش آنها را اصلاح می‌کند.

DALL-E فقط خروجی‌های مربعی تولید می کند. اما با استفاده از ویژگی ویرایش جدید آن “Outpainting” ، می توانید یک تصویر را فراتر از محدوده اصلی آن گسترش دهید. Outpainting به کاربران این امکان را می‌دهد که تصویر را توسعه دهند.

ویرایش تابلوی دختری با گوشواره مروارید اثر یوهانس ورمیر – همان طور که می‌بینید از چپ و راست توسعه یافته.

تصویر «همستری در حال خوردن پیتزا در ساحل هاوایی» که توسط DALL-E تولید شده است

هر حساب DALL-E 2 50 اعتبار رایگان برای استفاده در سیستم و 15 اعتبار دیگر در هر ماه دریافت می‌کند.

OpenAI صراحتاً می‌گوید که کاربران «حقوق کاملی برای تجاری‌سازی تصاویری که با DALL-E ایجاد می‌کنند، از جمله حق چاپ مجدد، فروش و کالا دریافت می‌کنند»، اگرچه مسلماً این هنوز یک منطقه خاکستری قانونی است. این شرکت DALL-E 2 را طوری طراحی کرده است که از ایجاد تصاویری از افراد مشهور یا چهره های عمومی خودداری کند. این سیستم همچنین هیچ محتوای صریح، ترسناک یا سیاسی تولید نخواهد کرد.

نحوه شروع : ثبت نام در DALL-E 2

Stable Diffusion

Stable Diffusion که توسط StabilityAI و با همکاری EleutherAI و LAION توسعه یافته است، یک تولیدکننده تصویر هوش مصنوعی عالی برای کسانی است که می‌خواهند فی الفور شروع به خلق هنر دیجیتال خود کنند.

چیزی که Stable Diffusion را خاص می کند، شفافیت آن است. این شرکت کد منبع Stable Diffusion را تحت مجوز Creative ML OpenRAIL-M در دسترس قرار داده است. این در تضاد کامل با مدل های رقیب مانند DALL-E است.

از آنجایی که Stable Diffusion منبع باز است، کاربران قبلاً شروع به بهبود و ساخت کد اصلی کرده‌اند. ده‌ها مخزن با ویژگی‌ها و بهینه‌سازی‌های مختلف برای آن وجود دارد. یک کاربر Reddit حتی با موفقیت یک افزونه فتوشاپ برای Stable Diffusion ایجاد کرد. همچنین یک افزونه برای Krita در دسترس است.

اگر به دنبال نسخه اصلی Stable Diffusion هستید، می توانید نرم افزار را روی رایانه خود اجرا کنید یا می توانید به نسخه بتا رابط وب در Dream Studio دسترسی داشته باشید .

لباسشویی آخر شب، مه آلود، نئون» تولید شده توسط Stable Diffusion

نسخه بتای Stable Diffusion می‌تواند تصاویر واقعی 512×512 پیکسل تولید کند. مانند DALL-E، می توانید یک پیام متنی را تایپ کنید و سیستم یک تصویر تولید می‌کند. علاوه بر این، می‌تواند با استفاده از یک تصویر آپلود شده همراه با توضیحات نوشته شده، آثار هنری فوتورئالیستی تولید کند.

برای آموزش Stable Diffusion از 4000 پردازنده گرافیکی Nvidia A100 و گونه‌ای از مجموعه داده LAION-5B استفاده کرد. بنابراین Stable Diffusion قادر به تولید تصاویر فوق‌العاده خلاقانه از افراد مشهور ، شخصیت‌های کارتونی و شخصیت‌های عمومی است که OpenAI با DALL-E 2 اجازه نمی‌دهد.

تصویر “برد پیت در جنگل” توسط Stable Diffusion

کیفیت تصاویر تولید شده در Stable Diffusion به ظاهر می‌تواند بسیار چشمگیر باشد. در پستی که اکنون در شبکه اجتماعی ردیت همه‌گیر شده، کاربری ادعا کرد که از یک پیام متنی ترکیب شده با یک طرح برای ایجاد تصویری فوق واقعی از یک کلانشهر آینده‌نگر استفاده کرده.

با این حال، به نظر نمی‌رسد فعلا Stable Diffusion بر DALL-E مسلط شود و نسخه بتای ان به اندازه رقبایش پیشرفته نیست. برای ایجاد تصویر دلخواهتان، درست کردن توازن تصویر و کلمه‌سازی صحیح متن لازم است.

تصویر «همستری در حال خوردن پیتزا در ساحل هاوایی» که توسط Stable Diffusion تولید شده

استفاده از Stable Diffusion

میدجرنی – Midjourney

Midjourney هم به عنوان یکی از محبوب‌ترین و شناخته‌شده‌ترین تولیدکننده‌های متن به تصویر با هوش مصنوعی در جهان است.

زمانی که یکی از کاربران با استفاده از تصویری که با این نرم‌افزار خلق کرده بود، در مسابقه هنرهای زیبا برنده شد، میدجرنی خبرساز شد.

تصویر “مردی که با دوربین دیجیتال عکس می گیرد” که توسط Midjourney تولید شده

Midjourney از طریق یک سرور Discord اداره می‌شود و از دستورات ربات Discord برای تولید تصاویر با کیفیت بالا در سبکی خاص هنری استفاده می کند. کاربران می توانند یک پیام متنی برای ایجاد تصاویر واضح و خیره کننده ای وارد کنند که به نظر می‌رسد همیشه کیفیت آخرالزمانی یا وهم انگیزی برای آنها دارد.

برخلاف DALL-E، میدجرمی تصاویری از افراد مشهور و چهره های عمومی تولید می کند. کاربران Discord اغلب از این نرم افزار برای تجسم تخیلی بازیگران مورد علاقه خود در نقش های فیلم خاص استفاده می کنند.

تصویر «برد پیت در جنگل» که توسط Midjourney ساخته شده

ایجاد تصاویر «واقعی» در Midjourney تقریبا غیرممکن باشد. ولی باید در نظر بگیرید که این سیستم هرگز برای ایجاد تصاویری با ظاهر واقعی طراحی نشده است و این بخش مهمی از فلسفه Midjourney به عنوان یک تولید کننده هوش مصنوعی است.

دیوید هولز، بنیانگذار Midjourney گفته است: «ما یک سبک و ظاهر پیش فرض داریم، و خروجی‌های نرم‌افزارمان هنری و زیبا است، و دور کردن [مدل] از آن سخت است . شاید اگر 100 ساعت تلاش کنید، بتوانید ترکیب درستی از کلمات را پیدا کنید که آن را واقعاً واقع گرایانه نشان دهد، اما باید واقعاً سخت کار کنید تا آن را شبیه عکس کنید.»

تصویر «گرگوری کرودسون، رختشویخانه آخر شب، مه آلود، نئون» تولید شده توسط Midjourney

یک نقطه ضعف Midjourney این است که باید از سرور Discord برای قرار دادن یک پیام متنی استفاده کنید که درک آن در ابتدا برای کاربرای که درکی از دیسکورد ندارد، دشوار است.

اما در عوض میدچرنی “تجربه اجتماعی” خوبی در اختیار قرار می‌دهد. یعنی شما می‌توانید آثار هنری دیگر کاربران در حالی که منتظر بارگذاری تصویر خود در Midjourney هستید، مرور کنید.

برای تولید آثار هنری در Midjourney، باید به کانالی در Discord بروید، برای مثال #Newbies-126.

از آنجا،در دستور /imagine را در کانال Discord تایپ باید کنید. بعد متنی در مورد چیزی که می‌خواهید بنویسید.

تصویر «همستر پیتزا در حال خوردن در ساحل هاوایی» که توسط Midjourney تهیه شده

بر اساس سه قانون سرور Midjourney هنگام ایجاد آثار هنری عبارتند از: “استفاده نادرست از تصاویر کنید، از ربات برای تولید محتوای نامناسب استفاده نکنید و به همه احترام بگذارید.”

25 تصویر اول در Midjourney رایگان هستند و سپس 10 دلار در ماه برای 200 تصویر بعدی باید بدهید

نسخه بتای Midjourney

Craiyon (قبلاً DALL-E mini)

Craiyon که قبلاً DALL-E mini نامیده می شد ، یکی دیگر از تولیدکنند‌های تصویر هوش مصنوعی است که به صورت آنلاین در دسترس است.

Craiyon علیرغم اینکه قبلاً DALL-E mini نامیده می شد، هیچ ارتباطی با Open AI ندارد، به جز اینکه از حجم زیادی از اطلاعات در دسترس عموم که OpenAI در مدل خود ارائه کرده، استفاده می‌کند.

تصویر “مردی که با دوربین دیجیتال عکس می گیرد -توسط کرایون تهیه شده

برخلاف DALL-E، کرایون برای استفاده کاملا رایگان است و از طریق وب سایت خود برای همه قابل دسترسی است. تنها کاری که باید انجام دهید این است که یک پیام متنی وارد کنید و Craiyon حدود دو دقیقه طول می‌کشد تا تصاویر را از نسخه نمایشی وب تعاملی ایجاد کند.

یکی دیگر از تفاوت‌های کلیدی بین DALL-E و Craiyon این است که نرم افزار به هیچ وجه سانسور نمی‌شود، به این معنی که هر درخواستی توسط تولید کننده هوش مصنوعی پذیرفته می‌شود. همچنین می‌توانید درخواست کنید که تصویر به سبک خاصی نیز ایجاد شود.

تصویر “گرگوری کرودسون، رختشویخانه آخر شب، مه آلود، نئون” تولید شده توسط کرایون

Craiyon که توسط مهندس نرم‌افزار بوریس دیما ساخته شده، از نظر کیفیت تصویر با DALL-E و سایر رقبا مبارزه می‌کند.

تصویر «برد پیت در جنگل» که توسط کرایون ساخته شده است

اگر از کیفیت بد چهره در مثال بالا زده شده‌اید، باید بگوییم که این بدان معنا نیست که Craiyon قادر به چهره‌سازی نیست، بلکه نیاز به کار و تلاش زیادی از طرف کاربر دارد. برخی از کاربران Craiyon دریافته‌اند که نوشتن متن‌های طولانی و دقیق، فهرست کردن اندازه و مکان هر قسمت از صورت، به ایجاد چهره‌های بهتر در آثار هنری آنها کمک کرده است.

تصویر «همستر پیتزا در حال خوردن در ساحل هاوایی» که توسط کرایون تهیه شده

اگرچه ممکن است Craiyon پیشرفته‌ترین سیستم نباشد، اما Craiyon یک مولد تصویر هوش مصنوعی بدون فیلتر و سرگرم‌کننده است که هر کسی می‌تواند به راحتی به آن دسترسی داشته باشد.

تیک تاک

TikTok یک تولید کننده تصویر پایه هوش مصنوعی راه اندازی کرده که کاربران می‌توانند از آن برای ایجاد صفحه سبز سفارشی برای ویدیوهای خود استفاده کنند.

جلوه ویژه جدید پلتفرم ویدیویی « AI Greenscreen» نام دارد و به کاربران تیک تاک اجازه می‌دهد تا یک پیام متنی را تایپ کنند تا نرم‌افزار تصویری بر اساس آن تولید کند.

صفحات سبز تولید شده توسط ابزار هوش مصنوعی TikTok

با این حال، مولد اصلی متن به تصویر آم بسیار متفاوت از امثال DALL-E 2 و Midjourney است، زیرا به نظر می‌رسد که فقط تصاویر انتزاعی تولید می‌کند.

فعلا تیک تاک موفقیتی به اندازه رقبای خود نداشته. اما توجه تیک تاک به این عرصه نشان‌دهنده اهمیت بالای آن است.

کافه شبانه هوش مصنوعی یا Nightcafe AI

استودیو کافه شبانه به شما امکان می‌دهد عکس‌هایی در سبک‌های مختلف تولید کنید و جلوه‌های از پیش تعیین شده مختلفی را ارائه می‌دهد که از سبک کیهانی گرفته تا نقاشی رنگ روغن و موارد دیگر متفاوت است.

این نرم‌افزار نام خود را از نقاشی ونسان ون گوگ گرفته و این نام ملهم از این تابلوی مشهور است.

این پلتفرم برای افراد تازه کار آسان است و به دلیل داشتن الگوریتم‌ها و گزینه‌های بیشتری جذابیت دارد.

هنرمندان می توانند «وزن» و بار معنایی یک کلمه را در یک درخواست با افزودن اصلاح کننده‌ها در “حالت پیشرفته” تنظیم کنند. در این گزینه، شما همچنین می‌توانید نسبت تصویر، کیفیت و زمان اجریا هنر دیجیتال را قبل از اینکه NightCafe AI شروع به کار کند، کنترل کنید. هر اثر هنری که قبلا ایجاد شده باشد می‌تواند تکامل یابد تا ویژگی‌های تازه‌ای به آن افزوده شود.

هنگام ثبت نام در NightCafe، کاربر پنج اعتبار رایگان دریافت می کند. و در هر نیمه شب پنج اعتبار دیگر دریافت می‌کند. برای استفاده بیشتر باید حق اشتراک پرداخت کنید.