بهترین تولیدکنندههای تصویر با هوش مصنوعی در سال 2023
چه آنها را دوست داشته باشید یا نه، تولید کنندههای تصویر هوش مصنوعی (AI) از سال میلادی پیش محبوبیت زیادی پیدا کردهاند و این فناوری پیوسته پیشرفت میکند و همگانی و روتین میشود.
در آغاز سال 2022، تقریباً هیچ مولد متن به تصویر هوش مصنوعی در دسترس عموم نبود، اما DALL-E سرانجام در ماه جولای در نسخه بتا در دسترس قرار گرفت و Stable Diffusion یک ماه بعد منتشر شد، اکنون ناگهان مجموعهای از تولیدکنندگان تصویر هوش مصنوعی در حال رقابت برای تبدیل شدن به بهترین نرم افزار بازار هستند.
بنابراین اگر در مورد اینکه در سال 2023 از کدام یک از مولدهای تصویر هوش مصنوعی استفاده کنید، سردرگم هستید، این راهنمای کاملی برای بهترین گزینههای موجود است.
DALL-E 2
محصول آزمایشگاه تحقیقاتی OpenAI که توسط ایلان ماسک تأسیس شده، که ما به سادگی از آن به عنوان DALL-E یاد میکنیم، نرم افزاری است که بیشتر کسانی که جسته و گریخته هم اخبار فناوری را دنبال میکنند، آن را میشناسند.
وقتی DALL-E در ماه آوریل راه اندازی شد، رسانههای اجتماعی را با توانایی خود در تبدیل یک توضیح متنی کوتاه به یک تصویر واقعی شگفت زده کرد.
برای معدود افرادی که دسترسی ممتاز به ابزار بسته شده داشتند، DALL-E آنقدر استثنایی بود که تقریباً شبیه جادو بود، چه شامل ایجاد تصاویری از “یک فضانورد راکون که بازتاب کیهان روی شیشه کلاهش مشخص بود” یا ” خرسهای عروسکی در حال خرید مواد غذایی در مصر باستان!»، هر فرمان صوتی توسط آن پاسخی تصویری داشت.
از آن زمان، DALL-E به عنوان پیشروترین تولیدکننده متن به تصویر هوش مصنوعی در دسترس مشهور شده.
DALL-E به هیچ وجه تنها نرم افزار یادگیری ماشینی نیست که می تواند تصویر تولید کند. پس شهرت بی نظیر مولد هوش مصنوعی چیست؟
اول از همه، این واقعیت که تصاویری که DALL-E ایجاد می کند از نظر دیداری جذاب هستند و یکی از دلایل کلیدی موفقیت آن همین است. در حالی که سایر تولیدکنندههای تصویر هوش مصنوعی اغلب آثار هنری با تم آخرالزمانی تولید میکنند، Dall-E تصاویری میسازد که بهطور تکاندهندهای واقعگرایانه هستند و از نظر زیباییشناختی برای سازندگانی که از قبل حس هنری دقیقی دارند، بسیار دلپذیرتر هستند.
این نرمافزار اولین نرمافزاری بود که به کاربران امکان کنترل فوقالعاده بر سبک، موضوع و ویژگیهای تصاویر دیجیتالی که ایجاد میکرد را میداد، حتی به کاربران اجازه میداد لنز و دیافراگم را در عکسهای تولیدشده با هوش مصنوعی کنترل کنند. به نظر میرسید این فناوری امکانات بیپایانی را در زمینه ایجاد تصویر فراهم میکند.
DALL-E همچنین با توانایی قابل توجه خود در درک پیامهای متنی بهتر از هر نرم افزار پیشین خود بود و کاربران را غافلگیر کرد. این به خاطر این واقعیت است که DALL-E از GPT-3 متعلق به OpenAI استفاده می کند که مسلماً پیشرفتهترین الگوریتم یادگیری ماشینی زبان طبیعی است.
تازه میتوان تصاویر دریافتی را تغییر را به سادگی در DALL-E تغییر داد و با ارائه یک عکس دیگر، تحریکش کرد به همان سبک، تولید کند. در پاسخ به تصویر ارائه شده، DALL-E یک سری تصاویر اضافی تولید می کند که زیبایی شناسی و موضوع اصلی را منعکس میکند.
گرگوری کرودسون، لباسشویی در آخر شب مه آلود، نئون – تولید شده توسط DALL-E 2
ویرایشهای دیگر هم ممکن هستند: میتوانید عکسی بدهید و از DALL-E بخواهید که یک «بچه فیل در حال حمام کردن» را به عکسی از آب اضافه کند، یک کفشدوزک خارج از فوکوس را واضح کند ، یک شی را در یک تصویر حذف کند یا «آن را در حالت شب بسازد». فناوری هوش مصنوعی حتی چیزهایی مانند انعکاسها را درک می کند و در هنگام ویرایش آنها را اصلاح میکند.
DALL-E فقط خروجیهای مربعی تولید می کند. اما با استفاده از ویژگی ویرایش جدید آن “Outpainting” ، می توانید یک تصویر را فراتر از محدوده اصلی آن گسترش دهید. Outpainting به کاربران این امکان را میدهد که تصویر را توسعه دهند.
ویرایش تابلوی دختری با گوشواره مروارید اثر یوهانس ورمیر – همان طور که میبینید از چپ و راست توسعه یافته.
تصویر «همستری در حال خوردن پیتزا در ساحل هاوایی» که توسط DALL-E تولید شده است
هر حساب DALL-E 2 50 اعتبار رایگان برای استفاده در سیستم و 15 اعتبار دیگر در هر ماه دریافت میکند.
OpenAI صراحتاً میگوید که کاربران «حقوق کاملی برای تجاریسازی تصاویری که با DALL-E ایجاد میکنند، از جمله حق چاپ مجدد، فروش و کالا دریافت میکنند»، اگرچه مسلماً این هنوز یک منطقه خاکستری قانونی است. این شرکت DALL-E 2 را طوری طراحی کرده است که از ایجاد تصاویری از افراد مشهور یا چهره های عمومی خودداری کند. این سیستم همچنین هیچ محتوای صریح، ترسناک یا سیاسی تولید نخواهد کرد.
نحوه شروع : ثبت نام در DALL-E 2
Stable Diffusion
Stable Diffusion که توسط StabilityAI و با همکاری EleutherAI و LAION توسعه یافته است، یک تولیدکننده تصویر هوش مصنوعی عالی برای کسانی است که میخواهند فی الفور شروع به خلق هنر دیجیتال خود کنند.
چیزی که Stable Diffusion را خاص می کند، شفافیت آن است. این شرکت کد منبع Stable Diffusion را تحت مجوز Creative ML OpenRAIL-M در دسترس قرار داده است. این در تضاد کامل با مدل های رقیب مانند DALL-E است.
از آنجایی که Stable Diffusion منبع باز است، کاربران قبلاً شروع به بهبود و ساخت کد اصلی کردهاند. دهها مخزن با ویژگیها و بهینهسازیهای مختلف برای آن وجود دارد. یک کاربر Reddit حتی با موفقیت یک افزونه فتوشاپ برای Stable Diffusion ایجاد کرد. همچنین یک افزونه برای Krita در دسترس است.
اگر به دنبال نسخه اصلی Stable Diffusion هستید، می توانید نرم افزار را روی رایانه خود اجرا کنید یا می توانید به نسخه بتا رابط وب در Dream Studio دسترسی داشته باشید .
لباسشویی آخر شب، مه آلود، نئون» تولید شده توسط Stable Diffusion
نسخه بتای Stable Diffusion میتواند تصاویر واقعی 512×512 پیکسل تولید کند. مانند DALL-E، می توانید یک پیام متنی را تایپ کنید و سیستم یک تصویر تولید میکند. علاوه بر این، میتواند با استفاده از یک تصویر آپلود شده همراه با توضیحات نوشته شده، آثار هنری فوتورئالیستی تولید کند.
برای آموزش Stable Diffusion از 4000 پردازنده گرافیکی Nvidia A100 و گونهای از مجموعه داده LAION-5B استفاده کرد. بنابراین Stable Diffusion قادر به تولید تصاویر فوقالعاده خلاقانه از افراد مشهور ، شخصیتهای کارتونی و شخصیتهای عمومی است که OpenAI با DALL-E 2 اجازه نمیدهد.
تصویر “برد پیت در جنگل” توسط Stable Diffusion
کیفیت تصاویر تولید شده در Stable Diffusion به ظاهر میتواند بسیار چشمگیر باشد. در پستی که اکنون در شبکه اجتماعی ردیت همهگیر شده، کاربری ادعا کرد که از یک پیام متنی ترکیب شده با یک طرح برای ایجاد تصویری فوق واقعی از یک کلانشهر آیندهنگر استفاده کرده.
با این حال، به نظر نمیرسد فعلا Stable Diffusion بر DALL-E مسلط شود و نسخه بتای ان به اندازه رقبایش پیشرفته نیست. برای ایجاد تصویر دلخواهتان، درست کردن توازن تصویر و کلمهسازی صحیح متن لازم است.
تصویر «همستری در حال خوردن پیتزا در ساحل هاوایی» که توسط Stable Diffusion تولید شده
میدجرنی – Midjourney
Midjourney هم به عنوان یکی از محبوبترین و شناختهشدهترین تولیدکنندههای متن به تصویر با هوش مصنوعی در جهان است.
زمانی که یکی از کاربران با استفاده از تصویری که با این نرمافزار خلق کرده بود، در مسابقه هنرهای زیبا برنده شد، میدجرنی خبرساز شد.
تصویر “مردی که با دوربین دیجیتال عکس می گیرد” که توسط Midjourney تولید شده
Midjourney از طریق یک سرور Discord اداره میشود و از دستورات ربات Discord برای تولید تصاویر با کیفیت بالا در سبکی خاص هنری استفاده می کند. کاربران می توانند یک پیام متنی برای ایجاد تصاویر واضح و خیره کننده ای وارد کنند که به نظر میرسد همیشه کیفیت آخرالزمانی یا وهم انگیزی برای آنها دارد.
برخلاف DALL-E، میدجرمی تصاویری از افراد مشهور و چهره های عمومی تولید می کند. کاربران Discord اغلب از این نرم افزار برای تجسم تخیلی بازیگران مورد علاقه خود در نقش های فیلم خاص استفاده می کنند.
تصویر «برد پیت در جنگل» که توسط Midjourney ساخته شده
ایجاد تصاویر «واقعی» در Midjourney تقریبا غیرممکن باشد. ولی باید در نظر بگیرید که این سیستم هرگز برای ایجاد تصاویری با ظاهر واقعی طراحی نشده است و این بخش مهمی از فلسفه Midjourney به عنوان یک تولید کننده هوش مصنوعی است.
دیوید هولز، بنیانگذار Midjourney گفته است: «ما یک سبک و ظاهر پیش فرض داریم، و خروجیهای نرمافزارمان هنری و زیبا است، و دور کردن [مدل] از آن سخت است . شاید اگر 100 ساعت تلاش کنید، بتوانید ترکیب درستی از کلمات را پیدا کنید که آن را واقعاً واقع گرایانه نشان دهد، اما باید واقعاً سخت کار کنید تا آن را شبیه عکس کنید.»
تصویر «گرگوری کرودسون، رختشویخانه آخر شب، مه آلود، نئون» تولید شده توسط Midjourney
یک نقطه ضعف Midjourney این است که باید از سرور Discord برای قرار دادن یک پیام متنی استفاده کنید که درک آن در ابتدا برای کاربرای که درکی از دیسکورد ندارد، دشوار است.
اما در عوض میدچرنی “تجربه اجتماعی” خوبی در اختیار قرار میدهد. یعنی شما میتوانید آثار هنری دیگر کاربران در حالی که منتظر بارگذاری تصویر خود در Midjourney هستید، مرور کنید.
برای تولید آثار هنری در Midjourney، باید به کانالی در Discord بروید، برای مثال #Newbies-126.
از آنجا،در دستور /imagine را در کانال Discord تایپ باید کنید. بعد متنی در مورد چیزی که میخواهید بنویسید.
تصویر «همستر پیتزا در حال خوردن در ساحل هاوایی» که توسط Midjourney تهیه شده
بر اساس سه قانون سرور Midjourney هنگام ایجاد آثار هنری عبارتند از: “استفاده نادرست از تصاویر کنید، از ربات برای تولید محتوای نامناسب استفاده نکنید و به همه احترام بگذارید.”
25 تصویر اول در Midjourney رایگان هستند و سپس 10 دلار در ماه برای 200 تصویر بعدی باید بدهید
Craiyon (قبلاً DALL-E mini)
Craiyon که قبلاً DALL-E mini نامیده می شد ، یکی دیگر از تولیدکنندهای تصویر هوش مصنوعی است که به صورت آنلاین در دسترس است.
Craiyon علیرغم اینکه قبلاً DALL-E mini نامیده می شد، هیچ ارتباطی با Open AI ندارد، به جز اینکه از حجم زیادی از اطلاعات در دسترس عموم که OpenAI در مدل خود ارائه کرده، استفاده میکند.
تصویر “مردی که با دوربین دیجیتال عکس می گیرد -توسط کرایون تهیه شده
برخلاف DALL-E، کرایون برای استفاده کاملا رایگان است و از طریق وب سایت خود برای همه قابل دسترسی است. تنها کاری که باید انجام دهید این است که یک پیام متنی وارد کنید و Craiyon حدود دو دقیقه طول میکشد تا تصاویر را از نسخه نمایشی وب تعاملی ایجاد کند.
یکی دیگر از تفاوتهای کلیدی بین DALL-E و Craiyon این است که نرم افزار به هیچ وجه سانسور نمیشود، به این معنی که هر درخواستی توسط تولید کننده هوش مصنوعی پذیرفته میشود. همچنین میتوانید درخواست کنید که تصویر به سبک خاصی نیز ایجاد شود.
تصویر “گرگوری کرودسون، رختشویخانه آخر شب، مه آلود، نئون” تولید شده توسط کرایون
Craiyon که توسط مهندس نرمافزار بوریس دیما ساخته شده، از نظر کیفیت تصویر با DALL-E و سایر رقبا مبارزه میکند.
تصویر «برد پیت در جنگل» که توسط کرایون ساخته شده است
اگر از کیفیت بد چهره در مثال بالا زده شدهاید، باید بگوییم که این بدان معنا نیست که Craiyon قادر به چهرهسازی نیست، بلکه نیاز به کار و تلاش زیادی از طرف کاربر دارد. برخی از کاربران Craiyon دریافتهاند که نوشتن متنهای طولانی و دقیق، فهرست کردن اندازه و مکان هر قسمت از صورت، به ایجاد چهرههای بهتر در آثار هنری آنها کمک کرده است.
تصویر «همستر پیتزا در حال خوردن در ساحل هاوایی» که توسط کرایون تهیه شده
اگرچه ممکن است Craiyon پیشرفتهترین سیستم نباشد، اما Craiyon یک مولد تصویر هوش مصنوعی بدون فیلتر و سرگرمکننده است که هر کسی میتواند به راحتی به آن دسترسی داشته باشد.
تیک تاک
TikTok یک تولید کننده تصویر پایه هوش مصنوعی راه اندازی کرده که کاربران میتوانند از آن برای ایجاد صفحه سبز سفارشی برای ویدیوهای خود استفاده کنند.
جلوه ویژه جدید پلتفرم ویدیویی « AI Greenscreen» نام دارد و به کاربران تیک تاک اجازه میدهد تا یک پیام متنی را تایپ کنند تا نرمافزار تصویری بر اساس آن تولید کند.
صفحات سبز تولید شده توسط ابزار هوش مصنوعی TikTok
با این حال، مولد اصلی متن به تصویر آم بسیار متفاوت از امثال DALL-E 2 و Midjourney است، زیرا به نظر میرسد که فقط تصاویر انتزاعی تولید میکند.
فعلا تیک تاک موفقیتی به اندازه رقبای خود نداشته. اما توجه تیک تاک به این عرصه نشاندهنده اهمیت بالای آن است.
کافه شبانه هوش مصنوعی یا Nightcafe AI
استودیو کافه شبانه به شما امکان میدهد عکسهایی در سبکهای مختلف تولید کنید و جلوههای از پیش تعیین شده مختلفی را ارائه میدهد که از سبک کیهانی گرفته تا نقاشی رنگ روغن و موارد دیگر متفاوت است.
این نرمافزار نام خود را از نقاشی ونسان ون گوگ گرفته و این نام ملهم از این تابلوی مشهور است.
این پلتفرم برای افراد تازه کار آسان است و به دلیل داشتن الگوریتمها و گزینههای بیشتری جذابیت دارد.
هنرمندان می توانند «وزن» و بار معنایی یک کلمه را در یک درخواست با افزودن اصلاح کنندهها در “حالت پیشرفته” تنظیم کنند. در این گزینه، شما همچنین میتوانید نسبت تصویر، کیفیت و زمان اجریا هنر دیجیتال را قبل از اینکه NightCafe AI شروع به کار کند، کنترل کنید. هر اثر هنری که قبلا ایجاد شده باشد میتواند تکامل یابد تا ویژگیهای تازهای به آن افزوده شود.
هنگام ثبت نام در NightCafe، کاربر پنج اعتبار رایگان دریافت می کند. و در هر نیمه شب پنج اعتبار دیگر دریافت میکند. برای استفاده بیشتر باید حق اشتراک پرداخت کنید.
این نوشتهها را هم بخوانید