Adobe Firefly، جدیدترین مولد متن به عکس، خیلی نسبت به رقبا عقب مانده، اما علت چیست؟

هفته گذشته، ادوبی با اعلام انتشار نسخه بتا مدل جدید هوش مصنوعی مولد متن به تصویر (AI) خود، Firefly، موجی به راه انداخت. ادوبی میگوید پلتفرم جدیدش با استفاده از تصاویر دزدیده شده ساخته نشده است (منظور آموزش هوش مصنوعی با میلیونها عکس در دسترس بدون اجازه است)، بلکه همانطور که Adobe افتخار میکند، Firefly با استفاده از تصاویر Adobe Stock، محتوای دارای مجوز آشکار و محتوای دامنه عمومی، آموزش دیده است.
این یک راه تحسین برانگیز برای ساخت یک پلتفرم هوش مصنوعی است، به خصوص در مواجهه با مدل های رقیب که با استفاده از محتوای دزدیده شده و غیرمجاز ساخته می شوند. دیوید هولز، بنیانگذار Midjourney اخیراً اعتراف کرد که شرکت او اجازه استفاده از صدها میلیون تصویر مورد استفاده برای آموزش تولید کننده تصویر هوش مصنوعی خود را ندارد.
Adobe همچنین متعهد به مقابله با سوگیریهای رایج در تولید کننده های تصویر هوش مصنوعی است. اکتبر گذشته، Hugging Face میزبانی “Stable Diffusion Bias Explorer ” را آغاز کرد. این ابزار به کاربران اجازه میدهد تا ببینند مدلهای هوش مصنوعی چگونه با کلیشههای نژادی و جنسیتی مبارزه میکنند.
قابل توجه است که Adobe از این تعصبات آگاه است و سخت تلاش میکند تا اطمینان حاصل کند که Firefly از نظر اجتماعی مسئولیتپذیر باشد. ادوبی استدلال میکند که «هر شرکتی که ابزارهای هوش مصنوعی تولید میکند باید به چارچوب اخلاقی هوش مصنوعی متعهد باد.» ادوبی معتقد است ساختار اخلاقی آن تضمین میکند که فناوریهای هوش مصنوعی، از جمله هوش مصنوعی مولد مانند Firefly، به کاربران احترام میگذارد و با ارزشهای اصلی شرکت همسو میشود.
با این حال، نتایج اولیه نشان میدهد که شاید محدودیتهای اخلاقی ارزشمندی که Adobe برای خود قرار داده، بر عملکرد مدل جدید هوش مصنوعی مولد آن تأثیر منفی گذاشته است. Adobe Firefly، در این مرحله، باید به نسخه فوق العاده چشمگیر Midjourney نسخه 5 برسد و خیلی عقب مانده است.
Adobe Firefly بد نیست ، اما واضح است که به اندازه پلتفرم بسیار بالغتر Midjourney کارا نیست.
نه تنها ساخت یک مدل هوش مصنوعی با استفاده از محتوای دزدیده شده در بهترین حالت از نظر اخلاقی مشکوک است، بلکه از نظر قانونی نیز مبهم است .
با این حال، چارچوب اخلاقی Adobe این شرکت فکر میکند کار درستی است، بلکه بر قابلیت تجاری محصولش نیز تأثیر میگذارد.
به عنوان مثال، وقتی پیام متنی «زنی که از یک مرد پرتره میگیرد» را تایپ کردم، نتایج ناامیدکننده بود.
حتی اگر با «زنی که از صورت یک مرد عکس میگیرد»، انچه میگیرید، دقیق نیست.
خب شاید پیام متنی دقیقتر “زنی که از دوربین استفاده می کند تا یک پرتره معمولی از یک مرد را به عنوان سوژه خود بگیرد” کارساز باشد؟ قطعا نه.
Firefly میتواند در ایجاد دستها عملکرد بهتری داشته باشد، که مسلماً یک مشکل رایج برای مدلهای هوش مصنوعی مولد است . Midjourney v5 در نهایت دستان انسان را عمدتاً واقع بینانه ، حداقل برای مشتریانی که پول پرداخت می کنند، ارائه میدهد.
Midjourney در خلق پرتره های فوتورئالیستی از افراد به طور کلی کار بسیار خوبی انجام میدهد.
فایرفلای حتی در هنگام ایجاد عکسهای جنسیتی معصومانه مانند یک زوج عاشق مشکل دارد.
باید اعتراف کنیم که Firefly یک نوزاد در فضای هوش مصنوعی مولد متن به عکس است و همچنان در حال تکامل است، و همچنین مجموعه داده آموزشی کوچکی دارد.
Firefly در حال حاضر حداقل شش تا هشت ماه از نظر نتایج خود از برخی رقبا عقب است. اگر به دلیل کاهش دادههای داده، مدل به آرامی توسعه مییاد، اما آیا هرگز به آنها میرسد>
Firefly نه محدود است زیرا تنها چهار نتیجه را در یک زمان نشان می دهد، نتایج نیز بسیار شبیه به یکدیگر هستند.
زمانی که من از نوع محتوای «عکس» صرفنظر کردم، این مشکل همچنان ادامه داشت. وقتی «هنر» را انتخاب کردم و اصلاحکنندههایی از جمله «بیش از حد واقعگرا» و «فانتزی» را با نورپردازی «تن گرم» اضافه کردم، نتایج همچنان فاقد تنوع بودند. با این حال، مسلما، آنها بسیار دوست داشتنی هستند.
در نهایت، Adobe Firefly یک مدل هوش مصنوعی مولد با نیت خوب است که در تعقیب اهداف اخلاقی و تجاری، در حال حاضر از نظر عملکرد و کاربردی محدود است. از جنبه های مهم و اخلاقی، Firefly بهتر از رقبای خود است. هر چند وقتی نوبت به نتایج میرسد، بدون شک بدتر است.