Adobe Firefly، جدیدترین مولد متن به عکس، خیلی نسبت به رقبا عقب مانده، اما علت چیست؟

۸ فروردین ۱۴۰۲آخرین بروزرسانی: ۱۴ فروردین ۱۴۰۲

زمان تقریبی مطالعه 3 دقیقه

هفته گذشته، ادوبی با اعلام انتشار نسخه بتا مدل جدید هوش مصنوعی مولد متن به تصویر (AI) خود، Firefly، موجی به راه انداخت. ادوبی می‌گوید پلتفرم جدیدش با استفاده از تصاویر دزدیده شده ساخته نشده است (منظور آموزش هوش مصنوعی با میلیون‌ها عکس در دسترس بدون اجازه است)، بلکه همانطور که Adobe افتخار می‌کند، Firefly با استفاده از تصاویر Adobe Stock، محتوای دارای مجوز آشکار و محتوای دامنه عمومی، آموزش دیده است.

این یک راه تحسین برانگیز برای ساخت یک پلتفرم هوش مصنوعی است، به خصوص در مواجهه با مدل های رقیب که با استفاده از محتوای دزدیده شده و غیرمجاز ساخته می شوند. دیوید هولز، بنیانگذار Midjourney اخیراً اعتراف کرد که شرکت او اجازه استفاده از صدها میلیون تصویر مورد استفاده برای آموزش تولید کننده تصویر هوش مصنوعی خود را ندارد.

Adobe همچنین متعهد به مقابله با سوگیری‌های رایج در تولید کننده های تصویر هوش مصنوعی است. اکتبر گذشته، Hugging Face میزبانی “Stable Diffusion Bias Explorer ” را آغاز کرد. این ابزار به کاربران اجازه می‌دهد تا ببینند مدل‌های هوش مصنوعی چگونه با کلیشه‌های نژادی و جنسیتی مبارزه می‌کنند.

قابل توجه است که Adobe از این تعصبات آگاه است و سخت تلاش می‌کند تا اطمینان حاصل کند که Firefly از نظر اجتماعی مسئولیت‌پذیر باشد. ادوبی استدلال می‌کند که «هر شرکتی که ابزارهای هوش مصنوعی تولید می‌کند باید به چارچوب اخلاقی هوش مصنوعی متعهد باد.» ادوبی معتقد است ساختار اخلاقی آن تضمین می‌کند که فناوری‌های هوش مصنوعی، از جمله هوش مصنوعی مولد مانند Firefly، به کاربران احترام می‌گذارد و با ارزش‌های اصلی شرکت همسو می‌شود.

با این حال، نتایج اولیه نشان می‌دهد که شاید محدودیت‌های اخلاقی ارزشمندی که Adobe برای خود قرار داده، بر عملکرد مدل جدید هوش مصنوعی مولد آن تأثیر منفی گذاشته است. Adobe Firefly، در این مرحله، باید به نسخه فوق العاده چشمگیر Midjourney نسخه 5 برسد و خیلی عقب مانده است.

Adobe Firefly بد نیست ، اما واضح است که به اندازه پلتفرم بسیار بالغ‌تر Midjourney کارا نیست.

نه تنها ساخت یک مدل هوش مصنوعی با استفاده از محتوای دزدیده شده در بهترین حالت از نظر اخلاقی مشکوک است، بلکه از نظر قانونی نیز مبهم است .

با این حال، چارچوب اخلاقی Adobe این شرکت فکر می‌کند کار درستی است، بلکه بر قابلیت تجاری محصولش نیز تأثیر می‌گذارد.

به عنوان مثال، وقتی پیام متنی «زنی که از یک مرد پرتره می‌گیرد» را تایپ کردم، نتایج ناامیدکننده بود.

حتی اگر با «زنی که از صورت یک مرد عکس می‌گیرد»، انچه می‌گیرید، دقیق نیست.

خب شاید پیام متنی دقیق‌تر “زنی که از دوربین استفاده می کند تا یک پرتره معمولی از یک مرد را به عنوان سوژه خود بگیرد” کارساز باشد؟ قطعا نه.

Firefly می‌تواند در ایجاد دست‌ها عملکرد بهتری داشته باشد، که مسلماً یک مشکل رایج برای مدل‌های هوش مصنوعی مولد است . Midjourney v5 در نهایت دستان انسان را عمدتاً واقع بینانه ، حداقل برای مشتریانی که پول پرداخت می کنند، ارائه می‌دهد.

Midjourney در خلق پرتره های فوتورئالیستی از افراد به طور کلی کار بسیار خوبی انجام می‌دهد.

فایرفلای حتی در هنگام ایجاد عکس‌های جنسیتی معصومانه مانند یک زوج عاشق مشکل دارد.

باید اعتراف کنیم که Firefly یک نوزاد در فضای هوش مصنوعی مولد متن به عکس است و همچنان در حال تکامل است، و همچنین مجموعه داده آموزشی کوچکی دارد.

Firefly در حال حاضر حداقل شش تا هشت ماه از نظر نتایج خود از برخی رقبا عقب است. اگر به دلیل کاهش داده‌های داده، مدل به آرامی توسعه می‌یاد، اما آیا هرگز به آنها می‌رسد>

Firefly نه محدود است زیرا تنها چهار نتیجه را در یک زمان نشان می دهد، نتایج نیز بسیار شبیه به یکدیگر هستند.

زمانی که من از نوع محتوای «عکس» صرفنظر کردم، این مشکل همچنان ادامه داشت. وقتی «هنر» را انتخاب کردم و اصلاح‌کننده‌هایی از جمله «بیش از حد واقع‌گرا» و «فانتزی» را با نورپردازی «تن گرم» اضافه کردم، نتایج همچنان فاقد تنوع بودند. با این حال، مسلما، آنها بسیار دوست داشتنی هستند.

در نهایت، Adobe Firefly یک مدل هوش مصنوعی مولد با نیت خوب است که در تعقیب اهداف اخلاقی و تجاری، در حال حاضر از نظر عملکرد و کاربردی محدود است. از جنبه های مهم و اخلاقی، Firefly بهتر از رقبای خود است. هر چند وقتی نوبت به نتایج می‌رسد، بدون شک بدتر است.

۸ فروردین ۱۴۰۲آخرین بروزرسانی: ۱۴ فروردین ۱۴۰۲

زمان تقریبی مطالعه 3 دقیقه

Adobe Firefly، جدیدترین مولد متن به عکس، خیلی نسبت به رقبا عقب مانده، اما علت چیست؟

دیدگاهتان را بنویسید لغو پاسخ

یک پزشک: باسابقه‌ترین وبلاگ فعال فارسی

20 سال است که با «یک پزشک» متفاوت می‌اندیشید!

مطالب مرتبط

یادآوری داستان تصویر تولیدشده زنی که در اینترنت وحشت آفرید و تفسیر کنونی آن ماجرا در عصر انفجار…

اعتصاب انجمن نویسندگان آمریکا به خاطر استفاده استودیوها از ابزارهای هوشمند مولد متن

چرا خیلی زود اسمارت‌فون‌های پیکسل ۳ و پیکسل ۳ ایکس‌ال از رقبای اندرویدی عقب می‌مانند

سخت است باور کنیم که این عکس‌ توهم‌برانگیز، واقعا عکس است و نقاشی نیست – چرا علیرغم هوش…

این 14 ترفند برای زیبایی، الان خیلی عجیب و غریب به نظر می‌رسند، اما زمانی واقعا خیلی محبوب…

مرورگر مایکروسافت اج Edge حالا می‌تواند متن‌های فارسی را با دقت قابل قبول بخواند + نمونه‌ای از کیفیت…

دیدگاهتان را بنویسید لغو پاسخ

یک پزشک: باسابقه‌ترین وبلاگ فعال فارسی

20 سال است که با «یک پزشک» متفاوت می‌اندیشید!