ChatGPT یک JPEG تار از وب است – چت ربات OpenAI عبارت‌های توضیحی و مختصر و مفید ارائه می‌کند، در حالی که گوگل نقل قول‌ می‌کند؟ کدام ترجیح داده می‌شوند؟

۱۲ اسفند ۱۴۰۱آخرین بروزرسانی: ۱۸ اسفند ۱۴۰۱

زمان تقریبی مطالعه 11 دقیقه

نوشته تد چیانک

در سال 2013، کارمندان یک شرکت معماری آلمانی متوجه چیز عجیبی در مورد دستگاه فتوکپی زیراکس خود شدند: زمانی که آنها یک کپی از پلان یک خانه تهیه کردند، کپی آن به شکلی ظریف اما قابل توجه با اصل تفاوت داشت. در پلان طبقه اول، هر یک از سه اتاق خانه مستطیلی با مساحت متفاوت بود: اتاق‌ها به ترتیب 14.13، 21.11 و 17.42 متر مربع بودند. با این حال، در فتوکپی، هر سه اتاق به اندازه 14.13 متر مربع کپی شده بودند.

این شرکت با دانشمند علوم کامپیوتر -دیوید کریزل- تماس گرفت تا این نتیجه به ظاهر غیرقابل تصور را بررسی کند. آنها به یک دانشمند کامپیوتر نیاز داشتند زیرا یک دستگاه فتوکپی زیراکس مدرن از فرآیند فیزیکی زیروگرافی قدیمی دهه 1960 استفاده نمی‌کند. بلکه، سند را به صورت دیجیتالی اسکن می‌کند و سپس فایل تصویر حاصل را چاپ می‌کند. به علاوه فایل تصویر دیجیتال برای صرفه‌جویی در فضا فشرده می‌شود و راه حلی برای این فشرده‌سازی پیدا می‌شود.

فشرده‌سازی یک فایل به دو مرحله نیاز دارد: اول، رمزگذاری، که طی آن فایل به فرمت فشرده‌تری تبدیل می‌شود، و سپس رمزگشایی، که طی آن فرآیند معکوس می‌شود. اگر فایل بازیابی شده با فایل اصلی یکسان باشد، فرآیند فشرده سازی به عنوان بدون ضرر یا اتلاف توصیف می‌شود، یعنی هیچ اطلاعاتی نادیده گرفته نشده است.

در مقابل، اگر فایل بازیابی شده تنها به صورت تقریبی شبیه فایل اصلی باشد، فشرده‌سازی به عنوان «از دست رفته» توصیف می‌شود: یعنی برخی از اطلاعات کنار گذاشته شده‌اند و اکنون غیرقابل بازیابی هستند.

فشرده‌سازی بدون اتلاف چیزی است که معمولاً برای فایل‌های متنی و برنامه‌های رایانه‌ای استفاده می‌شود، زیرا آن‌ها حوزه‌هایی هستند که حتی یک کاراکتر نادرست در آن‌ها پتانسیل فاجعه‌بار بودن را دارد. فشرده‌سازی با اتلاف اغلب برای عکس‌ها، صدا و ویدیو در شرایطی که دقت مطلق ضروری نباشد استفاده می‌شود. بیشتر اوقات، ما متوجه نمی‌شویم که یک عکس، آهنگ یا فیلم کپی کامل نیست. اصل نبودن از نظر ما تنها زمانی محسوس‌تر می‌شود که فایل ها به شدت فشرده می‌شوند. در این موارد، ما متوجه مواردی می‌شویم که خروجی فشرده‌سازی مبهم شده است. چیزی که در تصاویر JPEG و MPEG یا MP3 های با نرخ بیت پایین رخ می‌دهد.

دستگاه‌های فتوکپی زیراکس از فرمت فشرده‌سازی با اتلاف به نام JBIG 2 استفاده می‌کنند که برای استفاده با تصاویر سیاه و سفید طراحی شده. برای صرفه‌جویی در فضا، دستگاه کپی نواحی شبیه به هم را در تصویر شناسایی می‌کند و یک کپی را برای همه آنها ذخیره می‌کند. هنگامی که فایل از حالت فشرده خارج می شود، از آن کپی مکررا برای بازسازی تصویر استفاده می‌کند. معلوم شد که دستگاه فتوکپی برچسب‌هایی را که مساحت اتاق‌ها را مشخص می‌کنند به اندازه کافی مشابه ارزیابی کرده که فقط یکی از آنها را ذخیره کندیعنی مساحت 14.13 – و هنگام چاپ پلان طبقه، از آن یکی برای هر سه اتاق دوباره استفاده کرده بود!

دستگاه‌های فتوکپی زیراکس از فرمت فشرده‌سازی با اتلاف به جای فرمت بدون اتلاف استفاده می کنند، به خودی خود یک مشکل نیست. مشکل این است که دستگاه‌های فتوکپی به روشی ظریف تصویر را تخریب می‌کردند، که در آن آثار فشرده‌سازی بلافاصله قابل تشخیص نبودند. اگر دستگاه فتوکپی به سادگی پرینت‌های تار تولید می‌کرد، همه می‌دانستند که آن‌ها بازتولید دقیقی از نسخه‌های اصلی نیستند. مشکل این بود که دستگاه فتوکپی اعدادی را تولید می‌کرد که خوانا، اما نادرست بودند. این باعث می‌شد کپی‌ها درست به نظر برسند در حالی که دقیق نبودند. (در سال 2014، زیراکس یک پچ برای اصلاح این مشکل منتشر کرد.)

من فکر می‌کنم که امروز با توجه به ChatGPT OpenAI، رخداد مشابه دستگاه‌های فتوکپی زیراکس را باید در نظر داشت. سایر برنامه‌های مشابه که محققان هوش مصنوعی آنها را مدل‌های زبان بزرگ می‌نامند نیز مستعد چنین چیزی هستند.

شباهت بین یک دستگاه فتوکپی و یک مدل زبان بزرگ ممکن است فوری برای شما محسوس نباشد. پس توضیح می‌دهم:

سناریوی زیر را در نظر بگیرید. تصور کنید که دسترسی خود را به اینترنت برای همیشه از دست داده‌اید (چه سناریوی ممکنی برای ما!). در مرحله آماده سازی، قصد دارید یک کپی فشرده از تمام متن موجود در وب ایجاد کنید تا بتوانید آن را در یک سرور خصوصی ذخیره کنید. متأسفانه سرور خصوصی شما تنها یک درصد از فضای مورد نیاز را دارد. اگر می خواهید همه چیز عین اصل باشد، نمی ‌وانید از الگوریتم فشرده سازی بدون اتلاف استفاده کنید. در عوض، شما یک الگوریتم دارای اتلاف می‌نویسید که نظم‌های آماری را در متن شناسایی می‌کند و آنها را در یک فرمت فایل تخصصی ذخیره می کند. زیرا شما تقریباً قدرت محاسباتی نامحدودی برای انجام این کار دارید.

در حال حاضر، از دست دادن دسترسی به اینترنت شما چندان وحشتناک نیست. شما تمام اطلاعات موجود در وب را در سرور خود ذخیره کرده ‌ید. تنها نکته این است که، چون متن بسیار فشرده شده ، نمی توانید با جستجوی یک نقل قول دقیق، هرگز یک تطابق دقیق پیدا نمی کنید، زیرا کلمات آن چیزی نیستند که ذخیره شده‌اند. برای حل این مشکل، یک رابط ایجاد می‌کنید که پرس‌و‌جوها را در قالب سؤال می‌گیرد و خروجی پاسخ آن، چیزهایی مبتنی بر سرور است.

آنچه من توضیح دادم بسیار شبیه به ChatGPT یا بیشتر مدل های زبان بزرگ دیگر است. ChatGPT را به عنوان یک JPEG تار از تمام متن های وب در نظر بگیرید. بسیاری از اطلاعات موجود در وب را حفظ می کند، همانطور که یک JPEG بسیاری از اطلاعات یک تصویر با وضوح بالاتر را حفظ می کند، اما، اگر به دنبال دنباله‌ای دقیق از بیت‌ها باشید، آن را پیدا نمی کنید. تنها چیزی که به دست می آورید یک تقریب است.

چون سوال نوشتاری ساده می‌پرسید و پاسخ معمولا معقول می‌گیرید، همه چیز مورد خوشایند شماست. اما شما همچنان در حال نگریستن و مطالعه یک JPEG تار هستید، اما متاسفانه این تاری خیلی وقت‌ها به نظرتان نمی‌آید.

این تشبیه به فشرده سازی با اتلاف تنها راهی برای درک امکانات ChatGPT در بسته بندی مجدد اطلاعات موجود در وب با استفاده از کلمات مختلف نیست. همچنین راهی برای درک «توهمات» یا پاسخ‌های بی‌معنی به سؤالات واقعی است که مدل‌های زبان بزرگ مانند ChatGPT همگی مستعد آن هستند.

این توهمات ساخته‌های فشرده‌سازی هستند، اما – مانند برچسب‌های نادرست تولید شده توسط دستگاه فتوکپی زیراکس – به اندازه کافی قابل قبول هستند که شناسایی آنها مستلزم مقایسه آنها با نمونه‌های اصلی است. به عبارتی خودتان باید خیلی مطالعه داشته باشدی و دنیای وب را بشناسید تا متوجه این اشتباهات بشوید.

الگوریتم فشرده سازی که بازسازی متن پس از حذف نود و نه درصد از متن اصلی طراحی شده باشد، ناگزیر اشتباه می‌کند یا به اشتباه می‌اندازد.

جنبه دیگری در قیاس فشرده‌سازی وجود دارد که ارزش بررسی دارد:

از سال 2006، یک محقق هوش مصنوعی به نام مارکوس هاتر به هر کسی که بتواند یک عکس فوری یک گیگابایتی خاص از ویکی‌پدیا را بدون اتلاف فشرده کند، جایزه نقدی – معروف به جایزه فشرده‌سازی دانش انسانی یا جایزه هاتر – ارائه می‌کند.

فرمت zip فایل یک گیگابایتی Hutter را به حدود سیصد مگابایت کاهش می دهد. آخرین برنده جایزه توانسته است آن را به صد و پانزده مگابایت کاهش دهد. این فقط یک تمرین در هم کوبیدن نیست. هاتر معتقد است که فشرده‌سازی بهتر متن در ایجاد هوش مصنوعی در سطح انسانی مؤثر خواهد بود،به این دلیل که با درک متن می‌توان به بیشترین درجه فشرده‌سازی دست یافت.

تصور کنید که یک فایل متنی حاوی میلیون‌ها مثال از جمع، تفریق، ضرب و تقسیم دارید. اگرچه هر الگوریتم فشرده‌سازی می‌تواند حجم این فایل را کاهش دهد، اما راه دستیابی به بیشترین نسبت فشرده‌سازی احتمالاً استخراج اصول حساب و سپس نوشتن کد یک برنامه ماشین حساب است. با استفاده از یک ماشین حساب، می‌توانید نه تنها میلیون‌ها مثال موجود در فایل، بلکه هر نمونه دیگری از محاسباتی را که ممکن است در آینده با آن مواجه شوید، کاملاً بازسازی کنید. همین منطق در مورد مشکل فشرده سازی یک برش از ویکی پدیا نیز صدق می کند. اگر یک برنامه فشرده‌سازی بداند که نیرو برابر است با جرم ضربدر شتاب، می‌تواند هنگام فشرده‌سازی صفحات مربوط به فیزیک، کلمات زیادی را کنار بگذارد، زیرا قادر به بازسازی آنها خواهد بود.

مدل‌های زبان بزرگ، نظم‌های آماری را در متن شناسایی می کنند.مثلا تجزیه و تحلیل از متن وب نشان می‌دهد که عباراتی مانند “عرضه کم است” اغلب در مجاورت عباراتی مانند “افزایش قیمت‌ها” ظاهر می‌شوند. یک ربات چت که این همبستگی را در نظر می‌گیرد، ممکن است وقتی سوالی در مورد تأثیر کمبود عرضه پرسیده شود، پاسخی در مورد افزایش قیمت‌ها پاسخ دهد. اگر یک مدل زبان بزرگ تعداد زیادی از همبستگی‌ها را بین اصطلاحات اقتصادی جمع‌آوری کرده باشد – آنقدر زیاد که می‌تواند پاسخ‌های قابل قبولی را به سؤالات مختلف ارائه دهد – آیا باید بگوییم که واقعاً نظریه اقتصادی را درک می‌کند؟

مدل‌هایی مانند ChatGPT به دلایل مختلفی واجد شرایط دریافت جایزه Hutter نیستند، یکی از آنها این است که متن اصلی را دقیقا بازسازی نمی‌کنند—یعنی فشرده‌سازی بدون اتلاف را انجام نمی‌دهند.

به مثال حساب بازگردیم. اگر از GPT-3 بپرسید (مدل زبان بزرگی که ChatGPT از آن ساخته شده است) برای جمع یا تفریق یک جفت اعداد، تقریباً همیشه زمانی که اعداد فقط دو رقم داشته باشند، با پاسخ صحیح پاسخ می دهد. اما دقت آن با اعداد بزرگتر به طور قابل توجهی بدتر می‌شود و زمانی که اعداد پنج رقمی هستند به ده درصد کاهش می یابد. بیشتر پاسخ‌های صحیحی که GPT-3 می‌دهد در وب یافت نمی‌شوند. مثلاً صفحات وب زیادی که حاوی متن «245 + 821» باشند وجود ندارد. بنابراین چیز ساده‌ای در پیش رو ندارد. اما علیرغم دریافت حجم وسیعی از اطلاعات، قادر به استخراج اصول حساب نیز نبوده است.

با توجه به شکست GPT-3 در موضوعی که در مدرسه ابتدایی تدریس می‌شود، چگونه می‌توانیم این واقعیت را توضیح دهیم که گاهی اوقات به نظر می‌رسد در نوشتن مقالات در سطح دانشگاه عملکرد خوبی دارد؟ اگرچه مدل‌های بزرگ زبان اغلب توهم دارند، اما وقتی شفاف هستند به نظر می‌رسد که واقعاً موضوعاتی مانند نظریه اقتصادی را درک می‌کنند. شاید محاسبات یک مورد خاص باشد که مدل های زبان بزرگ برای آن مناسب نیستند. آیا این امکان وجود دارد که در حوزه‌های خارج از جمع و تفریق، قوانین آماری در متن با دانش واقعی دنیای واقعی مطابقت داشته باشند؟

من فکر می کنم توضیح ساده‌تری وجود دارد. تصور کنید اگر ChatGPT یک الگوریتم بدون اتلاف باشد، چه شکلی به نظر می‌رسد. اگر چنین بود، همیشه با ارائه یک نقل قول از یک صفحه وب مرتبط به سؤالات پاسخ می‌داد. ما احتمالاً نرم افزار را فقط یک پیشرفت جزئی نسبت به یک موتور جستجوی معمولی می‌دانستیم و کمتر تحت تأثیر آن قرار می گیریم.

اما ChatGPT مطالب را از وب به جای نقل قول کلمه به کلمه بازنویسی می‌کند، باعث می‌شود که به نظر می‌رسد دانش‌آموزی ایده‌های خود را با کلمات خود بیان می‌کند، نه اینکه صرفاً آنچه را که خوانده، بازگو کند و این توهم را ایجاد می کند که ChatGPT مطالب را درک می‌کند.

بنابراین ناتوانی ChatGPT در تولید نقل قول های دقیق از صفحات وب دقیقاً چیزی است که ما را به این فکر می کند که چیزی یاد گرفته است!

کاربردهای زیادی برای مدل های زبان بزرگ پیشنهاد شده است. بیایید چند سناریو را در نظر بگیریم.

آیا مدل های زبان بزرگ می توانند جای موتورهای جستجوی سنتی را بگیرند؟

برای اینکه ما به آنها اطمینان داشته باشیم، باید بدانیم که آنها از پروپاگاندا و تئوری‌های توطئه تغذیه نشده اند – باید بدانیم که JPEG بخش‌های مناسبی از وب را ضبط می‌کند. اما، حتی اگر یک مدل زبان بزرگ فقط شامل اطلاعاتی باشد که ما می‌خواهیم، باز هم موضوع تاری وجود دارد. یک نوع تاری وجود دارد که قابل قبول است، یعنی بیان مجدد اطلاعات با کلمات مختلف. اما در گام بعدی مبهم بودن جعل آشکار هنگام جستجوی حقایق ایجاد می‌کند. مشخص نیست که از نظر فنی امکان حفظ نوع تاری قابل قبول و حذف نوع غیرقابل قبول وجود دارد، اما من انتظار دارم که در آینده نزدیک متوجه این موضوع شویم.

آیا باید از مدل‌های زبان بزرگ برای تولید محتوای وب استفاده کنیم؟!

این تنها در صورتی منطقی خواهد بود که هدف ما بسته‌بندی مجدد اطلاعاتی باشد که از قبل در وب در دسترس است. برخی از شرکت ها برای انجام این کار وجود دارند – ما معمولا آنها را کارخانه تولید محتوا می‌نامیم. شاید تاری مدل‌های زبان بزرگ برای آنها مفید باشد، زیرا راهی برای جلوگیری از نقض کپی رایت هستند. با این حال، به طور کلی، می‌توانم بگویم که همین چیزی که برای کارخانه‌های تولید محتوا خوب است، برای افرادی که به دنبال اطلاعات هستند خوب نیست.

افزایش این نوع بسته بندی مجدد چیزی است که یافتن آنچه را که در حال حاضر آنلاین به دنبال آن هستیم برای ما دشوارتر می کند. هر چه متن تولید شده توسط مدل‌های زبان بزرگ بیشتر در وب منتشر شود، وب به نسخه ای مبهم‌تر از خود تبدیل می شود.

اطلاعات بسیار کمی در در مورد ، GPT-4 در دسترس است. اما می‌خواهم پیش‌بینی کنم: هنگام جمع‌آوری مقدار زیادی متن مورد استفاده برای آموزش GPT-4، مهندسان OpenAI تلاش می‌کنند عکس نوتری از وب بگیرند. یعنی فتوکپی از فتوکپی نگیرند.

در واقع، یک معیار مفید برای سنجش کیفیت یک مدل زبان بزرگ ممکن است تمایل یک شرکت به استفاده از متنی باشد که تولید می‌کند به عنوان ماده آموزشی برای یک مدل جدید. اگر خروجی ChatGPT برای GPT-4 به اندازه کافی خوب نباشد، ممکن است آن را به عنوان یک شاخص در نظر بگیریم که برای ما نیز به اندازه کافی خوب نیست.

آیا مدل های زبان بزرگ می توانند به انسان در ایجاد نوشتار اصلی کمک کنند؟ یعنی فقط یک ابزار باشند و کار اصلی ما را بکنیم؟

برای پاسخ به آن، باید منظورمان از این سوال را مشخص کنیم. ژانری از هنر وجود دارد که به هنر زیراکس یا هنر فتوکپی معروف است که در آن هنرمندان از ویژگی‌های متمایز دستگاه فتوکپی به عنوان ابزار خلاقانه استفاده می‌کنند. مطمئناً در مورد ChatGPT هم این امکان‌پذیر است، بنابراین، از این نظر، پاسخ مثبت است. اما فکر نمی‌کنم کسی ادعا کند که دستگاه فتوکپی به ابزاری ضروری در خلق هنر تبدیل شده است. اکثریت قریب به اتفاق هنرمندان از آنها در فرآیند خلاقیت خود استفاده نمی کنند و هیچ کس استدلال نمی کند که آنها با این انتخاب خود را در معرض ضرر قرار می دهند.

بنابراین بیایید فرض کنیم که ما در مورد ژانر جدیدی از نوشتن که مشابه هنر زیراکس باشد صحبت نمی‌کنیم. با توجه به این شرط، آیا متن تولید شده توسط مدل‌های زبان بزرگ می‌تواند نقطه شروع مفیدی برای نویسندگان باشد تا در هنگام نوشتن چیزی اصلی، چه داستانی یا غیرداستانی، آن را بسازند؟ آیا اجازه دادن به یک مدل زبان بزرگ به نویسندگان اجازه می ‌هد تا توجه خود را بر روی بخش های واقعا خلاقانه متمرکز کنند؟

اما شروع با یک کپی مبهم از اثر غیر اصلی، راه خوبی برای خلق اثر اصلی نیست. اگر نویسنده هستید، قبل از اینکه چیزی اوریجینال بنویسید، کارهای ناقص زیادی خواهید نوشت و زمان و تلاشی که صرف آن کارهای ابتدایی می‌شود هدر نمی رود. برعکس، من پیشنهاد می‌کنم که این دقیقاً همان چیزی است که شما را قادر می‌سازد در نهایت چیزی اصیل بیافرینید. ساعت‌هایی که صرف انتخاب کلمه مناسب و تنظیم مجدد جملات برای پیروی بهتر از یکدیگر می‌شود، چیزی است که به شما می‌آموزد که چگونه معنا با نثر منتقل می‌شود.

نوشتن مقاله دانش‌آموزی صرفاً راهی برای آزمایش درک آنها از مطالب نیست. آنها این طوری واقعا به تکاپوی بیان افکارشان نمی‌افتند.

گاهی اوقات فقط در مرحله نوشتن است که ایده‌های اصلی خود را کشف می کنید. برخی ممکن است بگویند که خروجی مدل‌های زبان بزرگ چندان متفاوت از پیش‌نویس اول یک نویسنده انسانی نیست، اما، باز هم، فکر می‌کنم این یک شباهت سطحی است. اولین پیش نویس شما یک ایده غیراصلی نیست که به وضوح بیان شده باشد. این یک ایده اصلی است که به خوبی بیان شده، این چیزی است که شما را در حین بازنویسی هدایت می‌کند.

هیچ چیز جادویی یا حقه و آییینی در مورد نوشتن وجود ندارد

اما نوشتن چیزی بیشتر از قرار دادن یک سند موجود بر روی یک دستگاه فتوکپی غیرقابل اعتماد و فشار دادن دکمه چاپ است. این امکان وجود دارد که در آینده، هوش مصنوعی بسازیم که قادر به نوشتن نثر خوب باشد. روزی که به آن دست یابیم واقعاً مهم خواهد بود – اما آن روز بسیار فراتر از افق پیش بینی ما است. در این میان، منطقی است که بپرسیم، داشتن چیزی که وب را دوباره به صورت محو بازنویسی می‌کند چه فایده‌ای دارد؟ اگر ما برای همیشه دسترسی خود را به اینترنت از دست می‌دادیم و مجبور بودیم یک کپی را روی یک سرور خصوصی با فضای محدود ذخیره کنیم، یک مدل زبان بزرگ مانند ChatGPT ممکن است راه‌حل خوبی باشد، اما ما دسترسی خود را به اینترنت از دست نداده‌ایم. پس چرا باید JPEG تار را به جای نسخه اصلی ببینیم؟!

منبع: نیویورکر