ChatGPT یک JPEG تار از وب است – چت ربات OpenAI عبارتهای توضیحی و مختصر و مفید ارائه میکند، در حالی که گوگل نقل قول میکند؟ کدام ترجیح داده میشوند؟

نوشته تد چیانک
در سال ۲۰۱۳، کارمندان یک شرکت معماری آلمانی متوجه چیز عجیبی در مورد دستگاه فتوکپی زیراکس خود شدند: زمانی که آنها یک کپی از پلان یک خانه تهیه کردند، کپی آن به شکلی ظریف اما قابل توجه با اصل تفاوت داشت. در پلان طبقه اول، هر یک از سه اتاق خانه مستطیلی با مساحت متفاوت بود: اتاقها به ترتیب ۱۴.۱۳، ۲۱.۱۱ و ۱۷.۴۲ متر مربع بودند. با این حال، در فتوکپی، هر سه اتاق به اندازه ۱۴.۱۳ متر مربع کپی شده بودند.
این شرکت با دانشمند علوم کامپیوتر -دیوید کریزل- تماس گرفت تا این نتیجه به ظاهر غیرقابل تصور را بررسی کند. آنها به یک دانشمند کامپیوتر نیاز داشتند زیرا یک دستگاه فتوکپی زیراکس مدرن از فرآیند فیزیکی زیروگرافی قدیمی دهه ۱۹۶۰ استفاده نمیکند. بلکه، سند را به صورت دیجیتالی اسکن میکند و سپس فایل تصویر حاصل را چاپ میکند. به علاوه فایل تصویر دیجیتال برای صرفهجویی در فضا فشرده میشود و راه حلی برای این فشردهسازی پیدا میشود.
فشردهسازی یک فایل به دو مرحله نیاز دارد: اول، رمزگذاری، که طی آن فایل به فرمت فشردهتری تبدیل میشود، و سپس رمزگشایی، که طی آن فرآیند معکوس میشود. اگر فایل بازیابی شده با فایل اصلی یکسان باشد، فرآیند فشرده سازی به عنوان بدون ضرر یا اتلاف توصیف میشود، یعنی هیچ اطلاعاتی نادیده گرفته نشده است.
در مقابل، اگر فایل بازیابی شده تنها به صورت تقریبی شبیه فایل اصلی باشد، فشردهسازی به عنوان «از دست رفته» توصیف میشود: یعنی برخی از اطلاعات کنار گذاشته شدهاند و اکنون غیرقابل بازیابی هستند.
فشردهسازی بدون اتلاف چیزی است که معمولاً برای فایلهای متنی و برنامههای رایانهای استفاده میشود، زیرا آنها حوزههایی هستند که حتی یک کاراکتر نادرست در آنها پتانسیل فاجعهبار بودن را دارد. فشردهسازی با اتلاف اغلب برای عکسها، صدا و ویدیو در شرایطی که دقت مطلق ضروری نباشد استفاده میشود. بیشتر اوقات، ما متوجه نمیشویم که یک عکس، آهنگ یا فیلم کپی کامل نیست. اصل نبودن از نظر ما تنها زمانی محسوستر میشود که فایل ها به شدت فشرده میشوند. در این موارد، ما متوجه مواردی میشویم که خروجی فشردهسازی مبهم شده است. چیزی که در تصاویر JPEG و MPEG یا MP3 های با نرخ بیت پایین رخ میدهد.
دستگاههای فتوکپی زیراکس از فرمت فشردهسازی با اتلاف به نام JBIG 2 استفاده میکنند که برای استفاده با تصاویر سیاه و سفید طراحی شده. برای صرفهجویی در فضا، دستگاه کپی نواحی شبیه به هم را در تصویر شناسایی میکند و یک کپی را برای همه آنها ذخیره میکند. هنگامی که فایل از حالت فشرده خارج می شود، از آن کپی مکررا برای بازسازی تصویر استفاده میکند. معلوم شد که دستگاه فتوکپی برچسبهایی را که مساحت اتاقها را مشخص میکنند به اندازه کافی مشابه ارزیابی کرده که فقط یکی از آنها را ذخیره کندیعنی مساحت ۱۴.۱۳ – و هنگام چاپ پلان طبقه، از آن یکی برای هر سه اتاق دوباره استفاده کرده بود!
دستگاههای فتوکپی زیراکس از فرمت فشردهسازی با اتلاف به جای فرمت بدون اتلاف استفاده می کنند، به خودی خود یک مشکل نیست. مشکل این است که دستگاههای فتوکپی به روشی ظریف تصویر را تخریب میکردند، که در آن آثار فشردهسازی بلافاصله قابل تشخیص نبودند. اگر دستگاه فتوکپی به سادگی پرینتهای تار تولید میکرد، همه میدانستند که آنها بازتولید دقیقی از نسخههای اصلی نیستند. مشکل این بود که دستگاه فتوکپی اعدادی را تولید میکرد که خوانا، اما نادرست بودند. این باعث میشد کپیها درست به نظر برسند در حالی که دقیق نبودند. (در سال ۲۰۱۴، زیراکس یک پچ برای اصلاح این مشکل منتشر کرد.)
من فکر میکنم که امروز با توجه به ChatGPT OpenAI، رخداد مشابه دستگاههای فتوکپی زیراکس را باید در نظر داشت. سایر برنامههای مشابه که محققان هوش مصنوعی آنها را مدلهای زبان بزرگ مینامند نیز مستعد چنین چیزی هستند.
شباهت بین یک دستگاه فتوکپی و یک مدل زبان بزرگ ممکن است فوری برای شما محسوس نباشد. پس توضیح میدهم:
سناریوی زیر را در نظر بگیرید. تصور کنید که دسترسی خود را به اینترنت برای همیشه از دست دادهاید (چه سناریوی ممکنی برای ما!). در مرحله آماده سازی، قصد دارید یک کپی فشرده از تمام متن موجود در وب ایجاد کنید تا بتوانید آن را در یک سرور خصوصی ذخیره کنید. متأسفانه سرور خصوصی شما تنها یک درصد از فضای مورد نیاز را دارد. اگر می خواهید همه چیز عین اصل باشد، نمی وانید از الگوریتم فشرده سازی بدون اتلاف استفاده کنید. در عوض، شما یک الگوریتم دارای اتلاف مینویسید که نظمهای آماری را در متن شناسایی میکند و آنها را در یک فرمت فایل تخصصی ذخیره می کند. زیرا شما تقریباً قدرت محاسباتی نامحدودی برای انجام این کار دارید.
در حال حاضر، از دست دادن دسترسی به اینترنت شما چندان وحشتناک نیست. شما تمام اطلاعات موجود در وب را در سرور خود ذخیره کرده ید. تنها نکته این است که، چون متن بسیار فشرده شده ، نمی توانید با جستجوی یک نقل قول دقیق، هرگز یک تطابق دقیق پیدا نمی کنید، زیرا کلمات آن چیزی نیستند که ذخیره شدهاند. برای حل این مشکل، یک رابط ایجاد میکنید که پرسوجوها را در قالب سؤال میگیرد و خروجی پاسخ آن، چیزهایی مبتنی بر سرور است.
آنچه من توضیح دادم بسیار شبیه به ChatGPT یا بیشتر مدل های زبان بزرگ دیگر است. ChatGPT را به عنوان یک JPEG تار از تمام متن های وب در نظر بگیرید. بسیاری از اطلاعات موجود در وب را حفظ می کند، همانطور که یک JPEG بسیاری از اطلاعات یک تصویر با وضوح بالاتر را حفظ می کند، اما، اگر به دنبال دنبالهای دقیق از بیتها باشید، آن را پیدا نمی کنید. تنها چیزی که به دست می آورید یک تقریب است.
چون سوال نوشتاری ساده میپرسید و پاسخ معمولا معقول میگیرید، همه چیز مورد خوشایند شماست. اما شما همچنان در حال نگریستن و مطالعه یک JPEG تار هستید، اما متاسفانه این تاری خیلی وقتها به نظرتان نمیآید.
این تشبیه به فشرده سازی با اتلاف تنها راهی برای درک امکانات ChatGPT در بسته بندی مجدد اطلاعات موجود در وب با استفاده از کلمات مختلف نیست. همچنین راهی برای درک «توهمات» یا پاسخهای بیمعنی به سؤالات واقعی است که مدلهای زبان بزرگ مانند ChatGPT همگی مستعد آن هستند.
این توهمات ساختههای فشردهسازی هستند، اما – مانند برچسبهای نادرست تولید شده توسط دستگاه فتوکپی زیراکس – به اندازه کافی قابل قبول هستند که شناسایی آنها مستلزم مقایسه آنها با نمونههای اصلی است. به عبارتی خودتان باید خیلی مطالعه داشته باشدی و دنیای وب را بشناسید تا متوجه این اشتباهات بشوید.
الگوریتم فشرده سازی که بازسازی متن پس از حذف نود و نه درصد از متن اصلی طراحی شده باشد، ناگزیر اشتباه میکند یا به اشتباه میاندازد.
جنبه دیگری در قیاس فشردهسازی وجود دارد که ارزش بررسی دارد:
از سال ۲۰۰۶، یک محقق هوش مصنوعی به نام مارکوس هاتر به هر کسی که بتواند یک عکس فوری یک گیگابایتی خاص از ویکیپدیا را بدون اتلاف فشرده کند، جایزه نقدی – معروف به جایزه فشردهسازی دانش انسانی یا جایزه هاتر – ارائه میکند.
فرمت zip فایل یک گیگابایتی Hutter را به حدود سیصد مگابایت کاهش می دهد. آخرین برنده جایزه توانسته است آن را به صد و پانزده مگابایت کاهش دهد. این فقط یک تمرین در هم کوبیدن نیست. هاتر معتقد است که فشردهسازی بهتر متن در ایجاد هوش مصنوعی در سطح انسانی مؤثر خواهد بود،به این دلیل که با درک متن میتوان به بیشترین درجه فشردهسازی دست یافت.
تصور کنید که یک فایل متنی حاوی میلیونها مثال از جمع، تفریق، ضرب و تقسیم دارید. اگرچه هر الگوریتم فشردهسازی میتواند حجم این فایل را کاهش دهد، اما راه دستیابی به بیشترین نسبت فشردهسازی احتمالاً استخراج اصول حساب و سپس نوشتن کد یک برنامه ماشین حساب است. با استفاده از یک ماشین حساب، میتوانید نه تنها میلیونها مثال موجود در فایل، بلکه هر نمونه دیگری از محاسباتی را که ممکن است در آینده با آن مواجه شوید، کاملاً بازسازی کنید. همین منطق در مورد مشکل فشرده سازی یک برش از ویکی پدیا نیز صدق می کند. اگر یک برنامه فشردهسازی بداند که نیرو برابر است با جرم ضربدر شتاب، میتواند هنگام فشردهسازی صفحات مربوط به فیزیک، کلمات زیادی را کنار بگذارد، زیرا قادر به بازسازی آنها خواهد بود.
مدلهای زبان بزرگ، نظمهای آماری را در متن شناسایی می کنند.مثلا تجزیه و تحلیل از متن وب نشان میدهد که عباراتی مانند “عرضه کم است” اغلب در مجاورت عباراتی مانند “افزایش قیمتها” ظاهر میشوند. یک ربات چت که این همبستگی را در نظر میگیرد، ممکن است وقتی سوالی در مورد تأثیر کمبود عرضه پرسیده شود، پاسخی در مورد افزایش قیمتها پاسخ دهد. اگر یک مدل زبان بزرگ تعداد زیادی از همبستگیها را بین اصطلاحات اقتصادی جمعآوری کرده باشد – آنقدر زیاد که میتواند پاسخهای قابل قبولی را به سؤالات مختلف ارائه دهد – آیا باید بگوییم که واقعاً نظریه اقتصادی را درک میکند؟
مدلهایی مانند ChatGPT به دلایل مختلفی واجد شرایط دریافت جایزه Hutter نیستند، یکی از آنها این است که متن اصلی را دقیقا بازسازی نمیکنند—یعنی فشردهسازی بدون اتلاف را انجام نمیدهند.
به مثال حساب بازگردیم. اگر از GPT-3 بپرسید (مدل زبان بزرگی که ChatGPT از آن ساخته شده است) برای جمع یا تفریق یک جفت اعداد، تقریباً همیشه زمانی که اعداد فقط دو رقم داشته باشند، با پاسخ صحیح پاسخ می دهد. اما دقت آن با اعداد بزرگتر به طور قابل توجهی بدتر میشود و زمانی که اعداد پنج رقمی هستند به ده درصد کاهش می یابد. بیشتر پاسخهای صحیحی که GPT-3 میدهد در وب یافت نمیشوند. مثلاً صفحات وب زیادی که حاوی متن «۲۴۵ + ۸۲۱» باشند وجود ندارد. بنابراین چیز سادهای در پیش رو ندارد. اما علیرغم دریافت حجم وسیعی از اطلاعات، قادر به استخراج اصول حساب نیز نبوده است.
با توجه به شکست GPT-3 در موضوعی که در مدرسه ابتدایی تدریس میشود، چگونه میتوانیم این واقعیت را توضیح دهیم که گاهی اوقات به نظر میرسد در نوشتن مقالات در سطح دانشگاه عملکرد خوبی دارد؟ اگرچه مدلهای بزرگ زبان اغلب توهم دارند، اما وقتی شفاف هستند به نظر میرسد که واقعاً موضوعاتی مانند نظریه اقتصادی را درک میکنند. شاید محاسبات یک مورد خاص باشد که مدل های زبان بزرگ برای آن مناسب نیستند. آیا این امکان وجود دارد که در حوزههای خارج از جمع و تفریق، قوانین آماری در متن با دانش واقعی دنیای واقعی مطابقت داشته باشند؟
من فکر می کنم توضیح سادهتری وجود دارد. تصور کنید اگر ChatGPT یک الگوریتم بدون اتلاف باشد، چه شکلی به نظر میرسد. اگر چنین بود، همیشه با ارائه یک نقل قول از یک صفحه وب مرتبط به سؤالات پاسخ میداد. ما احتمالاً نرم افزار را فقط یک پیشرفت جزئی نسبت به یک موتور جستجوی معمولی میدانستیم و کمتر تحت تأثیر آن قرار می گیریم.
اما ChatGPT مطالب را از وب به جای نقل قول کلمه به کلمه بازنویسی میکند، باعث میشود که به نظر میرسد دانشآموزی ایدههای خود را با کلمات خود بیان میکند، نه اینکه صرفاً آنچه را که خوانده، بازگو کند و این توهم را ایجاد می کند که ChatGPT مطالب را درک میکند.
بنابراین ناتوانی ChatGPT در تولید نقل قول های دقیق از صفحات وب دقیقاً چیزی است که ما را به این فکر می کند که چیزی یاد گرفته است!
کاربردهای زیادی برای مدل های زبان بزرگ پیشنهاد شده است. بیایید چند سناریو را در نظر بگیریم.
آیا مدل های زبان بزرگ می توانند جای موتورهای جستجوی سنتی را بگیرند؟
برای اینکه ما به آنها اطمینان داشته باشیم، باید بدانیم که آنها از پروپاگاندا و تئوریهای توطئه تغذیه نشده اند – باید بدانیم که JPEG بخشهای مناسبی از وب را ضبط میکند. اما، حتی اگر یک مدل زبان بزرگ فقط شامل اطلاعاتی باشد که ما میخواهیم، باز هم موضوع تاری وجود دارد. یک نوع تاری وجود دارد که قابل قبول است، یعنی بیان مجدد اطلاعات با کلمات مختلف. اما در گام بعدی مبهم بودن جعل آشکار هنگام جستجوی حقایق ایجاد میکند. مشخص نیست که از نظر فنی امکان حفظ نوع تاری قابل قبول و حذف نوع غیرقابل قبول وجود دارد، اما من انتظار دارم که در آینده نزدیک متوجه این موضوع شویم.
آیا باید از مدلهای زبان بزرگ برای تولید محتوای وب استفاده کنیم؟!
این تنها در صورتی منطقی خواهد بود که هدف ما بستهبندی مجدد اطلاعاتی باشد که از قبل در وب در دسترس است. برخی از شرکت ها برای انجام این کار وجود دارند – ما معمولا آنها را کارخانه تولید محتوا مینامیم. شاید تاری مدلهای زبان بزرگ برای آنها مفید باشد، زیرا راهی برای جلوگیری از نقض کپی رایت هستند. با این حال، به طور کلی، میتوانم بگویم که همین چیزی که برای کارخانههای تولید محتوا خوب است، برای افرادی که به دنبال اطلاعات هستند خوب نیست.
افزایش این نوع بسته بندی مجدد چیزی است که یافتن آنچه را که در حال حاضر آنلاین به دنبال آن هستیم برای ما دشوارتر می کند. هر چه متن تولید شده توسط مدلهای زبان بزرگ بیشتر در وب منتشر شود، وب به نسخه ای مبهمتر از خود تبدیل می شود.
اطلاعات بسیار کمی در در مورد ، GPT-4 در دسترس است. اما میخواهم پیشبینی کنم: هنگام جمعآوری مقدار زیادی متن مورد استفاده برای آموزش GPT-4، مهندسان OpenAI تلاش میکنند عکس نوتری از وب بگیرند. یعنی فتوکپی از فتوکپی نگیرند.
در واقع، یک معیار مفید برای سنجش کیفیت یک مدل زبان بزرگ ممکن است تمایل یک شرکت به استفاده از متنی باشد که تولید میکند به عنوان ماده آموزشی برای یک مدل جدید. اگر خروجی ChatGPT برای GPT-4 به اندازه کافی خوب نباشد، ممکن است آن را به عنوان یک شاخص در نظر بگیریم که برای ما نیز به اندازه کافی خوب نیست.
آیا مدل های زبان بزرگ می توانند به انسان در ایجاد نوشتار اصلی کمک کنند؟ یعنی فقط یک ابزار باشند و کار اصلی ما را بکنیم؟
برای پاسخ به آن، باید منظورمان از این سوال را مشخص کنیم. ژانری از هنر وجود دارد که به هنر زیراکس یا هنر فتوکپی معروف است که در آن هنرمندان از ویژگیهای متمایز دستگاه فتوکپی به عنوان ابزار خلاقانه استفاده میکنند. مطمئناً در مورد ChatGPT هم این امکانپذیر است، بنابراین، از این نظر، پاسخ مثبت است. اما فکر نمیکنم کسی ادعا کند که دستگاه فتوکپی به ابزاری ضروری در خلق هنر تبدیل شده است. اکثریت قریب به اتفاق هنرمندان از آنها در فرآیند خلاقیت خود استفاده نمی کنند و هیچ کس استدلال نمی کند که آنها با این انتخاب خود را در معرض ضرر قرار می دهند.
بنابراین بیایید فرض کنیم که ما در مورد ژانر جدیدی از نوشتن که مشابه هنر زیراکس باشد صحبت نمیکنیم. با توجه به این شرط، آیا متن تولید شده توسط مدلهای زبان بزرگ میتواند نقطه شروع مفیدی برای نویسندگان باشد تا در هنگام نوشتن چیزی اصلی، چه داستانی یا غیرداستانی، آن را بسازند؟ آیا اجازه دادن به یک مدل زبان بزرگ به نویسندگان اجازه می هد تا توجه خود را بر روی بخش های واقعا خلاقانه متمرکز کنند؟
اما شروع با یک کپی مبهم از اثر غیر اصلی، راه خوبی برای خلق اثر اصلی نیست. اگر نویسنده هستید، قبل از اینکه چیزی اوریجینال بنویسید، کارهای ناقص زیادی خواهید نوشت و زمان و تلاشی که صرف آن کارهای ابتدایی میشود هدر نمی رود. برعکس، من پیشنهاد میکنم که این دقیقاً همان چیزی است که شما را قادر میسازد در نهایت چیزی اصیل بیافرینید. ساعتهایی که صرف انتخاب کلمه مناسب و تنظیم مجدد جملات برای پیروی بهتر از یکدیگر میشود، چیزی است که به شما میآموزد که چگونه معنا با نثر منتقل میشود.
نوشتن مقاله دانشآموزی صرفاً راهی برای آزمایش درک آنها از مطالب نیست. آنها این طوری واقعا به تکاپوی بیان افکارشان نمیافتند.
گاهی اوقات فقط در مرحله نوشتن است که ایدههای اصلی خود را کشف می کنید. برخی ممکن است بگویند که خروجی مدلهای زبان بزرگ چندان متفاوت از پیشنویس اول یک نویسنده انسانی نیست، اما، باز هم، فکر میکنم این یک شباهت سطحی است. اولین پیش نویس شما یک ایده غیراصلی نیست که به وضوح بیان شده باشد. این یک ایده اصلی است که به خوبی بیان شده، این چیزی است که شما را در حین بازنویسی هدایت میکند.
هیچ چیز جادویی یا حقه و آییینی در مورد نوشتن وجود ندارد
اما نوشتن چیزی بیشتر از قرار دادن یک سند موجود بر روی یک دستگاه فتوکپی غیرقابل اعتماد و فشار دادن دکمه چاپ است. این امکان وجود دارد که در آینده، هوش مصنوعی بسازیم که قادر به نوشتن نثر خوب باشد. روزی که به آن دست یابیم واقعاً مهم خواهد بود – اما آن روز بسیار فراتر از افق پیش بینی ما است. در این میان، منطقی است که بپرسیم، داشتن چیزی که وب را دوباره به صورت محو بازنویسی میکند چه فایدهای دارد؟ اگر ما برای همیشه دسترسی خود را به اینترنت از دست میدادیم و مجبور بودیم یک کپی را روی یک سرور خصوصی با فضای محدود ذخیره کنیم، یک مدل زبان بزرگ مانند ChatGPT ممکن است راهحل خوبی باشد، اما ما دسترسی خود را به اینترنت از دست ندادهایم. پس چرا باید JPEG تار را به جای نسخه اصلی ببینیم؟!
منبع: نیویورکر