یک چت‌بات هوش مصنوعی توانست «آزمون تورینگ» (Turing Test) را با موفقیت پشت سر بگذارد!

۲۷ فروردین ۱۴۰۴آخرین بروزرسانی: ۲۷ فروردین ۱۴۰۴

زمان تقریبی مطالعه 2 دقیقه

در هفته‌ای که گذشت، تیترهای زیادی درباره‌ این موضوع منتشر شد که یکی از مدل‌های هوش مصنوعی موفق شده «آزمون تورینگ» (Turing Test) را با موفقیت پشت سر بگذارد. اما این خبر دقیقاً به چه معناست؟ و آیا واقعاً می‌توان آن را نشانه‌ای از رسیدن هوش مصنوعی به درک انسانی دانست؟

این گزارش‌ها بر پایهٔ یک پژوهش جدید هستند که توسط دو پژوهشگر از دانشگاه کالیفرنیا سن‌دیگو انجام شده. در این تحقیق، چهار مدل زبانی بزرگ (Large Language Models یا به‌اختصار LLMs) مورد بررسی قرار گرفتند: ELIZA، GPT-4o، LLaMa-3.1-405B و GPT-4.5.

در میان آن‌ها، مدل GPT-4.5 موفق شد که در بیش از ۷۰٪ مواقع، از نگاه کاربران به‌عنوان انسان واقعی شناسایی شود؛ عددی که از نظر آماری چشمگیر است. اما این واقعیت، بیش از آن‌که نشانه‌ای از «فهم» باشد، نشانی از «شباهت ظاهری» به انسان است.

آزمون تورینگ چیست و از کجا آمده؟

در سال ۱۹۵۰، ریاضی‌دان بریتانیایی، «آلن تورینگ» (Alan Turing)، مقاله‌ای نوشت با عنوان «ماشین‌های محاسباتی و هوش» که در آن از بازی‌ای به نام «بازی تقلید» یاد کرد. این بازی بعدها به‌عنوان «آزمون تورینگ» شناخته شد.

در این آزمایش کلاسیک، یک داور باید از طریق پرسش‌ و پاسخ، تشخیص دهد که کدام‌یک از دو طرف گفت‌وگو انسان است و کدام‌یک ماشین. اگر ماشین موفق شود داور را فریب دهد و به‌جای انسان معرفی شود، گفته می‌شود که آزمون تورینگ را با موفقیت گذرانده است.

اما نکته اینجاست: تورینگ به‌جای اینکه بپرسد «آیا ماشین‌ها می‌توانند فکر کنند؟» ترجیح داد بپرسد: «آیا می‌توانند طوری رفتار کنند که گویی در حال فکر کردن هستند؟»

جزئیات پژوهش جدید چه بود؟

در این مطالعه، ۲۸۴ داوطلب شرکت کردند و نقش‌های مختلفی را بر عهده گرفتند؛ برخی در نقش بازجو و برخی در نقش یکی از دو «شاهد» گفت‌وگو. در هر مرحله، شرکت‌کننده با دو طرف گفت‌وگو چت می‌کرد؛ یکی انسان واقعی و دیگری یک مدل زبانی هوش مصنوعی. گفت‌وگوها پنج دقیقه طول می‌کشید و از طریق رابط کاربری‌ای شبیه پیام‌رسان انجام می‌شد.

پس از پایان مکالمه، از شرکت‌کننده پرسیده می‌شد که فکر می‌کند کدام‌یک انسان بوده. نتیجه؟

GPT-4.5 موفق شد در ۷۳٪ موارد به‌جای انسان تشخیص داده شود.
مدل LLaMa-3.1-405B توانست در ۵۶٪ مواقع فریب دهد.
اما دو مدل دیگر یعنی ELIZA و GPT-4o در این آزمون ناموفق بودند و فقط در حدود ۲۰٪ مواقع به‌عنوان انسان تشخیص داده شدند.

چرا آزمون تورینگ همچنان بحث‌برانگیز است؟

گرچه آزمون تورینگ در فرهنگ عمومی نماد نهایی هوش مصنوعی به‌حساب می‌آید، اما در دنیای علمی، انتقادات جدی‌ای به آن وارد است. چهار نقد اصلی در این زمینه عبارت‌اند از:

۱. رفتار ≠ تفکر: بعضی محققان می‌گویند اگر ماشینی فقط رفتاری مشابه انسان نشان دهد، دلیل بر داشتن هوش یا تفکر نیست.
۲. مغز ماشین نیست: تورینگ مغز انسان را به ماشین تشبیه کرد، اما بسیاری از پژوهشگران این تشبیه را نادرست می‌دانند.
۳. روش استنتاج متفاوت است: حتی اگر خروجی ماشین شبیه انسان باشد، مسیر رسیدن به پاسخ با انسان فرق دارد. پس مقایسه نادرست است.
۴. دامنهٔ محدود آزمون: تنها تست‌کردن یک مهارت (مثل چت‌کردن) نمی‌تواند نشان‌دهندهٔ هوش واقعی باشد.

آیا می‌توان گفت GPT-4.5 هوشمند است؟

در پایان این تحقیق آمده که آزمون تورینگ، بیشتر معیاری برای «قابلیت جانشینی» است. یعنی آیا می‌شود ماشین را جایگزین انسان کرد بدون اینکه کسی متوجه شود؟

پژوهشگران خودشان هم تأکید کرده‌اند که سربلند بیرون آمدن از آزمون تورینگ، به معنای هوش واقعی نیست، بلکه فقط به معنای «تقلید خوب» از انسان است.

همچنین باید توجه کرد که شرایط این آزمایش محدود بود. پنجرهٔ زمانی پنج دقیقه‌ای برای گفت‌وگو بسیار کوتاه است. از سوی دیگر، مشخص نشده که تأثیر «شخصیت‌»هایی که به مدل‌های مختلف داده شده چه بوده و آیا این شخصیت‌های ساختگی باعث بهبود عملکرد شده‌اند یا نه.

گرچه GPT-4.5 شاید بتواند در مواردی انسان را گول بزند، اما هنوز نمی‌توان گفت به سطح هوشی یک انسان رسیده است.