یک چتبات هوش مصنوعی توانست «آزمون تورینگ» (Turing Test) را با موفقیت پشت سر بگذارد!

در هفتهای که گذشت، تیترهای زیادی درباره این موضوع منتشر شد که یکی از مدلهای هوش مصنوعی موفق شده «آزمون تورینگ» (Turing Test) را با موفقیت پشت سر بگذارد. اما این خبر دقیقاً به چه معناست؟ و آیا واقعاً میتوان آن را نشانهای از رسیدن هوش مصنوعی به درک انسانی دانست؟
این گزارشها بر پایهٔ یک پژوهش جدید هستند که توسط دو پژوهشگر از دانشگاه کالیفرنیا سندیگو انجام شده. در این تحقیق، چهار مدل زبانی بزرگ (Large Language Models یا بهاختصار LLMs) مورد بررسی قرار گرفتند: ELIZA، GPT-4o، LLaMa-3.1-405B و GPT-4.5.
در میان آنها، مدل GPT-4.5 موفق شد که در بیش از ۷۰٪ مواقع، از نگاه کاربران بهعنوان انسان واقعی شناسایی شود؛ عددی که از نظر آماری چشمگیر است. اما این واقعیت، بیش از آنکه نشانهای از «فهم» باشد، نشانی از «شباهت ظاهری» به انسان است.
آزمون تورینگ چیست و از کجا آمده؟
در سال ۱۹۵۰، ریاضیدان بریتانیایی، «آلن تورینگ» (Alan Turing)، مقالهای نوشت با عنوان «ماشینهای محاسباتی و هوش» که در آن از بازیای به نام «بازی تقلید» یاد کرد. این بازی بعدها بهعنوان «آزمون تورینگ» شناخته شد.
در این آزمایش کلاسیک، یک داور باید از طریق پرسش و پاسخ، تشخیص دهد که کدامیک از دو طرف گفتوگو انسان است و کدامیک ماشین. اگر ماشین موفق شود داور را فریب دهد و بهجای انسان معرفی شود، گفته میشود که آزمون تورینگ را با موفقیت گذرانده است.
اما نکته اینجاست: تورینگ بهجای اینکه بپرسد «آیا ماشینها میتوانند فکر کنند؟» ترجیح داد بپرسد: «آیا میتوانند طوری رفتار کنند که گویی در حال فکر کردن هستند؟»
جزئیات پژوهش جدید چه بود؟
در این مطالعه، ۲۸۴ داوطلب شرکت کردند و نقشهای مختلفی را بر عهده گرفتند؛ برخی در نقش بازجو و برخی در نقش یکی از دو «شاهد» گفتوگو. در هر مرحله، شرکتکننده با دو طرف گفتوگو چت میکرد؛ یکی انسان واقعی و دیگری یک مدل زبانی هوش مصنوعی. گفتوگوها پنج دقیقه طول میکشید و از طریق رابط کاربریای شبیه پیامرسان انجام میشد.
پس از پایان مکالمه، از شرکتکننده پرسیده میشد که فکر میکند کدامیک انسان بوده. نتیجه؟
GPT-4.5 موفق شد در ۷۳٪ موارد بهجای انسان تشخیص داده شود.
مدل LLaMa-3.1-405B توانست در ۵۶٪ مواقع فریب دهد.
اما دو مدل دیگر یعنی ELIZA و GPT-4o در این آزمون ناموفق بودند و فقط در حدود ۲۰٪ مواقع بهعنوان انسان تشخیص داده شدند.
چرا آزمون تورینگ همچنان بحثبرانگیز است؟
گرچه آزمون تورینگ در فرهنگ عمومی نماد نهایی هوش مصنوعی بهحساب میآید، اما در دنیای علمی، انتقادات جدیای به آن وارد است. چهار نقد اصلی در این زمینه عبارتاند از:
۱. رفتار ≠ تفکر: بعضی محققان میگویند اگر ماشینی فقط رفتاری مشابه انسان نشان دهد، دلیل بر داشتن هوش یا تفکر نیست.
۲. مغز ماشین نیست: تورینگ مغز انسان را به ماشین تشبیه کرد، اما بسیاری از پژوهشگران این تشبیه را نادرست میدانند.
۳. روش استنتاج متفاوت است: حتی اگر خروجی ماشین شبیه انسان باشد، مسیر رسیدن به پاسخ با انسان فرق دارد. پس مقایسه نادرست است.
۴. دامنهٔ محدود آزمون: تنها تستکردن یک مهارت (مثل چتکردن) نمیتواند نشاندهندهٔ هوش واقعی باشد.
آیا میتوان گفت GPT-4.5 هوشمند است؟
در پایان این تحقیق آمده که آزمون تورینگ، بیشتر معیاری برای «قابلیت جانشینی» است. یعنی آیا میشود ماشین را جایگزین انسان کرد بدون اینکه کسی متوجه شود؟
پژوهشگران خودشان هم تأکید کردهاند که سربلند بیرون آمدن از آزمون تورینگ، به معنای هوش واقعی نیست، بلکه فقط به معنای «تقلید خوب» از انسان است.
همچنین باید توجه کرد که شرایط این آزمایش محدود بود. پنجرهٔ زمانی پنج دقیقهای برای گفتوگو بسیار کوتاه است. از سوی دیگر، مشخص نشده که تأثیر «شخصیت»هایی که به مدلهای مختلف داده شده چه بوده و آیا این شخصیتهای ساختگی باعث بهبود عملکرد شدهاند یا نه.
گرچه GPT-4.5 شاید بتواند در مواردی انسان را گول بزند، اما هنوز نمیتوان گفت به سطح هوشی یک انسان رسیده است.