گوگل در حال آموزش روبات‌ها برای نوشتن عناوین ویکی‌پدیا است

۳۰ بهمن ۱۳۹۶آخرین بروزرسانی: ۳۰ بهمن ۱۳۹۶

زمان تقریبی مطالعه 2 دقیقه

تیمی در بخش Google Brain مشغول آموزش نرم‌فزاری هستند که بتواند عناوینی به سبک ویکی‌پیدا با استفاده از خلاصه‌‌سازی اطلاعات صفحات وب بنویسد.

اینترنت چیزی نیست جز انبوهی از مقالات و عناوین، پست‌های شبکه‌های اجتماعی، رفتارهای کاربران، شادی، نفرت و وبلاگ‌ها. این چیزها هم هیچ‌گاه پایانی ندارند. پس، هرگز انسان نخواهد توانست همه این‌ها را بخواند و نگه‌داری کند.

وقتی داریم از هوش مصنوعی برای یافتن عکس‌های دارای سگ و گربه استفاده می‌کنیم و می‌خواهیم این عکس‌ها به طور مجزایی دسته‌بندی شوند؛ چرا از کامپیوترها نخواهیم که برخی از این عناوین و مقالات را بنویسند و روی وب منتشر کنند؟

یک مقاله ارایه شده در کنفرانس بین‌المللی Learning Representations در ماه آوریل سال گذشته، نشان می‌دهد خلاصه‌سازی متون برای کامپیوترها چقدر کار سخت و پیچیده‌ای است.

شرکت‌های زیادی در این زمینه تحقیق و کار کردند و به نتایجی هم رسیده‌اند. اخیرا سایت Salesforce یک شبکه عصبی با تکنیک‌های «یادگیری تقویتی» آموزش داده بود که بتواند متنی را گرفته و خلاصه کوتاه و مفیدی از آن تولید کند. نتیجه کار چندان بد نبود. اما جمله‌های تولید شده توسط کامپیوترها کوتاه و ساده هستند که مشخص است متعلق به یک انسان نیستند.

آخرین تلاش‌ها در این زمینه را آزمایشگاه تحقیقاتی یادگیری ماشینی گوگل موسوم به Google Brain انجام داده است. متن تولید شده توسط نرم‌افزار این آزمایشگاه از جملات طولانی‌تر و طبیعی‌تری تشکیل شده که به کار انسان نزدیک‌تر هستند.

در عکس زیر، متن سمت چپ توسط نرم‌افزار هوش مصنوعی گوگل از روی یک مدخل ویکی‌پدیا خلاصه‌سازی شده است:

همان‌طور که مشاهده می‌کنید؛ جملات خشک و بسیار رسمی هستند. برخی قواعد نگارشی مانند حروف بزرگ و کوچک رعایت نشده است و در مجموع قابل خواندن است. اگرچه، قواعد خلاصه‌نویسی و اختصارگویی در آن نیز به خوبی رعایت نشده است ولی نشان می‌دهد گوگل توانسته به سطوحی از موفقیت در این زمینه برسد.

موفقیت‌های نسبی و فاصله باقی مانده

نحوه کار این سیستم این‌گونه است که ده‌ها صفحه مطلب درباره یک موضوع مشخص به نرم‌افزار گوگل داده می‌شود. سعی می‌شود این اطلاعات از ویکی‌پدیا یا مدخل‌های مرتبط با موضوع نباشند. همین‌طور، از در این صفحات وب، لینک‌ها و منبع‌های ویکی‌پدیا حذف می‌شوند.

گوگل فعلا مطالب انتخاب شده ورودی برای این نرم‌افزار را بیشتر با هدف آموزش و الگوسازی آن استفاده می‌کند و مطالب کمی برای توسعه یا آزمایش سیستم به کار می‌روند.

هر پاراگراف در این متن‌ها رتبه‌بندی شده و مطالب تمامی صفحات در یک بخش و به صورت پشت سر هم برای ساختن یک سند طولانی چیده می‌شوند. متن‌ها رمزگذاری و کوتاه‌تر می‌شوند. سپس به قطعه‌های کوچک‌تر حدود ۳۲۰۰ کلمه‌ای تقسیم می‌شوند تا به عنوان ورودی پذیرفته شوند.

نرم‌افزار گوگل سعی می‌کند با استفاده از برخی تکنیک‌های خلاصه‌سازی رایج و شناخته شده، متن‌های طولانی و جملات بلند را کوتاه‌تر کند. برخی جملات را با جملات دیگری عوض می‌کند و همین‌طور با متن و جملات بازی می‌شود.

در حقیقت، متن نهایی استخراج شده، از ابتدا نگارش نشده است بلکه یک خلاصه‌سازی ماشینی و حرفه‌ای است. به همین دلیل، برخی جملات و ساختارها سخت و خشن هستند و تکراری به نظر می‌رسند.

خود گوگل هم اذعان دارد که هنوز با مدل نهایی تولید محتوا از روی یک سری صفحات و منابع وبی فاصله دارد و نمی‌شود این سطح از خلاصه‌سازی را برای ساختن مدخل‌های ورودی جدید ویکی‌پدیا استفاده کند.

اما پیشرفته‌ها و موفقیت‌های نسبی آزمایشگاه Google Brain قابل توجه است و نشان می‌دهد در آینده این امر غیرممکن نیست. شاید خیلی زود و در کمتر از چند سال، وبلاگ‌نویس‌های ماشینی تعداشان از وبلاگ‌نویس‌های انسان بیشتر شود و آن‌ها بتوانند ویکی‌پدیا را چندین برابر اندازه کنونی توسعه دهند.

منبع