گوگل در حال آموزش روباتها برای نوشتن عناوین ویکیپدیا است

تیمی در بخش Google Brain مشغول آموزش نرمفزاری هستند که بتواند عناوینی به سبک ویکیپیدا با استفاده از خلاصهسازی اطلاعات صفحات وب بنویسد.
اینترنت چیزی نیست جز انبوهی از مقالات و عناوین، پستهای شبکههای اجتماعی، رفتارهای کاربران، شادی، نفرت و وبلاگها. این چیزها هم هیچگاه پایانی ندارند. پس، هرگز انسان نخواهد توانست همه اینها را بخواند و نگهداری کند.
وقتی داریم از هوش مصنوعی برای یافتن عکسهای دارای سگ و گربه استفاده میکنیم و میخواهیم این عکسها به طور مجزایی دستهبندی شوند؛ چرا از کامپیوترها نخواهیم که برخی از این عناوین و مقالات را بنویسند و روی وب منتشر کنند؟
یک مقاله ارایه شده در کنفرانس بینالمللی Learning Representations در ماه آوریل سال گذشته، نشان میدهد خلاصهسازی متون برای کامپیوترها چقدر کار سخت و پیچیدهای است.
-------
علت و عوارض مشکل پزشکی از چیست؟
شرکتهای زیادی در این زمینه تحقیق و کار کردند و به نتایجی هم رسیدهاند. اخیرا سایت Salesforce یک شبکه عصبی با تکنیکهای «یادگیری تقویتی» آموزش داده بود که بتواند متنی را گرفته و خلاصه کوتاه و مفیدی از آن تولید کند. نتیجه کار چندان بد نبود. اما جملههای تولید شده توسط کامپیوترها کوتاه و ساده هستند که مشخص است متعلق به یک انسان نیستند.
آخرین تلاشها در این زمینه را آزمایشگاه تحقیقاتی یادگیری ماشینی گوگل موسوم به Google Brain انجام داده است. متن تولید شده توسط نرمافزار این آزمایشگاه از جملات طولانیتر و طبیعیتری تشکیل شده که به کار انسان نزدیکتر هستند.
در عکس زیر، متن سمت چپ توسط نرمافزار هوش مصنوعی گوگل از روی یک مدخل ویکیپدیا خلاصهسازی شده است:
همانطور که مشاهده میکنید؛ جملات خشک و بسیار رسمی هستند. برخی قواعد نگارشی مانند حروف بزرگ و کوچک رعایت نشده است و در مجموع قابل خواندن است. اگرچه، قواعد خلاصهنویسی و اختصارگویی در آن نیز به خوبی رعایت نشده است ولی نشان میدهد گوگل توانسته به سطوحی از موفقیت در این زمینه برسد.
موفقیتهای نسبی و فاصله باقی مانده
نحوه کار این سیستم اینگونه است که دهها صفحه مطلب درباره یک موضوع مشخص به نرمافزار گوگل داده میشود. سعی میشود این اطلاعات از ویکیپدیا یا مدخلهای مرتبط با موضوع نباشند. همینطور، از در این صفحات وب، لینکها و منبعهای ویکیپدیا حذف میشوند.
گوگل فعلا مطالب انتخاب شده ورودی برای این نرمافزار را بیشتر با هدف آموزش و الگوسازی آن استفاده میکند و مطالب کمی برای توسعه یا آزمایش سیستم به کار میروند.
هر پاراگراف در این متنها رتبهبندی شده و مطالب تمامی صفحات در یک بخش و به صورت پشت سر هم برای ساختن یک سند طولانی چیده میشوند. متنها رمزگذاری و کوتاهتر میشوند. سپس به قطعههای کوچکتر حدود ۳۲۰۰ کلمهای تقسیم میشوند تا به عنوان ورودی پذیرفته شوند.
نرمافزار گوگل سعی میکند با استفاده از برخی تکنیکهای خلاصهسازی رایج و شناخته شده، متنهای طولانی و جملات بلند را کوتاهتر کند. برخی جملات را با جملات دیگری عوض میکند و همینطور با متن و جملات بازی میشود.
در حقیقت، متن نهایی استخراج شده، از ابتدا نگارش نشده است بلکه یک خلاصهسازی ماشینی و حرفهای است. به همین دلیل، برخی جملات و ساختارها سخت و خشن هستند و تکراری به نظر میرسند.
خود گوگل هم اذعان دارد که هنوز با مدل نهایی تولید محتوا از روی یک سری صفحات و منابع وبی فاصله دارد و نمیشود این سطح از خلاصهسازی را برای ساختن مدخلهای ورودی جدید ویکیپدیا استفاده کند.
اما پیشرفتهها و موفقیتهای نسبی آزمایشگاه Google Brain قابل توجه است و نشان میدهد در آینده این امر غیرممکن نیست. شاید خیلی زود و در کمتر از چند سال، وبلاگنویسهای ماشینی تعداشان از وبلاگنویسهای انسان بیشتر شود و آنها بتوانند ویکیپدیا را چندین برابر اندازه کنونی توسعه دهند.