گوگل در حال آموزش روبات‌ها برای نوشتن عناوین ویکی‌پدیا است

0

تیمی در بخش Google Brain مشغول آموزش نرم‌فزاری هستند که بتواند عناوینی به سبک ویکی‌پیدا با استفاده از خلاصه‌‌سازی اطلاعات صفحات وب بنویسد.

اینترنت چیزی نیست جز انبوهی از مقالات و عناوین، پست‌های شبکه‌های اجتماعی، رفتارهای کاربران، شادی، نفرت و وبلاگ‌ها. این چیزها هم هیچ‌گاه پایانی ندارند. پس، هرگز انسان نخواهد توانست همه این‌ها را بخواند و نگه‌داری کند.

وقتی داریم از هوش مصنوعی برای یافتن عکس‌های دارای سگ و گربه استفاده می‌کنیم و می‌خواهیم این عکس‌ها به طور مجزایی دسته‌بندی شوند؛ چرا از کامپیوترها نخواهیم که برخی از این عناوین و مقالات را بنویسند و روی وب منتشر کنند؟

یک مقاله ارایه شده در کنفرانس بین‌المللی Learning Representations در ماه آوریل سال گذشته، نشان می‌دهد خلاصه‌سازی متون برای کامپیوترها چقدر کار سخت و پیچیده‌ای است.

شرکت‌های زیادی در این زمینه تحقیق و کار کردند و به نتایجی هم رسیده‌اند. اخیرا سایت Salesforce یک شبکه عصبی با تکنیک‌های «یادگیری تقویتی» آموزش داده بود که بتواند متنی را گرفته و خلاصه کوتاه و مفیدی از آن تولید کند. نتیجه کار چندان بد نبود. اما جمله‌های تولید شده توسط کامپیوترها کوتاه و ساده هستند که مشخص است متعلق به یک انسان نیستند.

سفارش طراحی سایت در کارلنسر با قیمت توافقی
لیزر هموروئید درمان بواسیر در کلینیک تخصصی هموروئید تهران

آخرین تلاش‌ها در این زمینه را آزمایشگاه تحقیقاتی یادگیری ماشینی گوگل موسوم به Google Brain انجام داده است. متن تولید شده توسط نرم‌افزار این آزمایشگاه از جملات طولانی‌تر و طبیعی‌تری تشکیل شده که به کار انسان نزدیک‌تر هستند.

در عکس زیر، متن سمت چپ توسط نرم‌افزار هوش مصنوعی گوگل از روی یک مدخل ویکی‌پدیا خلاصه‌سازی شده است:

همان‌طور که مشاهده می‌کنید؛ جملات خشک و بسیار رسمی هستند. برخی قواعد نگارشی مانند حروف بزرگ و کوچک رعایت نشده است و در مجموع قابل خواندن است. اگرچه، قواعد خلاصه‌نویسی و اختصارگویی در آن نیز به خوبی رعایت نشده است ولی نشان می‌دهد گوگل توانسته به سطوحی از موفقیت در این زمینه برسد.

موفقیت‌های نسبی و فاصله باقی مانده

نحوه کار این سیستم این‌گونه است که ده‌ها صفحه مطلب درباره یک موضوع مشخص به نرم‌افزار گوگل داده می‌شود. سعی می‌شود این اطلاعات از ویکی‌پدیا یا مدخل‌های مرتبط با موضوع نباشند. همین‌طور، از در این صفحات وب، لینک‌ها و منبع‌های ویکی‌پدیا حذف می‌شوند.

گوگل فعلا مطالب انتخاب شده ورودی برای این نرم‌افزار را بیشتر با هدف آموزش و الگوسازی آن استفاده می‌کند و مطالب کمی برای توسعه یا آزمایش سیستم به کار می‌روند.

هر پاراگراف در این متن‌ها رتبه‌بندی شده و مطالب تمامی صفحات در یک بخش و به صورت پشت سر هم برای ساختن یک سند طولانی چیده می‌شوند. متن‌ها رمزگذاری و کوتاه‌تر می‌شوند. سپس به قطعه‌های کوچک‌تر حدود ۳۲۰۰ کلمه‌ای تقسیم می‌شوند تا به عنوان ورودی پذیرفته شوند.

نرم‌افزار گوگل سعی می‌کند با استفاده از برخی تکنیک‌های خلاصه‌سازی رایج و شناخته شده، متن‌های طولانی و جملات بلند را کوتاه‌تر کند. برخی جملات را با جملات دیگری عوض می‌کند و همین‌طور با متن و جملات بازی می‌شود.

در حقیقت، متن نهایی استخراج شده، از ابتدا نگارش نشده است بلکه یک خلاصه‌سازی ماشینی و حرفه‌ای است. به همین دلیل، برخی جملات و ساختارها سخت و خشن هستند و تکراری به نظر می‌رسند.

خود گوگل هم اذعان دارد که هنوز با مدل نهایی تولید محتوا از روی یک سری صفحات و منابع وبی فاصله دارد و نمی‌شود این سطح از خلاصه‌سازی را برای ساختن مدخل‌های ورودی جدید ویکی‌پدیا استفاده کند.

اما پیشرفته‌ها و موفقیت‌های نسبی آزمایشگاه Google Brain قابل توجه است و نشان می‌دهد در آینده این امر غیرممکن نیست. شاید خیلی زود و در کمتر از چند سال، وبلاگ‌نویس‌های ماشینی تعداشان از وبلاگ‌نویس‌های انسان بیشتر شود و آن‌ها بتوانند ویکی‌پدیا را چندین برابر اندازه کنونی توسعه دهند.

منبع

   

پستهای اخیر

و حالا دیگر دوربین‌ساز مشهور و باسابقه -لایکا – هم گوشی موبایل اختصاصی خود را رونمایی کرده

لایکا، این شرکت آلمانی کهنه‌کار به سبب صنایع پیشرفته اپتیک و ساختن دوربین‌ها و لنزهای باکیفیت مشهور عام و خاص است. اما این شرکت سرانجام به صرافت ساخت یک گوشی موبایل هوشمند پرچم‌دار افتاده است. این گوشی موبایل Leitz Phone 1 نام دارد.…

اگر معماری داخلی خانه‌های نشان داده شده در انیمه‌های استودیو جیبلی، در دنیای واقعی ساخته می‌شدند…

دنیایی که استودیو جیبلی (Ghibli) در انیمه‌هاش به کودکان و آدم بزرگ‌ها نشان می‌دهد، جادویی، بی‌همانند و شگفت‌انگیز هستند. حتی روتین‌ترین جاهای نشان داده شده در این انیمه‌ها، زیبایی و نکات ظریفی در خود دارند. حالا تصور کنید که در بخش…

اگر می‌خواهید بدانید که آدم‌هایی با این مشکلات پزشکی، چگونه می‌بینند، عکس‌های تهیه شده توسط این…

همیشه دشوار است که ما خودمان را جای دیگران بگذاریم. این در مورد مشکلات پزشکی و بیماری‌ها هم صدق می‌کند. یعنی ما خیلی بعید است که بتوانیم درد و رنج ناشی از یک بیماری را تصور کنیم، مگر اینکه روزی خودمان به آن مبتلا شده باشیم. چند وقت پیش…

نسخه ویژه‌ ۷۰ سالگی تویوتا لندکروز پرادو : زیبا، کارا و با استایل نوستالژیک

غول خودروسازی ژاپن می‌خواهد تولد ۷۰ سالگی لندکروز پرادو خود را جشن بگیرد و غافلگیر یبزرگ این مراسم، رونمایی نسخه ویژه‌ای از این خودروی شاسی‌بلند محبوب و معروف است. هفتاد سال پیش، تویوتا براساس فلسفه ساخت یک شاسی بلند شهری و کوچک‌تر نسبت…

اپلیکیشن Messages اندروید مجهز به رمزنگاری دوسویه شد؛ حتما این ویژگی را فعال کنید

پروژه رمزنگاری انتها به انتهای گوگل برای اپلیکیشن Messages در اندروید از نسخه بتا خارج شده است. به این معنی که سرانجام می‌توانید اطمینان حاصل کنید هیچ‌کسی نمی‌تواند پیام‌های خصوصی شما با افراد دیگر را در بین راه شنود یا رهگیری کند. گوگل…

مخترع اینترنت -تیم برنرز لی- کد منبع اصلی خود را به صورت NFT به حراج گذاشت

با این روندی که فروش چیزهای مختلف به صورت NFT طی می‌کند، شاید ما هم باید بگردیم و ببینیم چیزی را می‌توانیم در زندگی و دوران فعالیت خود پیدا کنیم که بشود به صورت NFT فروخت و باقی عمر را در آسایش گذارند؟! بعد از اخبار عجیب فروش چیزهایی…

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.