پژوهشگران MIT مطالب داغ آینده توییتر را پیشبینی می‌کنند!

  • توسط علیرضا مجیدی
  • 5 سال قبل
  • ۳

اگر به سایت توییتر بروید می‌بینید که به صورت مرتب فهرستی از موضوعاتی که کاربران روزانه بیشتر در مورد آن توییت کرده‌اند، به صورت مطالب داغ یا trending نمایش داده می‌شود. این فهرست بر اساس تعداد توییت‌ها و همچنین میزان شتاب گرفتن توییت در مورد یک موضوع خاص، تنظیم می‌شود.

به تازگی یک استادیار دانشگاه MIT به نام Devavrat Shah و دانشجویش -استانیسلاو نیکولوف- الگوریتمی را نوشته‌اند که می‌تواند با صحت ۹۵ درصد، مباحثی را که به طور متوسط یک ساعت و نیم بعد، در توییتر داغ خواهند شد،‌ تشخیص بدهد، این الگوریتم این کار را گاهی ۴ تا ۵ ساعت زودتر هم انجام می‌دهد.


آگهی متنی میان‌متنی:
برنامه‌ریزی روزانه به شیوهٔ افراد موفق و ثروتمند را بیاموزید (کتاب الکترونیک رایگان)


پیشبینی اساتید MITدر مورد توییتر

الگوریتم تازه می‌تواند برای توییتر جالب باشد، چرا که این الگوریتم با زودتر نشان دادن موضوعات داغ، می‌تواند به نمایش بیشتر آگهی‌هایی که از نظر محتوا نزدیک به این مباحث داغ هستند، کمک کند.

اما از سوی دیگر این الگوریتم می‌تواند راهبردی تازه برای تحلیل آماری کلیه کمیت‌هایی باشد که در طول زمان متغیر هستند، چیزهایی میزان فروش یک فیلم در گیشه‌های سینما یا قیمت سهام.

برای نوشتن این الگوریتم این دو پژوهشگر ابتدا باید متوجه می‌شدند که چه چیز باعث داغ شدن یک موضوع می‌شود، برای همین آنها از موضوعاتی که قبلا داغ شده بودند «نمونه‌برداری» کردند و تونستند طرح‌های معنی‌داری را پیدا کنند که یک موضوع را مستعد داغ شدن می‌کرد.

در فرایند یادگیری ماشینی، محققان ابتدا مدلی را به صورت فرضی وضع می‌کنند که یک فرضیه عمومی درباره شکل طرحی است که خصایصش باید تعریف شوند. «شاه» و همکارش باید مدل ساده‌ای را درست می‌کردند که موضوعات داغ را پیشبینی می‌کرد و نشان می‌داد که چه زمانی موضوعات داغ عوض می‌شوند و با چه فرکانسی این تغییر انجام می‌شود.

توییتر

الگوریتم آنها میزان فزونی گرفتن توییت‌های موضوعات را با شتاب توییت‌های «نمونه‌ها» مقایسه می‌کند، آن مباحثی که مثل «نمونه‌ها» با شتاب زیادی توییت می‌شدند، مباحث داغ بعدی بودند.

حجم «نمونه‌»ای که شاه و نیکولوف گرفتند، شامل ۲۰۰ موضوع توییتری قبلا داغ شده و ۲۰۰ موضوع توییتری بودند که داغ نشده بودند. سرانجام آنها الگوریتمی نوشتند که ۹۵ درصد صحت و ۴ درصد مثبت کاذب داشت.

شاه پیشبینی می‌کند که میزان صحت این الگوریتم با افزایش حجم نمونه افزایش می‌یابد به اعتقاد او حجم نمونه آنها کم بوده است.

البته چیز دیگری که آنها باید در نظر می‌گرفتند، میزان منابع کامپیوتری بود که باید به این الگوریتم اختصاص می‌یافت، همان طور که فیس‌بوک و گوگل با افزایش کاربرانشان مجبور به افزارش سرورهای خود هستند، الگوریتم آنها با افزایش حجم نمونه و دقیق‌تر شدن، منابع بیشتری مصرف می‌کند و بنابراین آنها ترتیبی دادند که اعمال کامپیوتری بتواند بین کامپیوترهای جدایی تقسیم شود.

منبع

قبلی «
بعدی »

۳ دیدگاه‌ها

  1. البته ایشون دانشیار هستند، نه استادیار

  2. الگوریتمهای متعددی جهت پیش بینی یک فرایند در زمینه های مختلفی وجود دارند.

    متاسفانه در این مطلب به ابتکارجدیدی که این گروه ممکن است در الگوریتم خود استفاده کرده باشد اشاره ای نشده (گر چه ممکن است هیچ ابتکار جدیدی هم در کار نباشد) و فقط به بیان یافتن یک کاربرد جدید برای الگوریتمهای پیش بینی کننده بسنده شده است. (منظور این است که چگونگی انجام کار، بخش اصلی ماجراست که….)

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بنرهای تبلیغاتی