پژوهشگران MIT مطالب داغ آینده توییتر را پیشبینی میکنند!
اگر به سایت توییتر بروید میبینید که به صورت مرتب فهرستی از موضوعاتی که کاربران روزانه بیشتر در مورد آن توییت کردهاند، به صورت مطالب داغ یا trending نمایش داده میشود. این فهرست بر اساس تعداد توییتها و همچنین میزان شتاب گرفتن توییت در مورد یک موضوع خاص، تنظیم میشود.
به تازگی یک استادیار دانشگاه MIT به نام Devavrat Shah و دانشجویش -استانیسلاو نیکولوف- الگوریتمی را نوشتهاند که میتواند با صحت 95 درصد، مباحثی را که به طور متوسط یک ساعت و نیم بعد، در توییتر داغ خواهند شد، تشخیص بدهد، این الگوریتم این کار را گاهی 4 تا 5 ساعت زودتر هم انجام میدهد.
الگوریتم تازه میتواند برای توییتر جالب باشد، چرا که این الگوریتم با زودتر نشان دادن موضوعات داغ، میتواند به نمایش بیشتر آگهیهایی که از نظر محتوا نزدیک به این مباحث داغ هستند، کمک کند.
اما از سوی دیگر این الگوریتم میتواند راهبردی تازه برای تحلیل آماری کلیه کمیتهایی باشد که در طول زمان متغیر هستند، چیزهایی میزان فروش یک فیلم در گیشههای سینما یا قیمت سهام.
برای نوشتن این الگوریتم این دو پژوهشگر ابتدا باید متوجه میشدند که چه چیز باعث داغ شدن یک موضوع میشود، برای همین آنها از موضوعاتی که قبلا داغ شده بودند «نمونهبرداری» کردند و تونستند طرحهای معنیداری را پیدا کنند که یک موضوع را مستعد داغ شدن میکرد.
در فرایند یادگیری ماشینی، محققان ابتدا مدلی را به صورت فرضی وضع میکنند که یک فرضیه عمومی درباره شکل طرحی است که خصایصش باید تعریف شوند. «شاه» و همکارش باید مدل سادهای را درست میکردند که موضوعات داغ را پیشبینی میکرد و نشان میداد که چه زمانی موضوعات داغ عوض میشوند و با چه فرکانسی این تغییر انجام میشود.
الگوریتم آنها میزان فزونی گرفتن توییتهای موضوعات را با شتاب توییتهای «نمونهها» مقایسه میکند، آن مباحثی که مثل «نمونهها» با شتاب زیادی توییت میشدند، مباحث داغ بعدی بودند.
حجم «نمونه»ای که شاه و نیکولوف گرفتند، شامل 200 موضوع توییتری قبلا داغ شده و 200 موضوع توییتری بودند که داغ نشده بودند. سرانجام آنها الگوریتمی نوشتند که 95 درصد صحت و 4 درصد مثبت کاذب داشت.
شاه پیشبینی میکند که میزان صحت این الگوریتم با افزایش حجم نمونه افزایش مییابد به اعتقاد او حجم نمونه آنها کم بوده است.
البته چیز دیگری که آنها باید در نظر میگرفتند، میزان منابع کامپیوتری بود که باید به این الگوریتم اختصاص مییافت، همان طور که فیسبوک و گوگل با افزایش کاربرانشان مجبور به افزارش سرورهای خود هستند، الگوریتم آنها با افزایش حجم نمونه و دقیقتر شدن، منابع بیشتری مصرف میکند و بنابراین آنها ترتیبی دادند که اعمال کامپیوتری بتواند بین کامپیوترهای جدایی تقسیم شود.
این نوشتهها را هم بخوانید
البته ایشون دانشیار هستند، نه استادیار
الگوریتمهای متعددی جهت پیش بینی یک فرایند در زمینه های مختلفی وجود دارند.
متاسفانه در این مطلب به ابتکارجدیدی که این گروه ممکن است در الگوریتم خود استفاده کرده باشد اشاره ای نشده (گر چه ممکن است هیچ ابتکار جدیدی هم در کار نباشد) و فقط به بیان یافتن یک کاربرد جدید برای الگوریتمهای پیش بینی کننده بسنده شده است. (منظور این است که چگونگی انجام کار، بخش اصلی ماجراست که….)
بله توضیح کافی نویسنده الگوریتم نداده. گزارش MIT قدر ناقص است.