الگوریتمهای جستجو 14 سال تمام من را از خواهرم جدا کردند! داستانی واقعی

سایت wired مقاله خیلی جالبی به قلم مردیت تالوسان دارد که هم داستان دراماتیکی است و هم از بعد فناوری نشان میدهد که فناوریها و الگوریتمهای جستجو هنوز هم باید پیشرفت کنند و هوشمندتر و معنایی شوند.
ایشان داستان را خیلی مفصل نوشته، اما من ترجیح میدهم خیلی کوتاه داستان را نقل کنم.
قضیه از این قرار است که خانم مردیت، از دهه 1990 میلادی از خواهرش جدا شده بود.
آن زمان او مادری الکلی و معتاد داشت و رفتن به هاروارد، شاید تنها راه فرارش از خانواده نابساماناش بود.
از آن سو، نگهداری از خواهرش را پدرش به عهده گرفت و آنها بعد از مدتی کاملا از هم دور افتادند.
حتما برای شما هم پیش آمده که با سختکوشی و به صورت دامنهدار دنبال چیزی در اینترنت بگردید. گاهی واقعا ما جز اینترنت منبعی برای دستیابی به چیزی نداریم.
خانم مردیت از همان روزهای آغازین همگانی شدن استفاده از اینترنت، فکر میکرد که روزی به یاری اینترنت خواهرش را خواهد یافت.
تمنا و تقلای او از عهد آلتا ویستا شروع شد. (این موتور جستجو را به یاد میآورید؟ زمانی موتور جستجوی اول من بود.)
بعد از آن وقتی مای اسپیس، شبکه اجتماعی اول دنیا شد، امید خانم مردیت بیشتر شد، اما باز هم نتوانست نشانی از خواهرش بیابد.
خانم مردیت یک مشکل عمده در جستجوی اینترنتی داشت. خواهرش با اسامی مختلفی مثل ماریا کریستینا، ماریا، کریس و کریسی، صدا زده میشد و او باید همه ترکیبهای مختلف را آزمایش میکرد.
زمانی که فیسبوک آمد، او تقریبا اطمینان حاصل کرده بود که دیگر رد پایی از خواهرش را خواهد یافت. اما در کمال تعجب او باز هم نشانی پیدا نکرد.
تا اینکه در یکی از روزهای ژانویه سال 2011، چیزی به ذهن خانم مردیت رسید. نکند همه این مدت او اشتباه تایپ میکرده.
پس این بار او به جای اینکه با ch کریس یا کریسی را جستجو بکند، نام او را با k نوشت!
اوه! او در عرض چند ثانیه خواهر کوچک خود را که 9 سال با او تفاوت سنی داشت و 26 ساله بود را پیدا کرد.
مشابه چنین مطلبی شاید بارها برای ما پیش آمده است.
مثلا من مدتی بود که دنبال یک داستان کوتاه میگشتم که در دوره نوجوانی خوانده بودم. تم اصلی داستان یادم بود، نام نویسنده را هم میدانستم، اما واقعا خیلی زحمت کشیدم تا با آزمایش انواع کلیدواژهها، سرانجام نام داستان را پیدا کنم.
در مرحله بعد باز هم تلاش فوق العادهای کردم که تا با دانستن نام داستان، متوجه بشوم که ترجمه داستان را در کدام کتاب خوانده بودم.
واقعیت این است که موتورهای جستجوی کنونی که بر مبنای کلیدواژهها جستجو میکنند، با ایدهآلی که احتمالا در دنیای آینده خواهیم دید، فاصله زیادی دارند.
در مورد مشکل من، من نمیتوانستم با زبان ساده تم کلی داستان را جستجو کنم. باید کلیدواژههایی شخصی از داستان را جستجو میکردم.
من میدانستم که یکی دو نفر از شخصیتهای داستان نام فرشتگان مقرب خدا را دارند، اما نام این فرشتهها در این داستان تخیلی، مهجور بود و تلاش من برای یادآوری نام آنها فایدهای نداشت.
مشکل اصلی موتورهای جستجوی کنونی ما همین است. موتورهای جستجوی ما نمیتوانند در فایلهای چندرسانهای مثلا ویدئوها، جستجوی ژرف انجام بدهند. مثلا شما نمیتوانید بگویید که فیلمی از اینگرید برگمن را برای من پیدا کن که در آن دستکش بلندی به دست کرده باشد!
در این طور موارد، شما تنها بختتان این است که در اینترنت آدم خوره فیلمی را پیدا کنید که مثلا بگوید در فیلم کازابلانکا در صحنهای اینگرید برگمن همین نوع دستکش را به دست داشته است.
و این تازه در موارد ساده است، تصور کنید که به خاطر معنایی نبودن و ژرف نبودن الگوریتمهای جستجو، تا چه حد کارهای پژوهشی ما درجا میزنند.
موتورهای جستجو شاید در عرض یک دهه آینده بتوانند از مشکلاتی مانند مشکل خانم مردیت احتراز کنند و نتایج جستجوی بهتری بدهند، اما ما واقعا تا زمانی که بتوانیم موتورهای هوشمندی مثل ذهن یک آدم همهچیزدان داشته باشیم، فاصله داریم.
هوش مصنوعی تو این زمینه خیلی به کمک اومده. مثلا الان توی اپ Google photos به راحتی میتونید بگید عکسهای من که توش قهوه هست رو بیار. با ضریب خطای خیلی خیلی کمی هم درست کار میکنه. تقریبا همه اشیا رو هم میشناسه
به نظرم این مشکل بزودی حل میشه، یادگیری ماشینی و هوش مصنوعی بدون شک در نتایج جستجو هم خودشون رو نشان خواهند داد!
موردی که برای پیدا کردن یک کتاب مثال زدید مشابه ش برای من هم پیش اومده. برای پیدا کردن همچین مواردی باید روی نوشته ها و نقدها درباره کتاب تمرکز کنید و کلید واژه های توصیفی احتمالی رو به کار بگیرید. در واقع به جای تلاش برای تدیق چیزی هایی که از خود کتاب در ذهن باقی مونده باید کلید واژه هایی از توصیفاتی که معمولا در مورد نویسنده یا گونه کتاب به کار گرفته میشه رو جستجو کنید.
ببخشید اسم کتابی که دنبالش بودید گود اومنز نبود احتمالا؟
این روزا دیگه این مشکل وجود نداره، الگوریتم های گوگل بروز شدن و گوگل داره سعی میکنه که مفهوم رو بفهمه
تغییرات و اپدیت الگوریتم هایی مثل BERT به خوبی این نکته رو میرسونه که گوگل تمرکزش رفته روی فهم محتوا