حجم داده‌های فیس‌بوک در یک روز چقدر است؟

حامد همائی راد: حتما می‌دانید که مدیران ارشد فیس‌بوک این روزها حال و روز چندان خوشی ندارند. قیمت سهام این شرکت با افت 50 درصدی از قیمت اولیه‌ عرضه‌ی عمومی آن، به زیر 20 دلار رسیده است. اما با این وجود، این شرکت اخیرا آماری از حجم داده‌های تولیدی روزانه توسط کاربرانش منتشر کرده است که در نوع خود منحصربفرد به حساب می‌آید و مدیرانش می‌توانند به آن ببالند. گزارش منتشر شده اینچنین است: کاربران این شبکه‌ی اجتماعی روزانه حدود 2.5 میلیارد مطلب به اشتراک می‌گذارند که حجم داده‌ای آن‌ها به بیش از 500 ترابایت می‌رسد (هر ترابایت معادل 1024 گیگابایت است).

facebook

آقای Jay Parikh که نائب‌رئیس بخش مهندسی فیس‌بوک را بر عهده دارد، با اشاره به اهمیت این موضوع می‌گوید: «حجم داده‌ بزرگ در واقع به مثابه یک فرصت است و باید تأثیر مثبتی روی کسب و کار شما داشته باشد. اگر نتوانید از این داده‌های عظیم بهره ببرید، آن‌چه که در دست دارید تلّی از داده‌هایی است که هیچ‌اند.» فیس‌بوک با پردازش داده‌ها در چند دقیقه قادر است راه‌حل‌های جدیدتری یافته، عکس‌العمل کاربرانش را فهمیده و در صورت نیاز، طرح و تدبیر را به سرعت تغییر دهد.

facebook

در این گزارش اشاره شده که هر دسته از دیسک‌های ذخیره‌ی اطلاعات در فیس‌بوک –که به روش Hadoop پیکربندی شده‌اند- قادر به ذخیره‌سازی بیش از 100 پتابایت داده است. آقای Parikh در ادامه از فیس‌بوک به عنوان مجموعه‌ای یاد می‌کند که بزرگ‌ترین میزان ظرفیت ذخیره‌سازی داده‌ها را با این روش به کار گرفته است؛ حتی بیش‌تر از آن‌چه «یاهو» می‌تواند.

اگرچه این حجم از داده برای سازمان‌های کوچک، مقداری بسیار بزرگ به نظر می‌رسد اما Parikh می‌گوید که «پس ازگذشت چند ماه، دیگر برای کسی مهم نیست که شما 100 پتابایت اطلاعات در انبار داده‌های خود داشته باشید.» سرعت مصرف افزایش یافته و «دنیا بیش از پیش تشنه‌ داده‌هاست.»

مسلما این مقدار داده تنها برای فیس‌بوک مفید نیست و سفارش‌دهندگان آگهی‌ها نیز از آن بهره‌مند می‌شوند. «ما پیگیر نحوه‌ استقبال از این آگهی‌ها توسط گروه‌های هدف هستیم و برایمان مهم است که آگهی‌ها در میان کاربرانی با جنسیت، سن، علایق و مشخصات دیگر چه بازخوردی دارند. به عنوان مثال در صورتی که یک آگهی مشخص در کالیفرنیا بهتر جواب داده، پس باید در بین کاربران این ناحیه بیش‌تر نشان داده شود تا موفق‌تر باشد.»

در حال حاضر فیس‌بوک حتی دیگر نیازی به انتظار برای مشاهده‌ اثرات یک تغییر ندارد. «با در نظر گرفتن تاریخچه‌ داده‌ها، می‌توانیم یک مدل را قبل از به کار بستن آن اعتبارسنجی کنیم. با شبیه‌سازی داده‌ها به راحتی قادر هستیم ببینیم نرخ کلیک‌کردن روی آگهی تا چه مقدار می‌تواند افزایش یابد.» حتی سیستمی به نام Gatekeeper طراحی شده است که اجازه می‌دهد بصورت همزمان، اثرات تغییرات اعمال شده‌ی مختلف در آگهی، روی نسبت کوچکی از کاربران آزمایش شود!

facebook

بد نیست در اینجا اشاره‌ای هم به “Project Prism” در فیس‌بوک داشته باشیم. در حال حاضر کل داده‌ی کاربران فیس‌بوک تنها در یک دیتاسنتر ذخیره و نگهداری می‌شود. زمانی که نیاز به افزایش ظرفیت باشد، تمامی داده‌ها بالاجبار باید به دیتاسنتر دیگری که ظرفیت بیشتری را داراست منتقل بشوند و این انتقال، منابع بسیاری را هدر می‌دهد.

آقای Parikh توضیح می‌دهد که «این طرح این امکان را به ما می‌دهد که این انبار داده‌ یکپارچه را به صورت فیزیکی در چندین دیتاسنتر پخش کنیم و در عین حال بتوانیم همین دید یکپارچگی را برای داده‌ها حفظ کرده باشیم.ب به عبارت دیگر، داده‌ها می‌توانند در دیتاسنترهای مختلف فیس‌بوک در کالیفرنیا، ویرجینیا، اُرِگون، کارولینای شمالی و کشور سوئد جداگانه ذخیره شوند. (فرض کنید 5 عکس در یک آلبوم جدید در فیس‌بوک اضافه کرده‌اید. مکان فیزیکی نگهداری این 5 عکس الزاما یکسان نیست. مثلا 3تای آن‌ها در دیتاسنتر کالیفرنیا و 2تای دیگری در هزاران کیلومتر دورتر در دیتاسنتر سوئد نگهداری می‌شوند. با این وجود زمانی که آلبوم را باز می‌کنید متوجه چنین تفاوتی در مکان واقعی ذخیره‌سازی عکس‌ها نیستید و تمامی تصاویر بصورت یکسان لود می‌شوند).

facebook

اما آیا پخش شدن داده‌ها به نفع حریم شخصی کاربر تمام می‌شود یا به ضرر آن؟ هر چه که باشد شاید دانستن این که عده‌ای از مهندسین فیس‌بوک در مکان‌های مختلف امکان دسترسی به اطلاعات کاربران را دارند شما را آشفته کند؛ اما بنا به گفته‌ی Parikh، تمامی فعالیت‌های کارکنان فیس‌بوک ثبت می‌گردد و در صورتی که کارمندی خارج از حیطه‌ی وظایف خود به اطلاعات کاربران سرکشی نماید، بلافاصله با حکم اخراج بدرقه خواهد شد و فیس‌بوک چنین مواردی را به هیچ‌وجه تحمل نمی‌کند.

البته به گمانم مسئله بزرگتر از این‌هاست. الان دیگر گوگل، فیس‌بوک و بسیاری از غول‌های دات کام اینترنت عادات و علایق ما را بهتر از خودمان می‌دانند، به نظرتان هولناک نیست؟

منبع

25 دیدگاه

  1. سلام و خسته نباشید
    به گمانم در نوشتن پاراگرف اول سهوا دچار اشتباه شده‌اید. در منبعی که معرفی کرده‌اید، 500 ترابایت آمده است نه پتا بایت که درست تر هم به نظر می‌رسد.
    موفق باشید و خیلی متشکر از مطالب خوبتان

  2. من وبلاگ شما رو از طریق google reader دنبال می‌کنم. تو اونجا در پاراگراف اول نوشته شده که: … حجم داده‌ای آن‌ها به بیش از ۵۰۰ ترابایت می‌رسد (هر ترابایت معادل ۱۰۲۴ مگابایت است).
    این جمله‌ی داخل پرانتز (که غلط هم هست) با متنی که تو خود وب‌سایت هست متفاوته. نمی‌دونم چرا. حدسم اینه که متن ویرایش شده، ولی اون‌چه که در گوگل ریدر نمایش داده می‌شه، همون متن اولیه است.
    سپاس از نویسنده و سپاس از یک پزشک :)

  3. هر ترابایت برابر با 1024 مگابایت یا گیگابایت؟ :-S
    من دارم اشتباه میکنم یا شما اشتباه نوشتید؟

    1. شما صحیح می‌فرمایید. این اشتباه توسط مدیریت سایت بوده که اصلاح شده، ممنون از تذکر شما.

  4. خط شش اولین پارگراف رو اصلاح کن نویسنده ی عزیز
    (هر ترابایت معادل ۱۰۲۴ مگابایت است).

    هر ترابایت معادل 1024 گیگابایته نه مگابایت :)

  5. نه بنظرم هولناک نیست . D:
    واقعا عجب حجمی . واقعا به مهندسی پیشرفته ای احتیاج دارن برای کنترل این همه اطلاعات .

  6. میدونید برای این اطلاعات چقدر انرژی مصرف میشه؟ نمیدونم چرا هیچ کس به انرژی، محیط زیست و گرمایش جهانی اشاره نمیکنه. همه فکر میکنن گرمایش جهانی فقط اونیه که از اگزوز ماشین ها و دودکش کارخونه ها میاد بیرون و تاثیرش هم فقط یک افزایش یکی دو درجه ای دمای هوای اطرافشون هست….

    1. دوست عزیز، شما چرا به قسمت مثبت قضیه نگاه نمیکنید؟!! درسته که الان مقدار زیادی انرژی و گرما در دیتاسنترهای مختلف دنیا تولید میشه که ظاهرا به محیط زیست صدمه میزنه، اما فرض کنید اصلا اینترنت وجود نداشت، اونوقت شما برای ارسال یک عکس شخصی به دوستتان، برای جستجو در مورد یک مطلب، برای یافتن یک راه حل، برای یادگیری و … باید چیکار میکردین؟ بله، احتمالا باید با فکس (در بهترین حالت) عکس رو به دوستتون میرسوندین (یعنی مصرف یک کاغذ). برای جستجو در مورد یک مطلب باید با اتومبیل به کتابخونه میرفتین و چند ساعت کتابهای مرجع رو زیر و رو میکردین. و …
      پس لطفا دقت داشته باشید که ضرر اینترنت به محیط زیست خیلی خیلی کمتر از ضرر نبود اینترنت هست. لطفا در نتیجه گیری هاتون همه جوانب رو بسنجید.

  7. به نظرم خیلی هم هولناکه،البته کاربران ایرانی اکثرا به این مسائل حریم خصوصی در ف.ب اهمیتی نمیدن.
    هیچ دلیل قابل اعتنایی وجود نداره که اون مهندسِ سرک‌کش رو
    اخراج کنند!
    چون ف.ب همیشه متهم درجه یک شکستن حریم خصوصی بوده

  8. به نظر من اصلا هم هولناک نیست. هر کس فکر می کنه هولناک می تونه از اینها استفاده نکنه.
    به نظر من تعریف حریم خصوصی تا حد زیادی شخصیست.
    وقتی مثلا کسی عکس خانوادگی خودش رو در فیسبوک قرار میده. خودش مرز های حریم خصوصیش رو گسترش داده و عواقب اون رو هم باید بپذیره. و اگر دوست نداره که حریم خصوصی بازی داشته باشه می تونه اینکار رو انجام نده.

  9. در جواب کسایی که می گن فیسبوک نمی دونم هولناکه جیمیل خطرناکه هی قصد ارشاد مارو دارن می گم کسی شمارو مجبور نکرده از فیسبوک یا جیمیل استفاده کنین اصلا چرا اینترنت استفاده می کنیین بشینید از سریال های زیبای تلوزیون لذت ببرید اینترنت ماله استکباره کار به کار ماهم نداشته باشین بنده می دونم چی بزارم تو اینترنت چی نزارم
    لازم نکرده نگران اطلاعات شخصی ما باشید

  10. سلام
    یک موضوع مهم در رابطه با داده های حجیم هزینه نگهداری ، پشتیبانی و مدیریت داده ها می باشد که با اطلاعاتی که در این مطلب ارایه شد باید گفت فیسبوک هزینه های سرسام آوری برای سرویس خود انجام میدهد .
    ممنونم

  11. از حساسیت دوست خوبم اکو گیک بخاطر بحث آلایندگی محیط زیست سپاسگزارم. اضافه کنم دست کم مطلعم گوگل دیتا سنتر های جدیدش رو در مناطقی از جهان که دارای آب و هوای سرد هست احداث میکنه تا نیازی به صرف انرژی برای خنک نگاه داشتن اونها و پی آمدش آلایندگی به گازهای مضر رو شدیدا کاهش بده. و تحقیقات وسیعی در شرکتهای بزرگ در حال انجامه تا مصرف تجهیزات الکتریکی کاهش داشته باشه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا
[wpcode id="260079"]