حجم دادههای فیسبوک در یک روز چقدر است؟
حامد همائی راد: حتما میدانید که مدیران ارشد فیسبوک این روزها حال و روز چندان خوشی ندارند. قیمت سهام این شرکت با افت 50 درصدی از قیمت اولیه عرضهی عمومی آن، به زیر 20 دلار رسیده است. اما با این وجود، این شرکت اخیرا آماری از حجم دادههای تولیدی روزانه توسط کاربرانش منتشر کرده است که در نوع خود منحصربفرد به حساب میآید و مدیرانش میتوانند به آن ببالند. گزارش منتشر شده اینچنین است: کاربران این شبکهی اجتماعی روزانه حدود 2.5 میلیارد مطلب به اشتراک میگذارند که حجم دادهای آنها به بیش از 500 ترابایت میرسد (هر ترابایت معادل 1024 گیگابایت است).
آقای Jay Parikh که نائبرئیس بخش مهندسی فیسبوک را بر عهده دارد، با اشاره به اهمیت این موضوع میگوید: «حجم داده بزرگ در واقع به مثابه یک فرصت است و باید تأثیر مثبتی روی کسب و کار شما داشته باشد. اگر نتوانید از این دادههای عظیم بهره ببرید، آنچه که در دست دارید تلّی از دادههایی است که هیچاند.» فیسبوک با پردازش دادهها در چند دقیقه قادر است راهحلهای جدیدتری یافته، عکسالعمل کاربرانش را فهمیده و در صورت نیاز، طرح و تدبیر را به سرعت تغییر دهد.
در این گزارش اشاره شده که هر دسته از دیسکهای ذخیرهی اطلاعات در فیسبوک –که به روش Hadoop پیکربندی شدهاند- قادر به ذخیرهسازی بیش از 100 پتابایت داده است. آقای Parikh در ادامه از فیسبوک به عنوان مجموعهای یاد میکند که بزرگترین میزان ظرفیت ذخیرهسازی دادهها را با این روش به کار گرفته است؛ حتی بیشتر از آنچه «یاهو» میتواند.
اگرچه این حجم از داده برای سازمانهای کوچک، مقداری بسیار بزرگ به نظر میرسد اما Parikh میگوید که «پس ازگذشت چند ماه، دیگر برای کسی مهم نیست که شما 100 پتابایت اطلاعات در انبار دادههای خود داشته باشید.» سرعت مصرف افزایش یافته و «دنیا بیش از پیش تشنه دادههاست.»
مسلما این مقدار داده تنها برای فیسبوک مفید نیست و سفارشدهندگان آگهیها نیز از آن بهرهمند میشوند. «ما پیگیر نحوه استقبال از این آگهیها توسط گروههای هدف هستیم و برایمان مهم است که آگهیها در میان کاربرانی با جنسیت، سن، علایق و مشخصات دیگر چه بازخوردی دارند. به عنوان مثال در صورتی که یک آگهی مشخص در کالیفرنیا بهتر جواب داده، پس باید در بین کاربران این ناحیه بیشتر نشان داده شود تا موفقتر باشد.»
در حال حاضر فیسبوک حتی دیگر نیازی به انتظار برای مشاهده اثرات یک تغییر ندارد. «با در نظر گرفتن تاریخچه دادهها، میتوانیم یک مدل را قبل از به کار بستن آن اعتبارسنجی کنیم. با شبیهسازی دادهها به راحتی قادر هستیم ببینیم نرخ کلیککردن روی آگهی تا چه مقدار میتواند افزایش یابد.» حتی سیستمی به نام Gatekeeper طراحی شده است که اجازه میدهد بصورت همزمان، اثرات تغییرات اعمال شدهی مختلف در آگهی، روی نسبت کوچکی از کاربران آزمایش شود!
بد نیست در اینجا اشارهای هم به “Project Prism” در فیسبوک داشته باشیم. در حال حاضر کل دادهی کاربران فیسبوک تنها در یک دیتاسنتر ذخیره و نگهداری میشود. زمانی که نیاز به افزایش ظرفیت باشد، تمامی دادهها بالاجبار باید به دیتاسنتر دیگری که ظرفیت بیشتری را داراست منتقل بشوند و این انتقال، منابع بسیاری را هدر میدهد.
آقای Parikh توضیح میدهد که «این طرح این امکان را به ما میدهد که این انبار داده یکپارچه را به صورت فیزیکی در چندین دیتاسنتر پخش کنیم و در عین حال بتوانیم همین دید یکپارچگی را برای دادهها حفظ کرده باشیم.ب به عبارت دیگر، دادهها میتوانند در دیتاسنترهای مختلف فیسبوک در کالیفرنیا، ویرجینیا، اُرِگون، کارولینای شمالی و کشور سوئد جداگانه ذخیره شوند. (فرض کنید 5 عکس در یک آلبوم جدید در فیسبوک اضافه کردهاید. مکان فیزیکی نگهداری این 5 عکس الزاما یکسان نیست. مثلا 3تای آنها در دیتاسنتر کالیفرنیا و 2تای دیگری در هزاران کیلومتر دورتر در دیتاسنتر سوئد نگهداری میشوند. با این وجود زمانی که آلبوم را باز میکنید متوجه چنین تفاوتی در مکان واقعی ذخیرهسازی عکسها نیستید و تمامی تصاویر بصورت یکسان لود میشوند).
اما آیا پخش شدن دادهها به نفع حریم شخصی کاربر تمام میشود یا به ضرر آن؟ هر چه که باشد شاید دانستن این که عدهای از مهندسین فیسبوک در مکانهای مختلف امکان دسترسی به اطلاعات کاربران را دارند شما را آشفته کند؛ اما بنا به گفتهی Parikh، تمامی فعالیتهای کارکنان فیسبوک ثبت میگردد و در صورتی که کارمندی خارج از حیطهی وظایف خود به اطلاعات کاربران سرکشی نماید، بلافاصله با حکم اخراج بدرقه خواهد شد و فیسبوک چنین مواردی را به هیچوجه تحمل نمیکند.
البته به گمانم مسئله بزرگتر از اینهاست. الان دیگر گوگل، فیسبوک و بسیاری از غولهای دات کام اینترنت عادات و علایق ما را بهتر از خودمان میدانند، به نظرتان هولناک نیست؟
هر پتابایت معادل ۱۰۲۴ گیگابایت است؟؟؟؟
هر پتا بایت 1024 ترا بایته!! یا به عبارت دیگه هر پتا بایت میشه 1024*1204 گیگابایت!!
1024*1024 اشتباه تایپ شد!!
سلام و خسته نباشید
به گمانم در نوشتن پاراگرف اول سهوا دچار اشتباه شدهاید. در منبعی که معرفی کردهاید، 500 ترابایت آمده است نه پتا بایت که درست تر هم به نظر میرسد.
موفق باشید و خیلی متشکر از مطالب خوبتان
نه دوست خوبم، هولناک نیست :)
بسیار خوشم آمد. اینجاست که متوجه می شویم دنیای مجازی واقعا مجازی یعنی چه!
من وبلاگ شما رو از طریق google reader دنبال میکنم. تو اونجا در پاراگراف اول نوشته شده که: … حجم دادهای آنها به بیش از ۵۰۰ ترابایت میرسد (هر ترابایت معادل ۱۰۲۴ مگابایت است).
این جملهی داخل پرانتز (که غلط هم هست) با متنی که تو خود وبسایت هست متفاوته. نمیدونم چرا. حدسم اینه که متن ویرایش شده، ولی اونچه که در گوگل ریدر نمایش داده میشه، همون متن اولیه است.
سپاس از نویسنده و سپاس از یک پزشک :)
هر ترابایت برابر با 1024 مگابایت یا گیگابایت؟ :-S
من دارم اشتباه میکنم یا شما اشتباه نوشتید؟
شما صحیح میفرمایید. این اشتباه توسط مدیریت سایت بوده که اصلاح شده، ممنون از تذکر شما.
خط شش اولین پارگراف رو اصلاح کن نویسنده ی عزیز
(هر ترابایت معادل ۱۰۲۴ مگابایت است).
هر ترابایت معادل 1024 گیگابایته نه مگابایت :)
تمامی موارد اصلاح شدن دوست عزیز، ممنون از دقت شما.
هر ترابایت 1024 گیگی بایته نه مگا بایت. اینو مامان بزرگ منم میدونه
حالا یه آمار میذاشتن چقدرش تولید محتوا هست و چقدرش تکرار و شیر و کپی از سایتهای دیگه…..
نه بنظرم هولناک نیست . D:
واقعا عجب حجمی . واقعا به مهندسی پیشرفته ای احتیاج دارن برای کنترل این همه اطلاعات .
فقط باید گفت اووووووووووفففف
واقعا که مخترع فیس چه مخی داشته..
ایول بابا..
دست مریزاد…
میدونید برای این اطلاعات چقدر انرژی مصرف میشه؟ نمیدونم چرا هیچ کس به انرژی، محیط زیست و گرمایش جهانی اشاره نمیکنه. همه فکر میکنن گرمایش جهانی فقط اونیه که از اگزوز ماشین ها و دودکش کارخونه ها میاد بیرون و تاثیرش هم فقط یک افزایش یکی دو درجه ای دمای هوای اطرافشون هست….
دوست عزیز، شما چرا به قسمت مثبت قضیه نگاه نمیکنید؟!! درسته که الان مقدار زیادی انرژی و گرما در دیتاسنترهای مختلف دنیا تولید میشه که ظاهرا به محیط زیست صدمه میزنه، اما فرض کنید اصلا اینترنت وجود نداشت، اونوقت شما برای ارسال یک عکس شخصی به دوستتان، برای جستجو در مورد یک مطلب، برای یافتن یک راه حل، برای یادگیری و … باید چیکار میکردین؟ بله، احتمالا باید با فکس (در بهترین حالت) عکس رو به دوستتون میرسوندین (یعنی مصرف یک کاغذ). برای جستجو در مورد یک مطلب باید با اتومبیل به کتابخونه میرفتین و چند ساعت کتابهای مرجع رو زیر و رو میکردین. و …
پس لطفا دقت داشته باشید که ضرر اینترنت به محیط زیست خیلی خیلی کمتر از ضرر نبود اینترنت هست. لطفا در نتیجه گیری هاتون همه جوانب رو بسنجید.
به نظرم خیلی هم هولناکه،البته کاربران ایرانی اکثرا به این مسائل حریم خصوصی در ف.ب اهمیتی نمیدن.
هیچ دلیل قابل اعتنایی وجود نداره که اون مهندسِ سرککش رو
اخراج کنند!
چون ف.ب همیشه متهم درجه یک شکستن حریم خصوصی بوده
به نظر من اصلا هم هولناک نیست. هر کس فکر می کنه هولناک می تونه از اینها استفاده نکنه.
به نظر من تعریف حریم خصوصی تا حد زیادی شخصیست.
وقتی مثلا کسی عکس خانوادگی خودش رو در فیسبوک قرار میده. خودش مرز های حریم خصوصیش رو گسترش داده و عواقب اون رو هم باید بپذیره. و اگر دوست نداره که حریم خصوصی بازی داشته باشه می تونه اینکار رو انجام نده.
در جواب کسایی که می گن فیسبوک نمی دونم هولناکه جیمیل خطرناکه هی قصد ارشاد مارو دارن می گم کسی شمارو مجبور نکرده از فیسبوک یا جیمیل استفاده کنین اصلا چرا اینترنت استفاده می کنیین بشینید از سریال های زیبای تلوزیون لذت ببرید اینترنت ماله استکباره کار به کار ماهم نداشته باشین بنده می دونم چی بزارم تو اینترنت چی نزارم
لازم نکرده نگران اطلاعات شخصی ما باشید
سلام
یک موضوع مهم در رابطه با داده های حجیم هزینه نگهداری ، پشتیبانی و مدیریت داده ها می باشد که با اطلاعاتی که در این مطلب ارایه شد باید گفت فیسبوک هزینه های سرسام آوری برای سرویس خود انجام میدهد .
ممنونم
از حساسیت دوست خوبم اکو گیک بخاطر بحث آلایندگی محیط زیست سپاسگزارم. اضافه کنم دست کم مطلعم گوگل دیتا سنتر های جدیدش رو در مناطقی از جهان که دارای آب و هوای سرد هست احداث میکنه تا نیازی به صرف انرژی برای خنک نگاه داشتن اونها و پی آمدش آلایندگی به گازهای مضر رو شدیدا کاهش بده. و تحقیقات وسیعی در شرکتهای بزرگ در حال انجامه تا مصرف تجهیزات الکتریکی کاهش داشته باشه
دوستان برای درک بهتر میشه گفت هر هارد فیس بوک 104857600 گیگابایت ظرفیت داره!!!