بررسی آماری واژههای پنج میلیون کتاب با محصول جدید گوگل

به تازگی آزمایشگاه گوگل با همکاری دو جامعهشناس، محصول جالبی بیرون داده است.
گوگل، 5.2 میلیون کتاب را دیجیتالی کرده است. این تعداد کتاب 500 میلیارد کلمه دارند. کتابهای دیجیتالی شده بین سالهای 1500 تا 2008 نوشته شدهاند.
محصول جدید گوگل مشخص میکند که در هر سال، چه میزان از یک کلمه مشخص استفاده شده است! به این ترتیب معلوم میشود که در یک بازه زمانی چندقرنی فرکانس استفاده از یک کلمه چقدر فرق کرده است و از این طریق، روزنهای برای بررسی فرهنگ و جامعه باز میشود.
من در نخستین آزمایش، کلمه war را در دو قرن اخیر، جستجو کردم:
مشخص است که در سالهای دور و بر جنگهای جهانی اول و دوم، فرکانس استفاده از این کلمه بیشتر شده است.
حالا، تست دیگری میکنیم و مردان و زنان را در کتابهای جستجو میکنیم:
این جستجو هم جالب است و نشان میدهد که قبل از دهه 70 میلادی، میزان استفاده از کلمه «زنان» به شکل معناداری کمتر از «مردان» بود.
حالا بیایید، «ایران» را جستجو کنیم:
تفسیر این نمودار، بسیار دشوارتر است. پیداست که فرکانس استفاده از واژه ایران بعد از انقلاب و جنگ ایران و عراق و در سالهای اخیر به دلایل سیاسی باید بیشتر شده باشد. ولی در این لحظه نمیتوانم ابراز نظر کنم که چرا در سالهای دور و بر 1800 یا 1750، در نمودار قلههایی ظاهر شده است.
دست آخر «کامپیوتر» را جستجو میکنیم:
معلوم میشود که از 1945 به بعد، سر و کله این کلمه پیدا شده است، از سال 1977، شتاب استفاده از آن تند شده است، از سال 2000 به بعد هم، احتمالا به خاطر رواج کلمات همارزی مثل لپتاپ، میزان استفاده از آن کمتر شده است.
شما هم اگر چیز جالبی برای جستجو به نظرتان رسید و نمودار جالبی پیدا کردید، در قسمت کامنت وبلاگ آن را به اشتراک بگذارید.
من Galilei رو سرچ کردم دیدم بین سال های 1600 تا 1650 یکدفه خیلی از اسمش استفاده شده به خاطر همون قضیه گرد بودن زمین که بین همین سال ها مطرح کرده بعدش earth رو سرچ کردم یه رابطه معناداری بینشون پیدا شد.جالب بود
این عبارتو هم سرچ کنید.
persian gulf,arabian gulf
البته در کامنت قبل به حروف کوچک اول توجه نکردم
اینو هم امتحان کنید
Persian gulf,Arabian gulf
islam جالبه… بعد از انقلاب یهو میره بالا
چقدر جالب بود
دستتتون درد نکنه
سلام اینم بد نیست
http://ngrams.googlelabs.com/graph?content=Persian+Gulf,Arabian+Gulf&year_start=1500&year_end=2008&corpus=0&smoothing=3
سلام
یک پزشک جان اول یک سوال داشتم
این with smoothing of به چه دردی میخوره تو این نموداره؟
من کامل متوجه نشدم اگر توضیح بدی خیلی ممنون میشم
بعد اینکه واژه پرشین گلف و عربین گلف رو سرچ کنید متوجه جعلی بودن اسم دوم می شوید
واژه ایران رو با حروف بزرگ ( Iran) جستجو کنید، نتیجه بهتری بدست میاد.
همینجوری به ذهنم خورد که افراد رو جست و جو کنم…
درباره ی هیتلر بعد از 1750 تا 1800 هیچ کتابی نوشته نشده!این دوران چه خبر بوده؟!!
درباره ی خمینی هم جست و جو کردم…
البته درباره ی چیزهای دیگه ای هم میشه جست و جو کرد! مثلا درباره ی گریت سایرس یا کوروش کبیر،یا مثلا سعدی و حافظ!!
ببخشید برای لحظات اول،چیز خیلی تاریخیی به ذهنم نرسید!!
فاربیدن بود برای ما! شما از وی پی ان استفاده می کنید؟!
و البته گوگل ایران رو جزو “forbidden country” حساب میکنه و اجازهی استفاده از این سرویس رو با آیپی ایرانی نمیده.
کلمه ی aids رو ببینید، از سال 1950 هم بوده !
احتمالا جمع aid بوده ولی خطاهای نرم افزار OCR هم مطرح هست.
واژه اینترنت(internet) در سال های 1910 ؟؟؟؟
اگر در مورد ایران جستجو می کنید توجه داشته باشید که قبل از سال 1935 کشورهای خارجی برای ایران اغلب کلمه پرشیا Persian را استفاده می کردند در این زمان رضا خان کلمه ایران را مورد توجه قرار داد و به صورت رسمی به دیگر کشورها اعلام شد که از کلمه ایران Iran به جای Persia استفاده کنند
اگر به جای ایران کلمه شرق یا آسیا ( یا حتی کلمه غرب که در تقابل و یا قیاس با شرق همواره ذکر می گردیده ) را نیز جستجو کنیم به همان جهش حدود 1800 می رسیم این جهش شاید مربوط شود به ایجاد دانشکده های شرق شناسی در دانشگاه های اروپا به عبارت بهتر توجه غرب به شرق که بعدها با سفر شرق شناسانی مانند ادوارد براون و ترجمه ادبیات ایران به زبان های اروپایی ادامه یافت.
http://ngrams.googlelabs.com/chart?content=internet&corpus=0&smoothing=3&year_start=1500&year_end=2008
واژه اینترنت در سالهای 1600 – 1650 مورد استفاده قرار گرفته ؟:دی
و حتی در بازه زمانی قرن هفدهم و همچنین در سالهای اولیه قرن نوزدهم.
نقل محافل بسیاری از سایتهای اینترنتی شده الان :))
کلمه حقوق بشر هم نتیجه جالبی داشت که از اوایل 1990 به 2000 اوج می گیره و 200 به اوج می رسه اما جالب بود که برای سالهای بعد از اون چیزی رو نشون نمی ده!
برام جالب نبود
سلام دکتر جان
تو این سایت پادکسیتی نوشته با نرم افزار اندروید استفاده کردین ، می شه بگین از چه گوشی اندرویدی استفاده می کنید ؟
گلکسی اس
اینکه داده های خام را در دسترس همه قرار داده واقعا عالیه. در آینده چیزهای فوق العاده ای ازش بیرون خواهد آمد.
ای کاش در جستجوی اخبار هم چنین امکانی فراهم می شد مثلا newspaperarchive.com که از سال 1700میلادی آرشیو روزنامه ها را دارد این امکان را که خیلی پیچیده هم نیست درست می کرد!
یک سری به newspaperarchive.com یا highbeam.com بزنید آن هم جالبه.