پایگاه داده باورنکردنی از تقریباً تمام پروتئین‌هایی که دانشمندان شناخته‌اند

۹ مرداد ۱۴۰۱آخرین بروزرسانی: ۹ مرداد ۱۴۰۱

زمان تقریبی مطالعه 2 دقیقه

سال گذشته، DeepMind Alphabet یک پایگاه داده منبع باز از ساختار‌های سه بعدی صد‌ها هزار پروتئین، از جمله تمام ۲۰ هزار پروتئین شناخته شده در بدن انسان، منتشر کرد. اکنون، این پایگاه داده اطلاعات ۲۰۰ میلیون پروتئین را دارد که تقریباً تمام پروتئین‌های شناخته شده از نظر علمی را شامل می‌شود.

پروتئین‌ها محور سلول‌های زنده هستند که تعداد بی‌شماری از فرآیند‌های زیستی را انجام می‌دهند. آن‌ها از زنجیره‌ای از اسید‌های آمینه تشکیل شده‌اند که به شکل‌های سه‌بعدی پیچیده تا می‌شوند تا عملکرد خود را دیکته کنند. ترسیم ساختار پروتئین‌ها برای درک اینکه چه کاری انجام می‌دهند، چگونه کار می‌کنند و چگونه ممکن است روندها اشتباه پیش برود، مهم است و کلیدی برای تحقیق در مورد همه چیز از دارو‌ها و درمان‌های جدید تا بهبود محصولات کشاورزی و حفاظت از حیوانات است.

اما محاسبه ساختار دقیق یک پروتئین بر اساس اسید‌های آمینه تشکیل دهنده آن دشوار است. پی بردن به این موضوع معمولاً به مقدار زیادی قدرت پردازشی و صرف وقت زیاد از سوی نیروهای انسانی نیاز دارد و این وضعیت به «مشکل تاخوردگی پروتئین» protein folding problem معروف شده است. به این ترتیب، پیشرفت در طول دهه‌ها نسبتاً کند بوده است.

اما آلفابت Alphabet با هوش مصنوعی DeepMind مدتی است که روی این مشکل متمرکز شده است. این سیستم که در ابتدا بر روی ۱۰۰ هزار ساختار پروتئینی شناخته شده آموزش دیده بود، توانایی پیش‌بینی ساختار میلیون‌ها پروتئین دیگر را در خود توسعه داد. جالب است که زمان لازم برای تعیین ساختار هر پرپتئین به‌جای ماه‌ها یا سال‌ها، با این روش تنها چند دقیقه یا ثانیه زمان می‌برد.

در ژوئیه ۲۰۲۱ اولین پایگاه داده ساختار پروتئین آلفا فولد برای دانشمندان در دسترس عموم قرار گرفت. در ابتدا حاوی بیش از ۳۵۰ هزار ساختار پروتئینی بود که حدود ۹۸.۵ درصد از پروتئین‌های انسانی و همچنین پروتئین‌های موجود در مگس‌های میوه، موش، مخمر و باکتری E. coli را شامل می‌شد. این پایگاه داده بعد‌ها به حدود یک میلیون ساختار پروتئینی از ۱۰ هزار گونه جانوری، گیاهی، باکتریایی، قارچی و سایر موجودات گسترش یافت. یک سال پس از آن، بیش از ۵۰۰ هزار دانشمند از سراسر جهان برای کمک به تحقیقات خود به پایگاه داده دسترسی پیدا کرده‌اند.

اکنون، DeepMind یک به روز‌رسانی عظیم جدید برای پایگاه داده منتشر کرده که شامل حدود ۲۱۴ میلیون ساختار از یک میلیون گونه است. این تقریباً تمام پروتئین‌های شناخته شده از نظر علمی است و می‌تواند برای تحقیق در مورد درمان بیماری‌ها، واکسن‌ها، مقاومت آنتی‌بیوتیکی و حتی آلودگی پلاستیکی، به محققان کمک کند.

کل پایگاه داده ساختار‌های پروتئین، متشکل از بیش از ۲۵ ترابایت داده، را می‌توان از مجموعه داده‌های عمومی Google Cloud دانلود کرد.

منبع: DeepMind