پایگاه داده باورنکردنی از تقریباً تمام پروتئینهایی که دانشمندان شناختهاند

سال گذشته، DeepMind Alphabet یک پایگاه داده منبع باز از ساختارهای سه بعدی صدها هزار پروتئین، از جمله تمام ۲۰ هزار پروتئین شناخته شده در بدن انسان، منتشر کرد. اکنون، این پایگاه داده اطلاعات ۲۰۰ میلیون پروتئین را دارد که تقریباً تمام پروتئینهای شناخته شده از نظر علمی را شامل میشود.
پروتئینها محور سلولهای زنده هستند که تعداد بیشماری از فرآیندهای زیستی را انجام میدهند. آنها از زنجیرهای از اسیدهای آمینه تشکیل شدهاند که به شکلهای سهبعدی پیچیده تا میشوند تا عملکرد خود را دیکته کنند. ترسیم ساختار پروتئینها برای درک اینکه چه کاری انجام میدهند، چگونه کار میکنند و چگونه ممکن است روندها اشتباه پیش برود، مهم است و کلیدی برای تحقیق در مورد همه چیز از داروها و درمانهای جدید تا بهبود محصولات کشاورزی و حفاظت از حیوانات است.
اما محاسبه ساختار دقیق یک پروتئین بر اساس اسیدهای آمینه تشکیل دهنده آن دشوار است. پی بردن به این موضوع معمولاً به مقدار زیادی قدرت پردازشی و صرف وقت زیاد از سوی نیروهای انسانی نیاز دارد و این وضعیت به «مشکل تاخوردگی پروتئین» protein folding problem معروف شده است. به این ترتیب، پیشرفت در طول دههها نسبتاً کند بوده است.
اما آلفابت Alphabet با هوش مصنوعی DeepMind مدتی است که روی این مشکل متمرکز شده است. این سیستم که در ابتدا بر روی ۱۰۰ هزار ساختار پروتئینی شناخته شده آموزش دیده بود، توانایی پیشبینی ساختار میلیونها پروتئین دیگر را در خود توسعه داد. جالب است که زمان لازم برای تعیین ساختار هر پرپتئین بهجای ماهها یا سالها، با این روش تنها چند دقیقه یا ثانیه زمان میبرد.
در ژوئیه ۲۰۲۱ اولین پایگاه داده ساختار پروتئین آلفا فولد برای دانشمندان در دسترس عموم قرار گرفت. در ابتدا حاوی بیش از ۳۵۰ هزار ساختار پروتئینی بود که حدود ۹۸.۵ درصد از پروتئینهای انسانی و همچنین پروتئینهای موجود در مگسهای میوه، موش، مخمر و باکتری E. coli را شامل میشد. این پایگاه داده بعدها به حدود یک میلیون ساختار پروتئینی از ۱۰ هزار گونه جانوری، گیاهی، باکتریایی، قارچی و سایر موجودات گسترش یافت. یک سال پس از آن، بیش از ۵۰۰ هزار دانشمند از سراسر جهان برای کمک به تحقیقات خود به پایگاه داده دسترسی پیدا کردهاند.
اکنون، DeepMind یک به روزرسانی عظیم جدید برای پایگاه داده منتشر کرده که شامل حدود ۲۱۴ میلیون ساختار از یک میلیون گونه است. این تقریباً تمام پروتئینهای شناخته شده از نظر علمی است و میتواند برای تحقیق در مورد درمان بیماریها، واکسنها، مقاومت آنتیبیوتیکی و حتی آلودگی پلاستیکی، به محققان کمک کند.
کل پایگاه داده ساختارهای پروتئین، متشکل از بیش از ۲۵ ترابایت داده، را میتوان از مجموعه دادههای عمومی Google Cloud دانلود کرد.
منبع: DeepMind