فراتر از متن: مدل هوش مصنوعی یا یادگیری از 80 ساعت ویدئو ، در حال یادگیری زبان اشاره است

۴ خرداد ۱۴۰۲آخرین بروزرسانی: ۴ خرداد ۱۴۰۲

زمان تقریبی مطالعه 2 دقیقه

برای افراد ناشنوا و کم شنوا، فناوری تشخیص صدا مانند الکسا و سیری کاربردی نیست. پس محققان از هوش مصنوعی برای توسعه ابزاری استفاده کرده‌اند که زبان اشاره را به متن تبدیل می‌کند و به طور بالقوه باعث افزایش دسترسی‌پذیری ابزارهای اینترنتی هوشمند برای جامعه ناشنوایان می‌شود.

ترجمه زبان اشاره مستلزم درک دقیق ژست‌ها برای ایجاد یک رونویسی متنی دقیق است. محققان در مرکز ابررایانه‌ای بارسلونا (BSC) و دانشگاه سیاسی کاتالونیا (UPC) از هوش مصنوعی برای توسعه ابزاری برای بهبود ترجمه زبان اشاره استفاده کرده‌اند که گامی مهم در جهت اجازه دادن به افراد ناشنوا و کم‌شنوا برای تعامل با فناوری و دسترسی به خدمات دیجیتال طراحی شده برای استفاده با زبان‌های گفتاری است.

محققان از یک مدل یادگیری ماشینی شبیه به مدل‌های ابزار‌های هوش مصنوعی دیگر مانند ChatGPT موسوم به ترانسفورماتور‌ها استفاده کردند.

ترانسفورماتور‌ها به دلیل مکانیسم توجه درونی کارا و متنی کردن متغیرها با استفاده از سایر متغیرها و امکان استفاده از داده‌های آموزشی بیشتر مفید هستند.

مجموعه داده آموزشی از How2Sign، یک مجموعه داده با مقیاس بزرگ، چندوجهی و چند نمایشی در دسترس عموم است که شامل 80 ساعت فیلم آموزشی به زبان اشاره آمریکایی با رونوشت‌های انگلیسی مربوطه است.

ابزار جدید توسعه‌یافته، توسعه‌ای از انتشار قبلی به نام How2Sign است که توسط BSC و UPC توسعه یافته بود.

چالشی که محققان با آن مواجه بودند، تنوع و پیچیدگی زبان‌های اشاره بود که می‌تواند تحت تأثیر مواردی مانند پیشینه، زمینه و ظاهر ایما و اشاره کننده باشد. برای کمک به این موضوع، آن‌ها داده‌ها را با استفاده از شبکه‌های سه‌بعدی متورم (I3D) پیش پردازش کردند، روشی برای استخراج ویدیو که یک فیلتر سه‌بعدی را روی فیلم‌ها اعمال می‌کند و اجازه می‌دهد اطلاعات مکانی – زمانی مستقیماً از آن‌ها گرفته شود.

محققان دریافتند که پیش پردازش متن نیز به طور قابل توجهی ترجمه علامت به متن را بهبود می‌بخشد. برای پیش پردازش متن خام، همه آن را به حروف کوچک تبدیل کردند که پیچیدگی واژگان را کاهش داد.

به طور کلی، آن‌ها دریافتند که مدل آن‌ها می‌تواند ترجمه‌های معناداری را تولید کند، اما کامل نیست. محققان می‌گویند: «در حالی که کار ما نتایج امیدوارکننده‌ای را نشان داده است، هنوز جا برای بهبود وجود دارد.

با توجه به اینکه این مدل هنوز در مرحله آزمایشی قرار دارد، محققان به کار بر روی ایجاد ابزاری ادامه خواهند داد که به افراد ناشنوا و کم شنوا امکان دسترسی به فناوری‌های مشابه افراد بدون مشکل شنوایی را می‌دهد.

این تحقیق بدر arXiv منتشر شده.

منبع: مرکز ابرکامپیوتر بارسلونا