فراتر از متن: مدل هوش مصنوعی یا یادگیری از ۸۰ ساعت ویدئو ، در حال یادگیری زبان اشاره است

برای افراد ناشنوا و کم شنوا، فناوری تشخیص صدا مانند الکسا و سیری کاربردی نیست. پس محققان از هوش مصنوعی برای توسعه ابزاری استفاده کردهاند که زبان اشاره را به متن تبدیل میکند و به طور بالقوه باعث افزایش دسترسیپذیری ابزارهای اینترنتی هوشمند برای جامعه ناشنوایان میشود.
ترجمه زبان اشاره مستلزم درک دقیق ژستها برای ایجاد یک رونویسی متنی دقیق است. محققان در مرکز ابررایانهای بارسلونا (BSC) و دانشگاه سیاسی کاتالونیا (UPC) از هوش مصنوعی برای توسعه ابزاری برای بهبود ترجمه زبان اشاره استفاده کردهاند که گامی مهم در جهت اجازه دادن به افراد ناشنوا و کمشنوا برای تعامل با فناوری و دسترسی به خدمات دیجیتال طراحی شده برای استفاده با زبانهای گفتاری است.
محققان از یک مدل یادگیری ماشینی شبیه به مدلهای ابزارهای هوش مصنوعی دیگر مانند ChatGPT موسوم به ترانسفورماتورها استفاده کردند.
ترانسفورماتورها به دلیل مکانیسم توجه درونی کارا و متنی کردن متغیرها با استفاده از سایر متغیرها و امکان استفاده از دادههای آموزشی بیشتر مفید هستند.
مجموعه داده آموزشی از How2Sign، یک مجموعه داده با مقیاس بزرگ، چندوجهی و چند نمایشی در دسترس عموم است که شامل ۸۰ ساعت فیلم آموزشی به زبان اشاره آمریکایی با رونوشتهای انگلیسی مربوطه است.
ابزار جدید توسعهیافته، توسعهای از انتشار قبلی به نام How2Sign است که توسط BSC و UPC توسعه یافته بود.
چالشی که محققان با آن مواجه بودند، تنوع و پیچیدگی زبانهای اشاره بود که میتواند تحت تأثیر مواردی مانند پیشینه، زمینه و ظاهر ایما و اشاره کننده باشد. برای کمک به این موضوع، آنها دادهها را با استفاده از شبکههای سهبعدی متورم (I3D) پیش پردازش کردند، روشی برای استخراج ویدیو که یک فیلتر سهبعدی را روی فیلمها اعمال میکند و اجازه میدهد اطلاعات مکانی – زمانی مستقیماً از آنها گرفته شود.
محققان دریافتند که پیش پردازش متن نیز به طور قابل توجهی ترجمه علامت به متن را بهبود میبخشد. برای پیش پردازش متن خام، همه آن را به حروف کوچک تبدیل کردند که پیچیدگی واژگان را کاهش داد.
به طور کلی، آنها دریافتند که مدل آنها میتواند ترجمههای معناداری را تولید کند، اما کامل نیست. محققان میگویند: «در حالی که کار ما نتایج امیدوارکنندهای را نشان داده است، هنوز جا برای بهبود وجود دارد.
با توجه به اینکه این مدل هنوز در مرحله آزمایشی قرار دارد، محققان به کار بر روی ایجاد ابزاری ادامه خواهند داد که به افراد ناشنوا و کم شنوا امکان دسترسی به فناوریهای مشابه افراد بدون مشکل شنوایی را میدهد.
این تحقیق بدر arXiv منتشر شده.
منبع: مرکز ابرکامپیوتر بارسلونا