هوش مصنوعی یک خصلت دیگر انسان‌ها را هم یاد گرفت: دیگر صدای انسان از ماشین قابل تشخیص نیست

1

به نظر می‌رسد صدا و لهجه خصلت دیگری است که انسان‌ها به ماشین‌ها دادند تا هرچه بیشتر شبیه خودشان شوند!

گوگل در ماه جاری یک مقاله پژوهشی را منتشر کرده است که نشان می‌دهد دیگر تشخیص صدای انسان از ماشین امکان‌پذیر نیست. در این مقاله، یک سیستم تبدیل متن به گفتار ماشینی مبتنی بر هوش مصنوعی به نام Tacotron 2 معرفی شده است که می‌تواند یک متن را همانند یک انسان بخواند.

سیستم Tacotron 2 دومین نسل از فناوری اختصاصی گوگل برای تولید صدای انسان توسط ماشین‌ها است. این سیستم از دو شبکه عصبی عمیق سود می‌برد.

نزدیک شدن گفتار ماشین‌ها به انسان‌ها

اولین شبکه عصبی متن را به یک اسپکتروگرام (Spectrogram) تبدیل می‌کند؛ روشی بصری برای نشان دادن فرکانس‌های صوتی در طول زمان. اسپکتروگرام الگوی صدای به دست آمده را به یک شبکه عصبی دیگر به نام WaveNet می‌دهد.

سیستم WaveNet در آزمایشگاه هوش مصنوعی DeepMind شرکت آلفابت توسعه داده شده است و می‌تواند نموداری از عناصر صوتی برای تلفظ یک متن را ترسیم کند. دقت این سیستم بسیار بالا است و یک صدا را به صد میلی‌ثانیه یا هزار میلی‌ثانیه تجزیه می‌کند تا عناصر صدا مشخص شود.

به دو صدای زیر گوش کنید:

به نظر شما کدام‌یک توسط هوش مصنوعی گوگل خوانده شده و دیگری توسط یک انسان؟ بسیار سخت و در واقع غیرقابل‌تشخیص است.

 

یک مثال دیگر:

 

البته؛ می‌توان با مراجعه به سورس گوگل و یافتن نام فایل‌ها هر صدا و مطالعات دیگر می‌توان فهمید کدام‌ توسط هوش مصنوعی خوانده شده ولی در حالت عادی این دو صدا بسیار شبیه هم هستند.

محققان گوگل می‌گویند سیستم Tacotron 2 می‌تواند کلمات سخت را نیز درست تلفظ کند یا برخی کلمات بولد شده و مهم در متن را به حالتی بخواند که شنونده متوجه شود روی آن‌ها تاکید بیشتری هست.

برخلاف بسیاری از تحقیقاتی که در گوگل انجام می‌شود؛ طراحی سیستم Tacotron 2 می‌تواند

در آینده برای گوگل بسیار مفید و کاربردی باشد. گوگل شرکتی است که چندین محصول صوتی هوشمند وارد بازار کرده است و از Tacotron 2 می‌تواند روی Google Assistant و غیره بهره ببرد یا به صورت یک سرویس مستقل به بازار عرضه کند.

راستی در دو مثال بالا، صداهای دوم را هوش مصنوعی گوگل تولید کرده است.

منبع


اگر خواننده جدید سایت «یک پزشک»  هستید!
شما در حال خواندن سایت یک پزشک (یک پزشک دات کام) به نشانی اینترنتی www.1pezeshk.com هستید. سایتی با 18 سال سابقه که برخلاف اسمش سرشار از مطالب متنوع است!
ما را رها نکنید. بسیار ممنون می‌شویم اگر:
- سایت یک پزشک رو در مرورگر خود بوک‌مارک کنید.
-مشترک فید یا RSS یک پزشک شوید.
- شبکه‌های اجتماعی ما را دنبال کنید: صفحه تلگرام - صفحه اینستاگرام ما
- برای سفارش تبلیغات ایمیل alirezamajidi در جی میل یا تلگرام تماس بگیرید.
و دیگر مطالب ما را بخوانید. مثلا:

خانه‌هایی با طراحی عجیب که باید در مورد فلسفه وجودی‌شان فکر کرد!

سلیقه است دیگر. وقتی که کسی پول کافی داشته باشد و تنها حرف و سلیقه خودش برایش مهم باشد و اعتمایی به مد روز و حرف مردم نکند، ممکن است خانه‌اش را عجیب و غریب طراحی کند.البته گاهی این کاربری‌های متفاوت هستند که باعث ایجاد این خانه‌های عجیب…

منتخبی از تصاویر تاریخی کمتر دیده شده

با اینکه دسترسی به مستندهای خوب این روزها خیلی زیاد شده و به سبب وجود اینترنت (یا شبحی از اینترنت!) ما عکس تاریخی بسیار زیاد می‌بینیم (و می‌توانیم حدس بزنیم که که کئام عکس‌های معاصر روزی تبدیل به عکس تاریخی خواهند شد)، اما باز هم حجم…

شوخی با بناهای معروف و عجائب معماری دنیا یا میدجرنی – گمشده در ترجمه!

کاریکاتور شخصیت‌های مشهور را بسیار کشیده‌اند و دیده‌ایم، اما کشیدن کاریکاتور بناهای معروف زحمت بیشتری دارد. اما میدجرنی می‌تواند این زحمت را بسیار کمتر کند.کاربر شبکه اجتماعی دریت به نام mossymayn به تازگی این کار را کرده است:دروازه…

تصور کنید که در یک دنیای تخیلی، هری پاتر را استودیو جیبلی می‌ساخت

استودیو جیبلی یک استودیوی مشهور انیمیشن‌سازی ژاپنی است که به دلیل سبک هنری متمایز، داستان‌سرایی پر از تخیل و انیمیشن‌های هیجان‌انگیزش مشهور است. استودیو جیبلی که توسط هایائو میازاکی و ایسائو تاکاهاتا تأسیس شد، تعدادی از محبوب‌ترین فیلم‌های…

تصاویر طبقه‌بندی شدن پنتاگون البته «تخیلی» و حاصل میدجرنی از بازیابی یوفوها و برنامه‌ مهندسی معکوس…

بشقاب پرنده مخفف عبارت Unidentified Flying Object است. به هر شیء یا پدیده‌ای اطلاق می‌شود که در آسمان مشاهده شود و به راحتی قابل شناسایی یا توضیح نباشد. بشقاب پرنده‌ها اغلب با ادعا‌های مربوط به فضاپیما‌های فرازمینی مرتبط هستند، اما می‌توان…

عکس‌هایی که جادوی پرسپکتیو را نشان می‌دهند

عکاسی به نام هوگو سوئیساس، یک عکاس خلاق مستقر در لیسبون پرتغال است. او از دوربین و مغزش برای فریب چشم بینندگان عکس‌هایش استفاده می‌کند. او کاملاً خودآموخته، اشیاء روزمره را در صحنه‌هایی که به نظر نمی‌رسد متعلق به آن‌ها هستند، قرار می‌دهد، و…
آگهی متنی در همه صفحات
دکتر فارمو / کلینیک زیبایی دکتر محمد خادمی /جراح تیروئید / پزشکا /تعمیر فن کویل / سریال ایرانی کول دانلود / مجتمع فنی تهران / دانلود فیلم دوبله فارسی /خرید دوچرخه برقی /خرید دستگاه تصفیه آب /موتور فن کویل / شیشه اتومبیل / نرم افزار حسابداری / خرید سیلوسایبین / هوش مصنوعی / مقاله بازار / شیشه اتومبیل / قیمت ایمپلنت دندان با بیمه /سپتیک تانک /بهترین دکتر لیپوماتیک در تهران /بهترین جراح بینی در تهران / آموزش تزریق ژل و بوتاکس / دوره های زیبایی برای مامایی / آموزش مزوتراپی، PRP و PRF /کاشت مو /قیمت روکش دندان /خدمات پرداخت ارزی نوین پرداخت / درمان طب / تجهیزات پزشکی / دانلود آهنگ /داروخانه اینترنتی آرتان /اشتراك دايت /فروشگاه لوازم بهداشتی /داروخانه تینا /لیفت صورت در تهران /فروش‌ دوربین مداربسته هایک ویژن /سرور مجازی ایران /مرکز خدمات پزشکی و پرستاری در منزل درمان نو / ثبت برند /حمل بار دریایی از چین /سایت نوید /پزشک زنان سعادت آباد /کلاه کاسکت / لمینت متحرک دندان /فروشگاه اینترنتی زنبیل /ساعت تبلیغاتی /تجهیزات پزشکی /چاپ لیوان /خرید از آمازون /بهترین سریال های ایرانی /کاشت مو /قیمت ساک پارچه ای /دانلود نرم افزار /
1 نظر
  1. سید سروش هاشمی می گوید

    سلام.
    به نظرم صدایی که فرمودین توسط انسان تولید شده، در واقع توسط یک سیستم قدیمی‌تر تولید شده.
    با تشکر از متن‌های خوبتون

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.