یادگیری ماشینی تشخیص گفتار انسان را بهبود می بخشد —


کم شنوایی یک حوزه تحقیقات علمی است که به سرعت در حال رشد است زیرا با افزایش سن، تعداد افرادی که با کم شنوایی سروکار دارند همچنان در حال افزایش است.

برای درک اینکه کاهش شنوایی چگونه بر افراد تأثیر می گذارد، محققان توانایی افراد در تشخیص گفتار را مطالعه می کنند. در صورت وجود طنین، اختلالات شنوایی، یا سر و صدای قابل توجه پس زمینه، مانند صدای ترافیک یا چندین بلندگو، تشخیص گفتار انسان برای افراد دشوارتر است.

در نتیجه، الگوریتم های سمعک اغلب برای بهبود تشخیص گفتار انسان استفاده می شود. برای ارزیابی چنین الگوریتم‌هایی، محققان آزمایش‌هایی را انجام می‌دهند که هدف آن تعیین نسبت سیگنال به نویز است که در آن تعداد خاصی از کلمات (معمولاً 50٪) تشخیص داده می‌شود. با این حال، این آزمایش ها زمان بر و هزینه بر هستند.

که در مجله انجمن آکوستیک آمریکاکه توسط انجمن آکوستیک آمریکا از طریق انتشارات AIP منتشر شده است، محققان آلمانی یک مدل تشخیص گفتار انسانی مبتنی بر یادگیری ماشین و شبکه‌های عصبی عمیق را بررسی می‌کنند.

نویسنده Jana Roßbach از دانشگاه Carl Von Ossietzky می‌گوید: «جدید بودن مدل ما این است که پیش‌بینی‌های خوبی برای شنوندگان کم‌شنوا برای انواع نویز با پیچیدگی بسیار متفاوت ارائه می‌کند و هم خطاهای کم و هم همبستگی بالایی را با داده‌های اندازه‌گیری شده نشان می‌دهد.»

محققان با استفاده از تشخیص خودکار گفتار (ASR) تعداد کلمات را در هر جمله محاسبه کردند. اکثر مردم از طریق ابزارهای تشخیص گفتار مانند الکسا و سیری با ASR آشنا هستند.

این مطالعه شامل هشت شنوایی عادی و 20 شنونده کم شنوایی بود که در معرض انواع صداهای پیچیده ای قرار گرفتند که گفتار را پنهان می کرد. شنوندگان کم شنوایی به سه گروه با سطوح مختلف کم شنوایی مرتبط با سن تقسیم شدند.

این مدل به محققان اجازه داد تا عملکرد تشخیص گفتار انسانی شنوندگان کم شنوایی با درجات مختلف کاهش شنوایی را برای انواع پوشش‌دهنده‌های نویز با افزایش پیچیدگی در مدولاسیون زمانی و شباهت به گفتار واقعی پیش‌بینی کنند. کاهش شنوایی احتمالی یک فرد را می توان به صورت جداگانه در نظر گرفت.

Roßbach گفت: “ما از این که پیش بینی ها برای همه انواع نویز به خوبی کار می کردند شگفت زده شدیم. ما انتظار داشتیم که مدل در هنگام استفاده از یک بلندگوی رقیب مشکل داشته باشد. اما اینطور نبود.”

این مدل پیش بینی هایی را برای شنوایی تک گوش ایجاد کرد. در آینده، محققان یک مدل دوگوشی ایجاد خواهند کرد زیرا درک گفتار تحت تأثیر شنوایی دو گوش قرار می گیرد.

علاوه بر پیش‌بینی درک گفتار، این مدل همچنین می‌تواند به طور بالقوه برای پیش‌بینی تلاش گوش دادن یا کیفیت گفتار مورد استفاده قرار گیرد زیرا این موضوعات بسیار مرتبط هستند.

منبع داستان:

مواد ارائه شده توسط موسسه فیزیک آمریکا. توجه: محتوا ممکن است برای سبک و طول ویرایش شود.