توسط محققان دانشگاهی صورت گرفت

طراحی سامانه ای برای كمك به افرادی كه مشكل ناشنوایی و اختلال تكلم دارند

دانلود فایل: محققان دانشكده مهندسی پزشكی دانشگاه صنعتی امیركبیر موفق به طراحی سامانه ای برای بكارگیری اطلاعات تصویری در بازشناسی خودكار گفتار صوتی-تصویری شدند.

به گزارش دانلود فایل به نقل از ایسنا، فاطمه وخشیته، دكترای مهندسی پزشكی - گرایش بیوالكتریك از دانشگاه صنعتی امیركبیر درباره طرح خود در خصوص «طراحی سامانه طراحی بازشناسی خودكار گفتار» اظهار نمود: به‎كارگیری منابع اطلاعاتی گوناگون نقش مهمی در سامانه‎های بازشناسی گفتار دارد، به‎طوری كه عملكرد مطلوب تر سامانه‎ها می‎تواند در نتیجه استفاده صحیح از اطلاعات كمكی مناسب و با روش‎های دقیق شود.

وی با بیان این كه این پروژه به راهنمایی دكتر فرشاد الماس گنج و مشاوره دكتر احمد نیك آبادی انجام شده است، اضافه كرد: این مساله ریشه در طبیعت ادراك در انسان دارد؛ چونكه در مغز انسان و همچون در فرآیندهای تولید و ادراك گفتار، به‎طور همزمان بر روی چندین منبع اطلاعاتی پردازش صورت می‎پذیرد.

وی با اشاره به تحقیقات خود در زمینه بازشناسی خودكار، اظهار داشت: هدف این تحقیق به‎كارگیری اطلاعات تصویری در چارچوب اطلاعات كمكی و نمایش سامانه بازشناسی خودكار گفتار صوتی-تصویری است، تا ضمن برآورده ‎شدن طبیعت چندگونه‎ای ادراك در انسان، از خاصیت مقاوم ‎ بودن اطلاعات تصویری در مقابل نویز صوتی نیز استفاده گردد.

بگفته این محقق، در بازشناسی گفتار صوتی-تصویری، هر یك از روش‎های‎ استخراج ویژگی، مدل‎سازی، تلفیق گونه‎های مختلف صوتی و تصویری و نهایتاً بازشناسی‎ دوگونه‎ای گفتار نقش بسزایی دارند. منظور از یك گونه، یك منبع اطلاعاتی است و ویژگی‎های مستخرج در شرایط نمایش یك منبع اطلاعاتی، ویژگی‎های تك‎گونه‎ای نامیده می‎شوند.

وی با اشاره به اینكه منظور از دو گونه، دو منبع مختلف اطلاعاتی است و ویژگی‎های مستخرج در شرایط فراهم‎شدن همزمان دو منبع اطلاعاتی، ویژگی‎های دوگونه‎ای نامیده می‎شوند، بیان كرد: بر این اساس در این رساله ابتدا خاصیت ‏های مناسب صوتی و تصویری جستجو و استخراج می‎شوند.

وخشیته بیان كرد: درباب شاخه ‎تصویری، از روش های كلاسیك و مبتنی بر شبكه‎های عصبی عمیق استفاده می‎شود و در ادامه یك روش استخراج خاصیت تركیبی پیشنهاد می‎شود كه از این میان ویژگی‎های تصویری هیبریدی كه در یك پروسه پیش‎پردازشی پیچیده استخراج می شوند، به‎عنوان ویژگی‎های منتخب تصویری درنظر گرفته خواهند شد.

وی درباب روند كار با این سامانه افزود: شاخه صوتی، ویژگی‎های كپسترال فركانس حوزه مل بعد از انجام مقایسه‎ها به‎عنوان ویژگی‎های منتخب صوتی لحاظ می شوند؛ در ادامه، تلفیق كارآمد ویژگی‎های منتخب تك‎گونه‎ای دنبال می‎شود، به‎گونه‎ای كه سبب هم‎افزایی دو منبع اطلاعاتی و همین طور كاهش نویز زمینه موجود در گفتار صوتی شود.

محقق طرح با اشاره به اینكه در این خصوص دو رویكرد تلفیق خاصیت پیشنهاد می ‏شود، اشاره كرد: در رویكرد اول، از معیار آنتروپی جهت سنجش میزان رسایی (چگونگی بازنمایی اطلاعات) ویژگی‎های حاصل از منابع صوتی و تصویری استفاده می‎شود و تلفیق اطلاعات در سطح متوسط با انتخاب لایه صوتی با آنتروپی بیشینه و لایه تصویری با آنتروپی كمینه صورت می‏ پذیرد. در رویكرد دوم، از شبكه‎های كدگذار خودكار عمیق استفاده می‎شود و تلفیق اطلاعات در لایه گلوگاه شبكه صورت می‎پذیرد. در این رویكرد یك ساختار دوگونه‎ای پیشنهاد می‎شود كه طی چهار مرحله توسعه می یابد و تكمیل می‎شود.

وی ادامه داد: در آخرین مرحله از توسعه، با در نظر گرفتن تابع مناسب نگاشت‎دهنده ویژگی‏ های گلوگاهی نویزی به تمیز و قراردادن لایه برچسب‎ها در كنار گلوگاه شبكه، ساختاری به‎دست می‎آید كه نسبت به سایر ساختارها از كارآمدی بالاتری برخوردار می باشد.

محقق طرح با اشاره به نتیجه تحقیقات خود اظهار داشت: خروجی رویكردها به‏ طور كلی موفقیت عملكرد آن‎ها را نشان می‎دهد و به میزان بالایی در بهبود نتایج بازشناسی گفتار موثر است.

وی افزود: در شرایط نویزی با نمایش اطلاعات صوتی به تنهایی در سامانه عمیق هیبریدیِ مبتنی بر شبكه باور عمیق و مدل مخفی ماركوف، نرخ خطای واجی ۱۸.۵ درصد را نشان داده است كه در این شرایط، با تلفیق ویژگی‎ها برمبنای معیار آنتروپی، نرخ خطای واجی به ۱۰.۹ درصد كاسته می شود كه این مقدار با تلفیق ویژگی‎ها توسط شبكه كدگذار خودكار عمیق دوگونه‎ای برابر با ۱۰.۳ درصد می‎شود.

وی ادامه داد: از این سامانه می توان برای افرادی كه مشكل ناشنوایی دارند، بهره برد.

وخشیته با اشاره به كاربرد این سامانه اظهار داشت: «كمك به افرادی كه اختلال تكلم دارند، به نحوی كه از اطلاعات تصویری آنها كمك گرفته و اختلال به وجود آمده در سیگنال گفتار این افراد جبران شود» كه این كاربرد در بهبود انتقال پیام در سیگنال گفتار گویندگان است؛ این یكی از كاربردهای سامانه شمرده می شود.

وی افزود: «در محیط های شلوغ كه اطلاعات صوتی گویندگان مخدوش یا نامفهوم است، از اطلاعات تصویری این افراد كمك گرفته می شود و پیغام صوتی منتقل می شود» همچون كاربردهای این سامانه است. این كاربرد در بهبود انتقال پیام برای شنوندگان است.

وخشیته اضافه كرد: اینها نمونه كاربردهای رایجی هستند كه در آنها از اطلاعات تصویری در بازشناسی خودكار گفتار استفاده می شود، اما توجیه بكارگیری شبكه های عصبی عمیق در این راستا ارتقای دقت بازشناسی گفتار تصویری (لبخوانی) و گفتار صوتی معمولی و همین طور در شرایطی است كه از اطلاعات صوتی و تصویری بصورت همزمان استفاده می شود، است.

منبع: دانلود فایل

1398/03/01

18:05:56

5.0 / 5

4272

تگهای خبر: پروژه , تولید , دانشگاه , محقق

این مطلب را می پسندید؟

(1)

(0)

تازه ترین مطالب مرتبط

نظرات بینندگان در مورد این مطلب

لطفا شما هم در مورد این مطلب نظر دهید

= ۲ بعلاوه ۳

ارسال نظر