ترکیب و تشخیص صحبت
کاربردهای نیازمند پردازش صحبت اغلب در دو دستهٔ ترکیب صحبت و تشخیص صحبت مورد بررسی قرار میگیرند. ترکیب صحبت عبارت است از فن آوری تولید مصنوعی صحبت به وسیلهٔ ماشین و به طور عمده از پروندههای متنی به عنوان ورودی آن استفاده میگردد. در اینجا باید به یک نکتهٔ مهم اشاره شود که بسیاری از تولیدات تجاری که صدای شبیه به صحبت انسان ایجاد میکنند در واقع ترکیب صحبت انجام نمیدهند بلکه تنها یک تکهٔ ضبط شده به صورت دیجیتال از صدای انسان را پخش میکنند. این روش کیفیت صدای بالایی ایجاد میکند اما به واژهها و عبارات از پیش ضبط شده محدود است.
از کاربردهای عمدهٔ ترکیب صحبت میتوان به ایجاد ابزارهایی برای افراد دارای ناتوانی بینایی برای مطلع شدن از آنچه بر روی صفحهٔ کامپیوتر میگذرد اشاره کرد. تشخیص صحبت عبارت است از تشخیص کامپیوتری صحبت تولید شده توسط انسان و تبدیل آن به یک سری فرامین یا پروندههای متنی. کاربردهای عمدهٔ موجود برای این گونه سیستمها دربرگیرندهٔ بازهٔ گستردهای از سیستمها و کاربردها از سیستمهای دیکتهٔ کامپیوتری که در سیستمهای آموزشی و همچنین سیستمهای پردازش واژه کاربرد دارد گرفته تا سیستمهای کنترل کامپیوترها به وسیلهٔ صحبت و به طور خاص سیستمهای فراهم آورندهٔ امکان کنترل کامپیوترها برای افراد ناتوان از لحاظ بینایی یا حرکتی میباشد. کاربرد مورد نظر ما یعنی تشخیص گوینده از لحاظ نحوهٔ پیاده سازی و استفاده تناسب فراوانی خانوادهٔ دوم یعنی تشخیص کامپیوتری صحبت دارد، ولی از لحاظ اهداف و کاربردها میتواند در خانوادهای جداگانه از کاربردهای نیازمند پردازش صحبت قرار گیرد.
ترکیب و تشخیص کامپیوتری صحبت مسائل دشواری هستند. روشهای مختلفی مورد آزمایش قرار گرفت هاند که موفقیت کمی داشتهاند. این زمینه از زمینههای فعال در تحقیقات پردازش سیگنال دیجیتال (دی. اس. پی) بوده و بدون شک سالها این گونه خواهد ماند. در حال حاضر از ابزارهای برنامهنویسی جاافتاده در زمینههای برشمرده شده میتوان بهای. پی. آی صحبت شرکت مایکروسافت اشاره نمود که دارای تواناییهای عمدهای در زمینههای تشخیص و ترکیب صحبت است و توانایی آن تا حدی گستردهاست که در محصول بزرگ واز آن استفادهٔ عملی شدهاست. ابزار عمد هی دیگر تولید شرکت آی. بی. ام است و MS افیس xpتوانمند نام دارد که به لحاظ پشتیبانی آن برای سیستمعاملهای متعدد و زبانهای گوناگون از اهمیت خاصی برخوردار است.
مدلی برای توصیف روش تولید صحبت
تقریباً تمام تکنیکهای ترکیب و تشخیص صحبت بر اساس مدل تولید صحبت انسان که در شکل شماره ۳ نشان داده شدهاست ایجاد شدهاند. بیشتر صداهای مربوط به صحبت انسان به دو دستهٔ صدادار و سایشی تقسیم میشوند. اصوات صدادار وقتی که هوا از ریهها و از مسیر تارهای صوتی به بیرون دهان یا بینی رانده میشوند ایجاد میگردند. تارهای صوتی دو رشتهٔ آویخته از بافت هستند که در مسیر جریان هوا کشیده شدهاند. در پاسخ به کشش ماهیچههای متفاوت تارهای صوتی با فرکانسی بین ۵۰ تا ۱۰۰۰ هرتز ارتعاش میکنند که باعث انتقال حرکتهای متناوب هوا. در مقایسه، اصوات سایشی به صورت نویز تصادفی و نه حاصل از ارتعاش تارهای صوتی به وجود میآیند. این حادثه زمانی رخ میدهد که تقریباً جریان هوا به وسیلۀ زبان و لبها یا دندانها حبس میشود که این امر باعث ایجاد اغتشاش هوا در نزدیکی محل فشردگی میگردد شکل شماره ۳ – مدل صحبت انسان. در یک تکه زمان کوتاه، حدود ۲ تا ۴۰ میلی ثانیه صحبت میتواند با استفاده از سه پارامتر مدلسازی شود:
۱- انتخاب یک آشفتگی متناوب یا نویزوار. ۲- پیچ آشفتگی متناوب ۳- ضرایب یک فیلتر خطی بازگشتی که پاسخ اثر صوتی را تقلید میکند. اصوات سایشی زبان انگلیسی عبارتند از S،Z،TH استفاده از یک مولد نویز نشان داده شدهاند. هر دو نوع این اصوات، توسط چالههای صوتی که از زبان، لبها، دهان، گلو و گذرگاههای بینی تشکیل شدهاند دچار تغییر میشوند. چون انتشار صدا در این ساختارها یک فرایند خطی است میتواند با استفاده از یک فیلتر خطی با یک پاسخ ضربهٔ مناسب نمایش داده شود. در بیشتر موارد از یک فیلتر بازگشتی که ضرایب بازگشتی آن ویژگیهای فیلتر را مشخص میکند استفاده میشود. به خاطر این که چالههای صوتی ابعادی به اندازهٔ چند سانتیمتر دارند پاسخ فرکانسی یک دنباله از تشدیدها با اندازههای کیلوهرتزی است. در اصطلاح پردازش صوت این قلههای تشدید فرکانسهای فرمانت خوانده میشوند. با تغییر جایگاه نسبی زبان و لبها فرکانسهای فرمانت هم از لحاظ دامنه و هم از لحاظ فرکانس ممکن است تغییر کنند.
سیگنال صوتی به تکههای کوچک به اندازهٔ ۲ تا ۴۰ میلی ثانیه تقسیم میشوند و از الگوریتم اف. اف. تی برای یافتن طیف فرکانسی هر تکه استفاده میشود. این طیفها در کنار هم قرار داده شده تبدیل به یک تصویر سیاه و سفید میشود (دامنههای پایین روشن و دامنههای بالا تیره میشوند). این کار یک روش گرافیکی برای مشاهدهٔ این که چگونه محتویات فرکانسی صحبت با زمان تغییر میکند به وجود میآورد. اندازهٔ هر تکه بر اساس اعمال یک بده بستان بین دقت فرکانسی (که با تکههای بزرگ تر بهتر میشود) و دقت زمانی (که با تکههای کوچک تر بهتر میشود) انتخاب میگردد.
ویژگیهای عمومی اصوات d و c ویژگیهای عمومی اصوات صدادار و شکلهای b و a دارای موج صوتی متناوبی مانند آنچه در رین در a همچنانکه در شکل ۴ دیده میشود اصوات صدا دار مثل نشان داده شده و طیف فرکانسی آنها که عبارت است از یک دنباله از همسازهای با اندازهٔ منظم a شکل دارای یک سیگنال نویزی در دامنهٔ استوم در s میباشد در مقابل، اصوات سایشی مانند b مانند شکل هستند. این طیفها همچنین شکل فرکانسهای فرمانت برای d و یک طیف نویزی مانند شکل c زمان مانند شکل در هر رین هر دو نوع صوت نشان میدهند. همچنین به این نکته توجه کنید که نمایش زمان-فرکانس کلمهٔ دو باری که ادا شده شبیه به هم است. در یک دور هی کوتاه برای نمونه ۲۵ میلی ثانیه یک سیگنال صحبت میتواند با مشخص کردن سه پارامتر تقریب زده شود:
۱) انتخاب یک اغتشاش متناوب یا نویزوار
۲)فرکانس موج متناوب (اگر مورد استفاده قرار گرفته باشد)
۳)ضرایب فیلتر دیجیتالی که برای تقلید پاسخ تارهای صوتی استفاده شدهاست.
صحبت پیوسته با بهروزآوری این سه پارامتر به صورت پیوسته به انداز هی ۴۰ بار در ثانیه ترکیب شود. این نامیده میشود و یک وسیلهٔ «صحبت و املا» راهکار برای یکی از کاربردهای تجاری دی. اس. پی که الکترونیکی پرفروش برای بچه هاست مناسب است. کیفیت صدای این نوع ترکیب کنندهٔ صحبت پایین است و بسیار مکانیکی و متفاوت با صدای انسان به نظر میرسد. ولی در هر صورت نرخ دادهٔ خیلی پایینی در حدود چند کیلوبیت بر ثانیه نیاز دارد.
همچنین این راهکار پایهای برای روش کدگذاری پیشگویانهٔ خطی (ال. پی. سی) در فشرده سازی صحبت فراهم میآورد. صحبت ضبط شدهٔ دیجیتالی انسان به تکههای کوچک تقسیم میشود و هر کدام با توجه به سه پارامتر مدل توصیف میشود. این عمل به طور معمول نیاز به یک دوجین بایت برای هر تکه دارد که نرخ دادهای برابر با ۲ تا ۶ کیلوبایت بر ثانیه را طلب میکند. این تکهٔ اطلاعاتی ارسال میشود و در صورت لزوم ذخیره میگردد و سپس توسط ترکیب کنند هی صحبت بازسازی میشود.
الگوریتمهای تشخیص صحبت با تلاش برای شناسایی الگوهای پارامترهای استخراج شده از این روش نیز پیش تر میروند. این روشها معمولاً شامل مقایس هی تکههای اطلاعاتی با قالبهای صدای از پیش ذخیره شده در تلاش برای تشخیص کلمات گفته شده میباشند. مشکلی که در اینجا وجود دارد این است که این روش همیشه به درستی کار نم یکند. این روش برای بعضی کاربردها قابل استفادهاست اما با تواناییهای شنوندگان انسانی خیلی فاصله دارد.
آیندهٔ فناوریهای پردازش صحبت
ارزش ایجاد فناوریهای ترکیب و تشخیص صحبت بسیار زیاد است. صحبت سریعترین و کاراترین روش ارتباط انسانهاست. تشخیص صحبت پتانسیل جایگزینی نوشتن، تایپ، ورود صفحهکلید و کنترل الکترونیکی را که توسط کلیدها و دکمهها اعمال میشود را داراست و فقط نیاز به آن دارد که کمی برای پذیرش توسط بازار تجاری بهتر کار کند. ترکیب صحبت علاوه بر آن که همانند تشخیص صحبت میتواند استفاده از کامپیوتر را برای کلیهٔ افراد ناتوان بدنی که دارای تواناییهای شنوایی و گفتاری مناسب هستند آسا نتر سازد به عنوان یک وسیلهٔ خروجی کاربرپسند در محیطهای مختلف میتواند با جایگزین کردن بسیاری از علائم دیداری(انواع چراغها و…) و شنوایی (انواع زنگهای اخطار و …) با گفتارهای بیان کنندهٔ کامل پیامها استفاده از و رسیدگی به سیستمهای نیازمند این گونه پیامها را بهینه کند. در اینجا لازم است به این نکته اشاره شود که پیشرفت در فن آوری تشخیص صحبت (و همچنین تشخیص گوینده) همان قدر که محدودهٔ دی. اس. پی را در بر میگیرد نیازمند دانش به دست آمده از محدودههای هوش مصنوعی و شبکههای عصبی است.
شاید این تنوع دانشهای مورد نیاز به عنوان عامل دشواری مطالع هی مبحث پردازش صحبت در نظر گرفته شود حال آن که این گونه نیست و این تنوع راهکارها بخت رسیدن به سیستم با کارایی مطلوب را افزایش میدهد. تواناییهای ابزارهایی که در بخش اول این فصل به آنها اشاره شد امیدواریهای فراوانی را در زمینهٔ موفقیت ابزارهای موجود فراهم میآورد و دامنهٔ وسیع شرکتها و مراکز دانشگاهی که در این زمینه فعالیت میکنند بر تنوع در قابلیتها و کاربردهای پیاده سازی شدهٔ این ابزارها میافزاید. نتیجه در این مقاله یک سیستم تشخیص گفتار وابسته به گوینده مورد بررسی قرار گرفتهاست. که این سیستم در کنار معایب خود که از آن جمله میتوان به شامل نشدن کلمات و جملات محاورهای اشاره کرد و این که این نرمافزار برای زبان فارسی طراحی نشدهاست و اخیراً در داخل کشور ایران تلاشهایی توسط متخصصین دانشگاه صنعتی شریف جهت دستیابی به نسخه فارسی آن صورت گرفته، مزایای هم در پی دارد که از آن جمله میتوان به عدم حساسیت آن به زبان و گویش خاص اشاره کرد و اینکه این نرمافزار نسبت به سروصدای محیط و همچنین مکانهای پرنویز حساس نیست و در مقابل چنین مکانهایی مقاوم است اشاره کرد.
هدفی که این نرمافزار دنبال میکند آن است که به جای برقراری ارتباط با کامپیوتر توسط ماوس و صفحه کلید و… خود بتوان پیام موردنظر را بیان کرده و کامپیوتر آن فرمان مربوطه را انجام دهد یا به جای تایپ کردن متن موردنظر فقط کافی است که متن موردنظر را از طریق میکروفون به رایانه منتقل کرده و متن را تایپ شده و آماده ببنیم. هدفی که این نرمافزار همانند بسیاری از نرمافزارهای دیگر دنبال میکند ارتقای سطح کیفیت زندگی و تسهیل امور روزمرهاست در صورت استفاده از این نرمافزار در ادارات و سازمانهای دولتی است.
مقدمه ای بر پردازش گفتار
سیگنال صوتی و شنیداری یا Audio احساس ارتعاشات و نوسانات هوا توسط گوش انسان است. اگر این صوت در محدوده فرکانسی 20Hz – 20KHz باشد با رسیدن به گوش و سپس انتقال به مغز و پردازش روی آن باعث درک مفهوم در ذهن انسان می گردد. سیگنال گفتار Speech زیر مجموعه ای از سیگنال Audio می باشد که توسط انسان ایجاد می شود. در نمودار زیر بخش سیاه شنیده نمی شود, شنیدن بخش قرمز آزار دهنده است و بخش سبز شنیده می شود.
از جمله کاربردهای پردازش گفتار میتوان به موارد زیر اشاره کرد:
- مخابره صدا به همراه تصوير و سایراطلاعات
- دادن فرمانها و دستورات كنترلي توسط صدا
- كنترل دستگاه ها و تجهيزات صنعتي و آزمايشگاهها توسط صدا
- دادن فرامين صوتي در جاهايي كه دست انسان مشغول است مثل هواپيما و اتوموبيل
- ديكته اتوماتيك
- انجام عملیات بانکی پس از تایید هویت توسط صدا
- کلید و قفل صوتی و بازشناسی هویت افراد قبل از ورود آنها به اماکن با درجه امنیت بالا
- شناسائی خودکار زبان گوینده در سیستم های ترجمه اتوماتیک و یا پذیرش هتل های بین المللی
- فروش خودکار بلیط در ایستگا ه های قطار و مترو و اتوبوس و غیره
- پردازش زبان برای نا بینایان
اکثر کاربردهای ذکر شده در یکی از سه شاخه زیر قرار میگیرند:
- آنالیز گفتار برای تشخیص اتوماتیک و استخراج اطلاعات
- دریافت برخی از اطلاعات فیزیولوژیکی گوینده
- ارتباط گفتاری بین انسان و ماشین در اساسی تری شکل طبیعی آن
اما بطور کلی میتوان موارد زیر را به عنوان شاخه های پردازش گفتار نام برد:
- کد کردن و فشرده سازی گفتار
- سنتز گفتار
- تشخیص و درک گفتار
- تأیید هویت گوینده
- تشخیص هویت گوینده
- غنی سازی گفتار
- ترجمه شفاهی گفتار
- تعیین سن، جنس، لهجه، حالت روحی و روانی و نا هنجاری گفتار
برای تولید گفتار بسیاری از اندام ها به صورت هماهنگ نیاز به فعالیت دارند. که بطور کلی میتوان آن ها را در دو بخش vocal tract و nasal tract تقسیم بندی کرد.
Vocal Tract: شامل حلق(اتصال از مری به دهان) و محفظه دهانی میباشد. میانگین طول vocal tract برای آقایان حدود 17.5 سانتیمتر میباشد و سطح مقطع آن که توسط موقعیت زبان, لبها, فک و غشا(یک دریچه در پشت محفظه دهانی که vocal tract و nasal tract را برای تولید صداهای دماغی شبیه /m/,/n/ به هم وصل می کند) تعیین میگردد و از صفر(بسته شدن کامل) تا 20 سانتیمتر مربع متفاوت است.
Nasal Tract: از غشا تا سوراخ بینی گفته میشود.
با کمک اندام های گفتاری میتوانیم صداهای متفاوتی ایجاد کنیم و با کنار هم قرار گرفتن پیوسته این صداها گفتار شکل میگیرد به عنوان مثال شکل مجرای گفتار را در هنگام ادای بعضی حروف به شکل زیر داریم:
واکه ها (vowel) و همخوانهای(consonant) زبان فارسی با توجه به شیوه تولید و واک(voice) یا بی واک(unvoice) بودن در جدول زیر قابل مشاهده هستند:
انواع نویز صوتی در پردازش گفتار
برقراري ارتباط گفتاري در محيطهاي آرام و فواصل نزديک معمولا به درستي و بدون دخالت نويز انجام ميگيرد، ولي زماني که بحث برقراري ارتباط در فواصل دور مطرح باشد، نويز زمينه در آن فضا وجود دارد و کيفيت سيگنال گفتار تا حد زيادي کاهش مييابد؛ در نتيجه توانايي شنونده تضعيف ميگردد. نکته حائز اهميت در ارائه يک روش حذف نويز، حفظ ساختار اصلي سيگنال ميباشد؛ بطوريکه سيگنال بهبود يافته، نسبت به سيگنال اصلي دچار تغيير شکل، جابجايي و اعوجاج نشود.
بر اساس ماهيت و ويژگيهاي منبع نويز، نويز ميتواند به صورت زیر دستهبندي شود:
-
- نويز زمينه: منظور از نويز زمينه صداهايي است بـه جـز صداي فـرد گوينده کـه توسط ميکروفون دريافت شده است و معمولاً به دو دسته نويز سفيد و نـويز رنگـي تقـسيم مـي شود. مانند صداي به هم خوردن يک در، موزيک، همهمه افراد و غيره. نويز جمع شونده اسـت، کـه معمولاً با سيگنال ناهمبسته است و در محيط هاي مختلفي مثل ماشين، دفتر کار، خيابانهاي شهر، محيط کارخانه، هليکوپتر و غيره حاضر است. نويزهاي خيابان و کارخانه و … ويژگيهاي پوياي بسياري دارند. نويز کارخانـه وهليکـوپتر اجـزاء پريوديکي دارند و مثالهايي از نويز غير ايستا هستند که ويژگيهاي متغير در زماني دارند.
-
- گوينده مزاحم(گفتاري که مانند نويز است): نويز جمع شوندهای که ترکيبي از يـک يـا چنـد گوينده است. در اين نوع، خصوصيات نويز و بازه فرکانسياش بسيار مـشابه بـا سيگنال گفتـار مورد نظر است.
-
- نويز ضربهای: مانند بهم خوردن شدید درب، یا نويز ارشيو شده در صفحات گرامافون.
-
- نويز غير افزايشي به دليل تاکيد گوينده: براي مثال اثر لمبارد، اثر نويز وقتي که گوينده تمايل به افزايش صدايش را دارد.
-
- نويز همبسته با سيگنال: مانند طنين و اکوها
-
- نويز کانولوشني: مشابه با کانولوشن در حوزه زمان. براي نمونه، تغييرات در سيگنال گفتـار به علت تغييرات در خواص صوتي اتاق يا تغييرات در ميکروفون ها و غيره. برخورد با ايـن مـوارد معمولاً دشوارتر از نويزهای جمع شونده است.