چکیده
در این پایان نامه روشی برای شناسایی مصوتهای فارسی در کلمات تک سیلابی ارائه می شود. برای این منظور پس از جداسازی فریمهای تصویر و انتخاب فریمهایی که مربوط به تلفظ مصوت موجود در کلمه تک سیلابی بودند و نیز استخراج ناحیهای پیرامون لبها، ویژگیهای مختلفی همچون ضرایب کسینوسی و ضرایب موجک و ضرایب MFCC برای تشخیص مصوتها در کلمات تک سیلابی استخراج گردید. پس از آن توسط روش کاهش ویژگی LSDA، ویژگیها را کاهش داده و سایز ویژگیها را به ۲۵ تغییر دادیم. در نهایت موثرترین ویژگیها برای شناسایی مشخص گردید. در این تحقیق از پایگاه دادهای شامل کلمات تک سیلابی، که توسط گویندگان مختلفی ادا شده بود و شامل ۵۸۰ ویدیو بود استفاده گردید. از ۳۸۱ ویدیو برای آموزش و از ۱۹۹ ویدیو برای آزمایش استفاده نمودیم. ویژگیهای استخراجی به عنوان ورودی به شبکه عصبی دو لایه با ۲۰ نرون در لایه میانی و یک نرون در خروجی اعمال شدند. از تابع فعالسازی تانژانت سیگموید در لایه میانی و تابع خطی در خروجی استفاده کردیم و برای آموزش شبکه از روش گرادیان نزولی با نرخ آموزش متغیر استفاده نمودیم. بهترین نرخ شناسایی ۹۵٫۷۵ بود که از محاسبه ضرایب MFCC از ۴/۱ بردار ضرایب DCT بعد از اسکن زیگزاگ ماتریس ضرایب کسینوسی به دست آمد.
کلمات کلیدی:
لب خوانی، شناسایی مصوت، ویژگی های زمانی- فرکانسی، کاهش ابعاد ویژگی، شبکه های عصبی
فهرست مطالب
فصل اول : مقدمه ………………………………………………………………………………………………………………۱
۱-۱ مقدمه ……………………………………………………………………………………………………………………….۲
۱-۲ ساختار پایان نامه ………………………………………………………………………………………………………۴
فصل دوم : مروری بر تحقیقات انجام شده ……………………………………………………………………….۵
۲-۱ مقدمه ………………………………………………………………………………………………………………………۶
۲-۲ مدلهای مرز فعال …………………………………………………………………………………………………….۶
۲-۲-۱ تابع انرژی ………………………………………………………………………………………………………….۷
۲-۲-۲ حداقل سازی انرژی ……………………………………………………………………………………………..۹
۲-۳ مدلهای شکل فعال ………………………………………………………………………………………………..۱۲
۲-۴ مدلهای انعطافپذیر ………………………………………………………………………………………………۱۶
۲-۴-۱ مدل لب ………………………………………………………………………………………………………….۱۶
۲-۴-۲ فرمولبندی تابع هزینه ………………………………………………………………………………………۱۷
۲-۴-۳ بهینه سازی پارامترهای مدل ……………………………………………………………………………….۱۸
۲-۵ الگوهای انعطافپذیر ……………………………………………………………………………………………….۱۹
۲-۶ موجک هار ……………………………………………………………………………………………………………..۲۱
۲-۶-۱ پیش پردازش …………………………………………………………………………………………………..۲۱
۲-۶-۲ تبدیل رنگی ……………………………………………………………………………………………………..۲۲
۲-۶-۳ قطعهبندی ……………………………………………………………………………………………………….۲۲
۲-۷ آنالیز مؤلفه های خاص ……………………………………………………………………………………………..۲۳
۲-۷-۱ زمینه ریاضی EM-PCA ………………………………………………………………………………….24
۲-۷-۲ تولید منیفولد از تصویر ورودی………………………………………………………………………………۲۴
۲-۸ تبدیل کسینوسی گسسته ………………………………………………………………………………………..۲۶
۲-۸-۱ مدلسازی بر اساس ۳-D DCT…………………………………………………………………………..26
۲-۸-۱-۱ استخراج ویژگی حرکتی لب ……………………………………………………………………….۲۷
۲-۸-۱-۲ استخراج ویژگی حرکت مبتنی بر شبکه …………………………………………………………۲۷
۲-۸-۱-۳ استخراج ویژگی حرکت مبتنی بر کانتور ………………………………………………………..۲۸
۲-۸-۲ استخراج ویژگی از ناحیه مورد نظر……………………………………………………………………….۲۹
۲-۸-۲-۱ استخراج ویژگیهای دیداری………………………………………………………………………..۳۰
۲-۸-۳ تبدیل کسینوسی و LSDA………………………………………………………………………………31
۲-۸-۳-۱ پیش پردازش ………………………………………………………………………………………….۳۱
۲-۸-۳-۲ روش DCT……………………………………………………………………………………………31
۲-۸-۳-۳ DCT + PCA ……………………………………………………………………………………..31
۲-۸-۳-۴ DCT +LDA ………………………………………………………………………………………32
۲-۸-۳-۵ DCT +LSDA……………………………………………………………………………………32
۲-۸-۳-۶ ماتریس انتقال ویژگی…………………………………………………………………………………۳۵
۲-۹ مدل لب با منحنی بیزیر ………………………………………………………………………………………….۳۵
۲-۱۰ جداسازی ناحیه لب با کا- منیز ………………………………………………………………………………۳۷
فصل سوم : روشهای استخراج ناحیه دهان و سیستمهای تشخیص …………………………..۳۹
۳-۱ مقدمه ……………………………………………………………………………………………………………………۴۰
۳-۲ آشکارسازی ناحیه لب ……………………………………………………………………………………………..۴۱
۳-۲-۱ آنالیز ترکیب رنگ لب و پوست ……………………………………………………………………………۴۱
راهنمای نگارش مقاله در مورد استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی