پردازش تصاویر (به انگلیسی: Image processing) امروزه بیشتر به موضوع پردازش تصویر دیجیتال گفته می‌شود که شاخه‌ای از دانش رایانه است که با پردازش سیگنال دیجیتال که نماینده تصاویر برداشته شده با دوربین دیجیتال یا پویش شده توسط پویشگر هستند سر و کار دارد.

پردازش تصاویر دارای دو شاخه عمدهٔ بهبود تصاویر و بینایی ماشین است. بهبود تصاویر دربرگیرندهٔ روشهایی چون استفاده از فیلتر محوکننده و افزایش تضاد برای بهتر کردن کیفیت دیداری تصاویر و اطمینان از نمایش درست آنها در محیط مقصد(مانند چاپگر یا نمایشگر رایانه)است، در حالی که بینایی ماشین به روشهایی می‌پردازد که به کمک آنها می‌توان معنی و محتوای تصاویر را درک کرد تا از آنها در کارهایی چون رباتیک و محور تصاویر استفاده شود.

در معنای خاص آن پردازش تصویر عبارتست از هر نوع پردازش سیگنال که ورودی یک تصویر است مثل عکس یا صحنه‌ای از یک فیلم.خروجی پردازشگر تصویر میتواند یک تصویر یا یک مجموعه از نشانهای ویژه یا متغیرهای مربوط به تصویر باشد.اغلب تکنیک‌های پردازش تصویر شامل برخورد با تصویر به عنوان یک سیگنال دو بعدی و بکاربستن تکنیک‌های استاندارد پردازش سیگنال روی آنها میشود. پردازش تصویر اغلب به پردازش دیجیتالی تصویر اشاره میکند ولی پردازش نوری و آنالوگ تصویر هم وجود دارند.این مقاله در مورد تکنیک‌های کلی است که برای همه آنها به کار میرود.

عملیات اصلی در پردازش تصویر
1. تبدیلات هندسی: همانند تغییر اندازه، چرخش و…
2. رنگ: همانند تغییر روشنایی، وضوح و یا تغییر فضای رنگ
3. ترکیب تصاویر : ترکیب دو و یا چند تصویر
4. فشرده سازی تصویر : کاهش حجم تصویر
5. قطعه بندی تصویر : تجزیهٔ تصویر به قطعات با معنی
6. تفاوت تصاویر : به دست آوردن تفاوت‌های تصویر
7. میانگین گیری : به دست آوردن تصویر میانگین از دو تصویر

فشرده‌سازی تصاویر :
برای ذخیره‌سازی تصاویر باید حجم اطلاعات را تا جایی که ممکن است کاهش داد و اساس تمام روش‌های فشرده‌سازی کنار گذاردن بخش‌هایی از اطلاعات و داده‌ها است.

ضریب یا نسبت فشرده‌سازی است که میزان و در صد کنار گذاشتن اطلاعات را مشخص میکند. این روش ذخیره‌سازی و انتقال اطلاعات را آسان‌تر می‌کند و پهنای‌باند و فرکانس مورد نیاز کاهش می‌یابد.

امروزه روش‌هایی متعدد و پیشرفته برای فشرده‌سازی وجود دارد. فشرده‌سازی تصویر از این اصل مهم تبعیت می‌کند که چشم انسان حد فاصل دو عنصر تصویری نزدیک به هم را یکسان دیده و تمایز آنها را نمی‌تواند تشخیص دهد. همچنین اثر نور و تصویر برای مدت زمان معینی در چشم باقی مانده و از بین نمی‌رود که این ویژگی در ساخت تصاویر متحرک مورد توجه بوده‌است.

* روش JPEG
نام این فرمت در واقع مخفف کلمات JOINT PHOTOGRAPHIC EXPERT GROUP است. از این روش در فشرده‌سازی عکس و تصاویر گرافیکی ساکن استفاده میشود JPEG اولین و ساده‌ترین روش در فشرده‌سازی تصویر است به همین دلیل در ابتدا سعی شد برای فشرده‌سازی تصاویر متحرک مورد استفاده قرار گیرد. برای این منظور تصاویر به صورت فریم به فریم مانند عکس فشرده می‌شدند وبا ابداع روش MOTION JPEG برای ارتباط دادن این عکس‌ها به هم تلاش شد که با مشکلاتی همراه بود.

* روش MPEG
نام این فرمت مخفف عبارت MOVING PICTURE EXOERT GROUP است. این روش در ابتدای سال ۹۰ ابداع شد و در آن اطلاعات تصویر با سرعت حدود ۵/۱ مگابیت بر ثانیه انتقال پیدا میکرد که در تهیه تصاویر ویدئویی استفاده می‌شد. با این روش امکان ذخیره حدود ۶۵۰ مگابایت اطلاعات معادل حدود ۷۰ دقیقه تصویر متحرک در یک دیسک به وجود آمد. در MPEG بیت‌های اطلاعات به صورت سریال ارسال می‌شوند و به همراه آنها بیت‌های کنترل و هماهنگ‌کننده نیز ارسال میشوند که موقعیت و نحوه قرارگیری بیت‌های اطلاعاتی را برای انتقال و ثبت اطلاعات صدا و تصویر تعیین میکند.

* روش MP۳
MP۳ نیز روشی برای فشرده سازی اطلاعات صوتی به ویژه موسیقی است که از طریق آن حجم زیادی از اطلاعات صوتی در فضای نسبتاً کوچکی ذخیره میشود.

* روش MPEG۲
در روش MPEG۲ از ضریب فشرده‌سازی بالاتری استفاده میشود و امکان دسترسی به اطلاعات ۳ تا ۱۵ مگابیت بر ثانیه‌است از این روش در دی‌وی‌دی‌های امروزی استفاده می‌شود در اینجا نیز هر فریم تصویری شامل چندین سطر از اطلاعات دیجیتالی است.

* روش MPEG ۴
از این روش برای تجهیزاتی که با انتقال سریع یا کند اطلاعات سرو کار دارند استفاده میشود. این روش توانایی جبران خطا و ارائه تصویر با کیفیت بالا را دارد. مسئله خطا و جبران آن در مورد تلفن‌های همراه و کامپیوترهای خانگی و لپ‌تاپ‌ها و شبکه‌ها از اهمیت زیادی برخوردار است. در شبکه‌های کامپیوتری باید تصویر برای کاربرانی که از مودم‌های سریع یا کند استفاده می‌کنند به خوبی نمایش داده شود، در چنین حالتی روش MPEG ۴ مناسب است. از این روش در دوربین‌های تلویزیونی نیز استفاده میشود. ایده اصلی این روش تقسیم یک فریم ویدئویی به یک یا چند موضوع است که مطابق قاعده خاصی کنار هم قرار میگیرند مانند درختی که از روی برگ‌های آن بتوان به شاخه تنه یا ریشه آن دست یافت. هر برگ میتواند شامل یک موضوع صوتی یا تصویری باشد. هر کدام از این اجزا به صورت مجزا و جداگانه قابل کپی و یا انتقال هستند. این تکنیک را با آموزش زبان می‌توان مقایسه کرد.

همان‌طوری‌که در آموزش زبان کلمات به صورت مجزا و جداگانه قرار داده میشوند و ما با مرتب کردن آن جملات خاصی می‌سازیم و می‌توانیم در چند جمله، کلمات مشترک را فقط یک‌بار بنویسیم و هنگام مرتب کردن آن‌ها به کلمات مشترک رجوع کنیم، در اینجا هم هر یک از این اجزا یک موضوع خاص را مشخص می‌کند و ما می‌توانیم اجزا مشترک را فقط یک‌بار به کار ببریم و هنگام ساختن موضوع به آنها رجوع کنیم. هر یک از موضوعات هم می‌توانند با موضوعات دیگر ترکیب و مجموعه جدیدی را بوجود آورند. این مسئله باعث انعطاف‌پذیری و کاربرد فراوان روش MPEG۴ می‌شود. برای مثال به صحنه بازی تنیس توجه کنید. در یک بازی تنیس میتوان صحنه را به دو موضوع بازیکن و زمین بازی تقسیم کرد زمین بازی همواره ثابت است بنا بر این بعنوان یک موضوع ثابت همواره تکرار می‌شود ولی بازیکن همواره در حال حرکت است و چندین موضوع مختلف خواهد بود. این مسئله سبب کاهش پهنای باند اشغالی توسط تصاویر دیجیتالی میشود. توجه داشته باشید که علاوه بر سیگنال‌های مربوط به این موضوعات سیگنال‌های هماهنگ کننده‌ای هم وجود دارند که نحوه ترکیب و قرارگیری صحیح موضوعات را مشخص می‌کند.

تصاویر رقومی(دیجیتالی):
تصاویر سنجش شده که از تعداد زیادی مربعات کوچک(پیکسل) تشکیل شده‌اند. هر پیکسل دارای یک شماره رقمی(Digital Number) میباشد که بیانگر مقدار روشنایی آن پیکسل است. به این نوع تصاویر، تصاویر رستری هم میگویند.تصاویر رستری دارای سطر و ستون میاشند.

مقادیر پیکسلها:
مقدار انرژی مغناطیسی که یک تصویر رقومی به هنگام تصویر برداری کسب میکند، رقم‌های دوتایی(Digit binary) یا بیت ها(Bits) را تشکیل میدهند که از قوه صفر تا ۲ ارزش گذاری شده‌است.هر بیت، توان یک به قوه ۲ (۱بیت=۲۱)میباشد. حداکثر تعداد روشنایی بستگی به تعداد بیت‌ها دارد. بنابراین ۸ بیت یعنی ۲۵۶ شماره رقومی که دامنه‌ای از ۰ تا ۲۵۵ دارد.به همین دلیل است که وقتی شما تصویر رستری از گیرنده خاصی مانند TM را وارد [[نرم افزار]]ی میکنید تغییرات میزان روشنایی را بین ۰ تا ۲۵۵ نشان میدهد.

دقت تصویر:
دقت تصویر بستگی به شماره پیکسل‌ها دارد.با یک تصویر ۲ بیتی، حداکثر دامنه روشنایی ۲۲ یعنی ۴ میباشد که دامنه آن از ۰ تا ۳ تغییر میکند.در این حالت تصویر دقت (تفکیک پذیری لازم) را ندارد.تصویر ۸ بیتی حداکثر دامنه ۲۵۶ دارد و تغییرات آن بین ۰ تا ۲۵۵ است.که دقت بالاتری دارد

کاربرد پردازش تصویر در زمینه‌های مختلف:
امروزه با پیشرفت سیستمهای تصویر برداری و الگوریتمهای پردازش تصویر شاخه جدیدی در کنترل کیفیت و ابزار دقیق به وجود آمده‌است.و هر روز شاهد عرضه سیستمهای تصویری پیشرفته برای سنجش اندازه، کالیبراسیون، کنترل اتصالات مکانیکی، افزایش کیفیت تولیدو……..هستیم.

اتوماسیون صنعتی:
با استفاده از تکنیکهای پردازش تصویر می‌توان دگرگونی اساسی در خطوط تولید ایجاد کرد. بسیاری از پروسه‌های صنعتی که تا چند دهه پیش پیاده سازیشان دور از انتظار بود، هم اکنون با بهرگیری از پردازش هوشمند تصاویر به مرحله عمل رسیده‌اند. از جمله منافع کاربرد پردازش تصویر به شرح زیر است.

* افزایش سرعت و کیفیت تولی
* کاهش ضایعات
* اصلاح روند تولید
* گسترش کنترل کیفیت

کالیبراسیون و ابزار دقیق:
اندازه گیری دقیق و سنجش فواصل کوچک یکی از دقدقه‌های اصلی در صنایع حساس می‌باشد.دوربینهای با کیفیت امکان کالیبراسیون با دقت بسیار بالا در حد میکرون را فراهم آورده‌اند.

حمل و نقل:
* تشخیص شماره پلاک خودرو
* نرم افزار شمارش خودروهای عبوری از عرض خیابان

بی شک یکی از مؤثر ترین مولفه‌ها در مدیریت و برنامه ریزی دسترسی به آمار دقیق می‌باشد. درصورت وجود آمار دقیق و سریع می‌توان از روشهای کنترل بهینه استفاده کرد و بهره وری را افزایش داد. به عنوان مثال اگر آمار دقیقی از میزان مصرف یک محصول غذایی وجود داشته باشد با برنامه ریزی مناسب می‌توان زمینه تولید و عرضه اصولی آن را فراهم کرد. لذا احتمال نابسامانی در بازار و متضرر شدن کشاورز و مصرف کننده کاهش می‌یابد. چنان که بیان شد مهمترین فاکتور در برنامه ریزی دسترسی به آمار مناسب است اما تهیه آمار فرایند پیچیده و وقت گیر است و معمولا هزینه زیادی را در بر دارد. به عنوان مثال به دلایلی از جمله کنترل ترافیک یا کنترل میزان روشنایی خیابان باید خودروهای عبوری از خیابان شمارش شوند. این کار اگر به صورت دستی یا انسانی انجام شود، هزینه زیادی نیاز دارد، امکان سهل انگاری انسانی نیز وجود دارد پس استفاده از یک دستگاه مناسب که توانایی شمارش خودروهای عبوری را داشته باشد تنها گزینه ممکن است. با توجه به نیاز فوق نرم افزاری تهیه شده‌است که با استفاده از تصاویر گرفته شده از عرض خیابان خودروهای عبوری را تشخیص میدهد و تعداد آنها را شمارش می‌کند. این نرم افزار امکان استفاده در روز یا شب را دارا می‌باشد.

منبع


هنگامی که داده های سنجش از دور به فرمت رقومی(Digital) باشند،میتوان با استفاده از کامپیوتر ،پردازش و تجزیه و تحلیل های رقومیانجام داد.این پردازش برای افزایش کیفیت داده ها و تفسیر های چشمی انجام میگیرد.همچنین میتوان موضوع یا اطلاعات به خصوصی را از تصویر به دست آورد که همگی به صورت خودکار توسط کامپیوتر انجام میگیرد.

تصاویر آنالوگ:
تصاویری مانند عکس های هوایی که توسط سیستم هایعکس برداری (دوربین) به دست میآیند.از آنجایی که در این عکس ها از فیلم عکاسیاستفاده شده است،پس هیچ پردازشی نیاز ندارد.

 

تصویر آنالوگ (عکس هوایی که نیاز به اصلاح و پردازش ندارد)

تصاویر رقومی(دیجیتالی):
تصاویر سنجش شده که از تعداد زیادی مربعات کوچک(پیکسل) تشکیل شده اند.هر پیکسل دارای یک شماره رقمی(Digital Number) میباشد که بیانگر میزان روشنایی آن پیکسل است. به این نوع تصاویر ، تصاویر رستری هم میگویند.تصاویر رستری دارای سطر وستون میاشند.

تصویر بالا(رقومی) .پایین و سمت چپ(پیکسلها).سمت راست و پایین(شماره های هر پیکسلDNِ)

مقادیر پیکسلها:
مقدار انرژی مغناطیسی که یک تصویر رقومی به هنگام تصویر برداری کسب میکند،رقم های دوتایی(Digit binary) یا بیت ها(Bits) را تشکیل میدهند که از قوه صفر تا 2 ارزش گذاری شده است.هر بیت ، توان یک به قوه 2 (1بیت=21)میباشد. حداکثر تعداد روشنایی بستگی به تعداد بیت ها دارد. بنابراین 8 بیت یعنی 256 شماره رقومی که دامنه ای از 0 تا 255 دارد.به همین دلیل است که وقتی شما تصویر رستری از سنجنده خاصی مانند TM را وارد نرمافزاری میکنید تغییرات میزان روشنایی را بین 0 تا 255 نشان میدهد.

دقت تصویر:
دقت تصویر بستگی به عدد پیکسل ها دارد.با یک تصویر ۲ بیتی ، حداکثر دامنه روشنایی ۲۲ یعنی ۴ میباشد که دامنه آن از ۰ تا ۳ تغییر میکند.در این حالت تصویر دقت (تفکیک پذیری لازم) را ندارد.تصویر ۸ بیتی حداکثر دامنه ۲۵۶ دارد و تغییرات آن بین ۰ تا ۲۵۵ است .که دقت بالاتری دارد.

      دقت تصویر 3 بیتی        دقت تصویر 8 بیتی

 
 
ترمیم تصویر(Image restoration):
در بیشتر تصاویری که توسط ماهواره ها یا رادار ها ثبت میگردند ، اختلالاتی در تصویر به وجود میاید که به دلیل خش میباشد.دو اختلال مهم در تصاویر چند باندی ، نواری شدن (Banding) و خطوط از جاافتاده میباشد.نواری شدن(باندی شدن):
اشتباهی که توسط سنجنده ، در ثبت و انتقال داده ها روی میدهد.و یا تغییر پیکسل در بین ردیف ها میتواند باعث ایجاد چنین اشتباهی گردد.خطوط از جا افتاده ( خطا در تصویر) :
اشتباهی که در ثبت و انتقال داده ها روی میدهد و در نتیجه، یک ردیف پیکسل در عکساز بین میرود.باندی شدننبود یک ردیف پیکسل در تصویر

 
 
بالا بردن دقت عکس:
یکی از کار های مهمی که در پردازش تصویر انجام میگردد، بالا بردن دقت عکس به منظور دید و تفسیر چشمی دقیق تر میباشد.روش های بسیاری برای نیل به این هدف وجود دارد ولی مهمترین آنها ، افزایش تباین(Contrast) تصویر و عملیات فیلتر کردن میباشد.هیستوگرام تصویر:
در هر تصویر رقومی ، مقادیر پیکسل ها بیانگر خصوصیات آن تصویر(مانند میزان روشنایی تصویر و وضوح آن) میباشد.هیستوگرام تصویر در حقیقت بیان گرافیکی میزان روشنایی تصویر میباشد. مقادیر روشنایی( برای مثال 0-255) در طول محور X بیان شده و میزان فراوانی هر مقدار در محور Y بیان میگردد.
تصویر 8 بیتی(0-255) در بالا و هیستوگرام مقادیر پیکسل تصویر در پایین .
محور افقی بین 0-255 و محور قائم ، تعداد پیکسل ها میباشد.افزایش تباین از طریق امتداد اعداد ( DN) پیکسلها :
معمولا دامنه مقادیر پیکسل های تصاویر با هر بیتی ( در اینجا مثلا 8 بیت)، بین 0-255 نمیباشد .و مثلا بین 48 تا 153 میباشد . برای افزایش تباین ، مقادیر پیکسل ها را آنقدر امتداد میدهیم تا 48 به جای 0 و 153 به جای 256 قرار گیرد . در نتیجه تباین وهمچنین کیفیت عکس بالا میرود. به این عمل کشش خطی گویند.

پردازش تصویر چیست؟ قسمت 1
پردازش تصویر چیست؟ قسمت 2

ﺑﺎﺯﻧﻤﺎیی و ﺍﺳﺘﺨﺮﺍﺝ ﻭﻳﮋﮔﻴﻬﺎ-سومین و آخرین بخش OCR

باﺯﻧﻤﺎیی و ﺍﺳﺘﺨﺮﺍﺝ ﻭﻳﮋﮔﻴﻬﺎ :

ﺑﺎﺯﻧﻤﺎیی ﺗﺼﺎﻭﻳﺮ ﻣﻬﻤﺘﺮﻳﻦ ﻧﻘﺶ ﺭﺍ ﺩﺭ ﺳﻴﺴﺘﻤﻬﺎﻱ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﺍﻳﻔﺎ ﻣﻲكند. در ﺳﺎﺩﻩﺗﺮﻳﻦ ﺣﺎﻟﺖ، ﺗﺼﺎﻭﻳﺮ ﺳﻄﺢ ﺧﺎﻛﺴﺘﺮﻱ ﻳﺎ ﺑﺎﻳﻨﺮﻱ ﺑﻪ ﻳﻚ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻛﻨﻨﺪﻩ ﺩﺍﺩﻩ ﻣﻲ ﺷﻮﻧﺪ. ﻟﻴﻜﻦ ﺩﺭ ﺑﻴﺸﺘﺮ ﺳﻴﺴﺘﻤﻬﺎﻱ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺑﻤﻨﻈﻮﺭ ﺍﺟﺘﻨﺎﺏ ﺍﺯ ﭘﻴﭽﻴﺪﮔﻲ ﺍﺿﺎﻓﻲ ﻭ ﺍﻓﺰﺍﻳﺶ ﺩﻗﺖ ﺍﻟﮕﻮﺭﻳﺘﻤﻬﺎ، ﻳﻚ ﺭﻭﺵ ﺑﺎﺯﻧﻤﺎیی ﻓﺸﺮﺩﻩ ﺗﺮ ﻭ ﺑﺎ ﻗﺪﺭﺕ ﺗﻤﺎﻳﺰ ﺑﻴﺸﺘﺮ ﻣﻮﺭﺩ ﻧﻴﺎﺯ است. ﺑﺮﺍﻱ ﺍﻳﻦ ﻣﻨﻈﻮﺭ ﻣﺠﻤﻮﻋﻪ ﺍﻱ ﺍﺯ ﻭﻳﮋﮔﻴﻬﺎ ﻫﺮ ﻛﻼﺱ ﺍﺳﺘﺨﺮﺍﺝ ﻣﻲشوند ﻛﻪ ﺑﻪ ﺗﺸﺨﻴﺺ ﺁﻥ ﺍﺯ ﺳﺎﻳﺮ ﻛﻼﺳﻬﺎ ﻛﻤﻚ ﻣﻲ گیرد. ﺩﺭ ﻋﻴﻦ ﺣﺎﻟﻲ ﻛﻪ ﻧﺴﺒﺖ ﺑﻪ ﺗﻐﻴﻴﺮﺍﺕ ﻣﺸﺨﺼﺎﺕ ﺍﻋﻀﺎﻱ ﻳﻚ ﻛﻼﺱ ﻣﺴﺘﻘﻞ ﺑﺎﻗﻲ ﻣﻲ ﻣﺎﻧﺪ. ﻭﻳﮋﮔﻴﻬﺎﻱ ﺍﻧﺘﺨﺎﺏ ﺷﺪﻩ ﺑﺎﻳﺴﺘﻲ ﻧﺴﺒﺖ ﺑﻪ ﺍﻋﻮﺟﺎﺟﻬﺎ ﻭ ﺗﻐﻴﻴﺮﺍﺕ ﺍﺣﺘﻤﺎﻟﻲ ﻛﻪ ﻛﺎﺭﺍﻛﺘﺮﻫﺎ ﺩﺭ ﻳﻚ ﻛﺎﺭﺑﺮﺩ ﺧﺎﺹ پیدا كنند، ﺗﻐﻴﻴﺮﻧﺎﭘﺬﻳﺮ ﺑﺎﺷﻨﺪ. ﻫﻤﭽﻨﻴﻦ ﭘﺪﻳﺪﻩﺍﻱ ﺗﺤﺖ ﻋﻨﻮﺍﻥ « ﻧﻔﺮﻳﻦ ابعادی » (Curse of Dimensionality) به ما ﻫﺸﺪﺍﺭ ﻣﻲ ﺩﻫﺪ ﻛﻪ ﺑﺎ ﻳﻚ ﻣﺠﻤﻮﻋﺔ ﺁﻣﻮﺯﺷﻲ ﻣﺤﺪﻭﺩ ﭼﻨﺎﻧﭽﻪ ﺑﺨﻮﺍﻫﻴﻢ ﺍﺯ ﻳﻚ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻛﻨﻨﺪﺓ ﺁﻣﺎﺭﻱ ﺍﺳﺘﻔﺎﺩﻩ ﻛﻨﻴﻢ، ﺗﻌﺪﺍﺩ ﻭﻳﮋﮔﻴﻬﺎ ﺑﻄﻮﺭ ﻣﻨﻄﻘﻲ ﺑﺎﻳﺴﺘﻲ ﻛﻮﭼﻚ ﺑﺎﺷﺪ. ﺑﺮﻃﺒﻖ ﻳﻚ ﻗﺎﻧﻮﻥ ﺗﺠﺮﺑﻲ، ﺗﻌﺪﺍﺩ ﺍﻟﮕﻮﻫﺎﻱ ﺁﻣﻮﺯﺷﻲ ﻫﺮ ﻛﻼﺱ ﺑﺎﻳﺴﺘﻲ 5 تا 10 برابر ابعاد بردار ویژگی انتخابی باشد. در عمل مقتضیات ﺭﻭﺷﻬﺎﻱ ﺑﺎﺯﻧﻤﺎیی، ﺍﻧﺘﺨﺎﺏ ﺑﻬﺘﺮﻳﻦ ﺭﻭﺵ ﺑﺮﺍﻱ ﻳﻚ ﻛﺎﺭﺑﺮﺩ ﺧﺎﺹ ﺭﺍ ﺑﺎ ﻣﺸﻜﻞ ﻣﻮﺍﺟﻪ ﻣﻲﻛﻨﺪ. ﻫﻤﭽﻨﻴﻦ ﺍﻳﻦ ﻣﺴﺌﻠﻪ ﺭﺍ ﻧﻴﺰ ﺑﺎﻳﺪ ﻣﺪ ﻧﻈﺮ ﻗﺮﺍﺭ ﺩﺍﺩ ﻛﻪ ﺁﻳﺎ ﺣﺮﻭﻑ ﻳﺎ ﻛﻠﻤﺎﺗﻲ ﻛﻪ ﻣﻲ ﺑﺎﻳﺴﺖ ﺗﺸﺨﻴﺺ ﺩﺍﺩﻩ ﺷﻮﻧﺪ  ﺟﻬﺖ ﻭ ﺍﻧﺪﺍﺯﺓ ﻣﺸﺨﺼﻲ ﺩﺍﺭﻧﺪ ﻳﺎ ﺧﻴﺮ، ﺩﺳﺘﻨﻮﻳﺲ ﻳﺎ ﭼﺎﭘﻲ ﻫﺴﺘﻨﺪ، ﻭ ﻳﺎ ﻣﻤﻜﻦ ﺍﺳﺖ ﺗﺎ ﭼﻪ ﺣﺪ ﺑﻮﺳﻴﻠﺔ ﻧﻮﻳﺰ ﻣﻐﺸﻮﺵ ﺷﺪﻩ ﺑﺎﺷﻨﺪ. ﺍﺯ ﻃﺮﻑ ﺩﻳﮕﺮ ﺩﺭ ﻣﻮﺭﺩ ﺣﺮﻭﻓﻲ ﻛﻪ ﺑﻪ ﭼﻨﺪﻳﻦ ﺷﻜﻞ ﻧﻮﺷﺘﻪ ﻣﻲ ﺷﻮﻧﺪ. (ﻣﺎﻧﻨﺪ ’a‘ ﻭ ’A‘) ﻣﻤﻜﻦ ﺍﺳﺖ ﻻﺯﻡ ﺑﺎﺷﺪ ﻛﻪ ﺑﻴﺶ ﺍﺯ ﻳﻚ ﻛﻼﺱ ﺍﻟﮕﻮ ﺑﻪ ﻳﻚ ﻛﺎﺭﺍﻛﺘﺮ ﺧﺎﺹ ﺗﻌﻠﻖ ﻳﺎﺑﺪ.
ﻫﻤﺎﻧﻄﻮﺭ ﻛﻪ ﻋﻨﻮﺍﻥ ﺷﺪ، ﺑﺎﺯﻧﻤﺎیی ﻳﻚ ﻣﺮﺣﻠﺔ ﺑﺴﻴﺎﺭ ﻣﻬﻢ ﺩﺭ ﺣﺼﻮﻝ ﺭﺍﻧﺪﻣﺎﻥ ﻣﻨﺎﺳﺐ ﺑﺮﺍﻱ ﺳﻴﺴﺘﻤﻬﺎﻱ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﺍﺳﺖ؛ ﻟﻴﻜﻦ ﺟﻬﺖ ﺩﺳﺘﻴﺎﺑﻲ ﺑﻪ ﻋﻤﻠﻜﺮﺩ ﺑﻬﻴﻨﻪ ﻻﺯﻡ ﺍﺳﺖ ﻛﻪ ﺳﺎﻳﺮ ﻣﺮﺍﺣﻞ ﻧﻴﺰ ﺑﻬﻴﻨﻪ ﮔﺮﺩﻧﺪ ﻭ ﺑﺎﻳﺴﺘﻲ ﺗﻮﺟﻪ ﻧﻤﻮﺩ ﻛﻪ ﺍﻳﻦ ﻣﺮﺍﺣﻞ ﻣﺴﺘﻘﻞ ﻧﻤﻲ ﺑﺎﺷﻨﺪ. ﺍﺳﺘﺨﺮﺍﺝ ﻳﻚ ﺭﻭﺵ ﺧﺎﺹ ﺍﺳﺘﺨﺮﺍﺝ ﻭﻳﮋﮔﻴﻬﺎ، ﻃﺒﻴﻌﺖ ﺧﺮﻭﺟﻲ ﻣﺮﺣﻠﺔ ﭘﻴﺶ ﭘﺮﺩﺍﺯﺵ ﺭﺍ ﺑﻪ ﻣﺎ ﺩﻳﻜﺘﻪ ﻣﻲ ﻛﻨﺪ ﻭ ﻳﺎ ﺣﺪﺍﻗﻞ ﻣﺎ ﺭﺍ ﺩﺭ ﺍﻧﺘﺨﺎﺑﻤﺎﻥ ﻣﺤﺪﻭﺩ ﻣﻲ ﺳﺎﺯﺩ. ﺑﻌﻀﻲ ﺍﺯ ﺭﻭﺷﻬﺎﻱ ﺍﺳﺘﺨﺮﺍﺝ ﻭﻳﮋﮔﻴﻬﺎ ﺑﺮ ﺭﻭﻱ ﺗﺼﺎﻭﻳﺮ ﺳﻄﺢ ﺧﺎﻛﺴﺘﺮﻱ ﺣﺮﻭﻑ ﻣﻨﻔﺮﺩ ﻋﻤﻞ ﻣﻲ ﻧﻤﺎﻳﻨﺪ. ﺩﺭﺣﺎﻟﻴﻜﻪ ﺳﺎﻳﺮ ﺭﻭﺷﻬﺎ ﺑﺮ ﺭﻭﻱ ﺳﻤﺒﻠﻬﺎﻱ ﺑﺎ ﭘﻴﻮﺳﺘﮕﻲ ﻣﺮﺗﺒﺔ 4 یا 8 كه از ﺗﺼﻮﻳﺮ ﺑﺎﻳﻨﺮﻱ ﺍﺻﻠﻲ ﺟﺪﺍ ﮔﺮﺩﻳﺪﻩ ﻳﺎ ﺑﺮ ﺭﻭﻱ ﺳﻤﺒﻠﻬﺎﻱ ﻧﺎﺯﻙ ﺷﺪﻩ ﻳﺎ ﺑﺮ ﺭﻭﻱ ﻛﺎﻧﺘﻮﺭ ﺳﻤﺒﻠﻬﺎ ﺍﻋﻤﺎﻝ ﻣﻲ ﮔﺮﺩﻧﺪ.
ﻋﻼﻭﻩ ﺑﺮ ﺍﻳﻦ، ﻧﻮﻉ ﻓﺮﻣﺖ ﻭﻳﮋﮔﻴﻬﺎﻱ ﺍﺳﺘﺨﺮﺍﺝ ﺷﺪﻩ ﺑﺎﻳﺴﺘﻲ ﺑﺎ ﻧﻴﺎﺯﻣﻨﺪﻳﻬﺎﻱ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻛﻨﻨﺪﺓ ﻣﻨﺘﺨﺐ ﻣﻄﺎﺑﻘﺖ ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ. ﻭﻳﮋﮔﻴﻬﺎﻱ ﻧﻮﻉ ﮔﺮﺍﻓﻲ ﻳﺎ ﮔﺮﺍﻣﺮﻱ ﺑﺮﺍﻱ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻛﻨﻨﺪﻩ ﻫﺎﻱ ﺳﺎﺧﺘﺎﺭﻱ ﻳﺎ ﻧﺤﻮﻱ ﻣﻨﺎﺳﺐ ﻣﻲ ﺑﺎﺷﻨﺪ.
ﻭﻳﮋﮔﻴﻬﺎﻱ ﮔﺴﺴﺘﻪ ﻛﻪ ﻓﺮﺿﺎﹰ ﺗﻨﻬﺎ ﺩﻭ ﻳﺎ ﺳﻪ ﻣﻘﺪﺍﺭ ﻣﺠﺰﺍ ﺩﺍﺭﻧﺪ، ﺑﺮﺍﻱ ﺩﺭﺧﺘﻬﺎﻱ ﺗﺼﻤﻴﻢ ﮔﻴﺮﻱ ﺍﻳﺪﻩ ﺁﻝ ﻣﻲ ﺑﺎﺷﻨﺪ. ﺑﺮﺩﺍﺭﻫﺎﻱ ﻭﻳﮋﮔﻲ ﺑﺎ ﻣﻘﺎﺩﻳﺮ ﺣﻘﻴﻘﻲ، ﻣﻨﺎﺳﺐ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻛﻨﻨﺪﻩ ﻫﺎﻱ ﺁﻣﺎﺭﻱ ﻫﺴﺘﻨﺪ.
ﻫﻤﭽﻨﻴﻦ ﭼﻨﺪﻳﻦ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻛﻨﻨﺪﻩ ﻧﻴﺰ ﻣﻤﻜﻦ ﺍﺳﺖ ﺑﻪ ﻋﻨﻮﺍﻥ ﻳﻚ ﺭﻭﺵ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﭼﻨﺪ ﻃﺒﻘﻪ ﻳﺎ ﺑﻪ ﻋﻨﻮﺍﻥ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻛﻨﻨﺪﻩ ﻫﺎﻱ ﻣﻮﺍﺯﻱ (ﻛﻪ ﺩﺭ ﺁﻥ ﺗﺮﻛﻴﺒﻲ ﺍﺯ ﻧﺘﺎﻳﺞ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻛﻨﻨﺪﻩ های ﻣﺠﺰﺍ ﺩﺭ ﺣﺼﻮﻝ ﻧﺘﻴﺠﺔ ﻧﻬﺎﻳﻲ ﺩﺧﺎﻟﺖ ﺩﺍﺭﻧﺪ) ﻣﻮﺭﺩ ﺍﺳﺘﻔﺎﺩﻩ ﻗﺮﺍﺭ ﮔﻴﺮﻧﺪ. ﺩﺭ ﺍﻳﻦ ﺣﺎﻟﺖ ﻣﻤﻜﻦ ﺍﺳﺖ ﻭﻳﮋﮔﻴﻬﺎﻱ ﺩﺍﺭﺍﻱ ﭼﻨﺪ ﻓﺮﻣﺖ ﻣﺨﺘﻠﻒ ﺍﺯ ﺣﺮﻭﻑ ﻭﺭﻭﺩﻱ ﺍﺳﺘﺨﺮﺍﺝ ﮔﺮﺩﻧﺪ.

قطعه بندی قسمت دوم OCR

 ﻗﻄﻌﻪ ﺑﻨﺪی :

ﻣﺮﺣﻠﺔ ﭘﻴﺶ ﭘﺮﺩﺍﺯﺵ ﻳﻚ ﺗﺼﻮﻳﺮ ﺍﺻﻼﺡ ﺷﺪﻩ ﺍﺯ ﺳﻨﺪ ﺭﺍ ﻧﺘﻴﺠﻪ ﻣﻲ ﺩﻫﺪ ﺑﮕﻮﻧﻪ ﺍﻱ ﻛﻪ ﻣﻘﺪﺍﺭ ﻛﺎﻓﻲ ﺍﺯ اطلاعات ﺷﻜﻠﻲ، ﻓﺸﺮﺩﻩ ﺳﺎﺯﻱ ﺑﺎﻻ ﻭ ﻧﻮﻳﺰ ﭘﺎﻳﻴﻦ، ﺍﺯ ﺗﺼﻮﻳﺮ ﻧﺮﻣﺎﻟﻴﺰﻩ ﺷﺪﺓ ﺳﻨﺪ ﻗﺎﺑﻞ ﺣﺼﻮﻝ است. ﻗﻄﻌﻪ ﺑﻨﺪی ﻳﻚ ﻣﺮﺣﻠﺔ ﺑﺴﻴﺎﺭ ﺑﺎ ﺍﻫﻤﻴﺖ ﺩﺭ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﻣﺨﺼﻮﺻﺎﹰ ﺣﺮﻭﻑ ﻓﺎﺭﺳﻲ ﻭ ﻋﺮﺑﻲ ﻛﻪ ﺑﺼﻮﺭﺕ ﭘﻴﻮﺳﺘﻪ ﻧﻮﺷﺘﻪ ﻣﻲ ﺑﺎﺷﺪ؛ ﭼﺮﺍ ﻛﻪ ﻧﺘﻴﺠﺔ ﺑﺪﺳﺖ ﺁﻣﺪﻩ ﺍﺯ ﺟﺪﺍﺳﺎﺯﻱ ﻛﻠﻤﺎﺕ، ﺧﻄﻮﻁ ﻳﺎ ﻛﺎﺭﺍﻛﺘﺮﻫﺎ ﻣﺴﺘﻘﻴﻤﺎً ﺑﺮ ﺭﻭﻱ ﻧﺮﺥ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺳﻴﺴﺘﻢ ﺗﺄﺛﻴﺮ ﻣﻲ ﮔﺬﺍﺭﺩ. ﻗﻄﻌﻪ ﺑﻨﺪی ﻏﻠﻂ ﻛﺎﺭﺍﻛﺘﺮﻫﺎ، ﻋﺎﻣﻞ ﺑﺴﻴﺎﺭﻱ ﺍﺯ ﺧﻄﺎﻫﺎﻱ OCR است.
مانند : nr →  mیا m →  nr
ﻣﻴﺰﺍﻥ ﺩﻗﺖ ﻳﻚ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻗﻄﻌﻪ ﺑﻨﺪی ﺑﻪ ﺳﺒﻚ ﻧﮕﺎﺭﺵ ﺣﺮﻭﻑ، ﻛﻴﻔﻴﺖ ﺩﺳﺘﮕﺎﻩ ﭘﺮﻳﻨﺖ، ﻛﺎﺭﺍﻛﺘﺮﻫﺎﻱ ﺍﻳﺘﺎﻟﻴﻚ ﻟﻜﻪ ﺷﺪﻩ و ﻧﻴﺰ ﻧﺴﺒﺖ ﺍﻧﺪﺍﺯﺓ ﻓﻮﻧﺖ ﺑﻪ ﺭﺯﻭﻟﻮﺷﻦ ﺩﺳﺘﮕﺎﻩ ﺍﺳﻜﻨﺮ ﺑﺴﺘﮕﻲ ﺩﺍﺭﺩ.


ﺩﻭ ﻧﻮﻉ ﻗﻄﻌﻪ ﺑﻨﺪی ﻭﺟﻮﺩ ﺩﺍﺭﺩ :

الف ) ﻗﻄﻌﻪ ﺑﻨﺪی ﺑﻴﺮﻭﻧﻲ، ﻛﻪ ﻋﺒﺎﺭﺕ ﺍﺳﺖ ﺍﺯ ﺟﺪﺍﺳﺎﺯﻱ ﺑﺨﺸﻬﺎﻱ ﻣﺨﺘﻠﻒ ﻧﮕﺎﺭﺵ ﻣﺎﻧﻨﺪ ﭘﺎﺭﺍﮔﺮﺍﻓﻬﺎ، ﺟﻤﻼﺕ ﻳﺎ ﻛﻠﻤﺎﺕ
ب ) ﻗﻄﻌﻪ ﺑﻨﺪی درونی، ﻛﻪ ﻣﻨﻈﻮﺭ ﺍﺯ ﺁﻥ، ﺟﺪﺍﺳﺎﺯﻱ ﺣﺮﻭﻑ ﻛﻠﻤﺎﺕ ﻣﺨﺼﻮﺻﺎً ﺩﺭ ﻣﻮﺭﺩ ﻛﻠﻤﺎﺕ ﺳﺮ ﻫﻢ ﻧﻮﺷﺘﻪ ﺷﺪﻩ ﺩﺭ ﻣﺘﻮﻥ لاتین ﻭ ﻳﺎ ﺭﺳﻢﺍﻟﺨﻄﻬﺎﻱ ﭘﻴﻮﺳﺘﻪ ﻧﻈﻴﺮ ﻓﺎﺭﺳﻲ ﻭ ﻋﺮﺑﻲ می باشد.

ﻗﻄﻌﻪ ﺑﻨﺪی ﺑﻴﺮﻭﻧﻲ :

ﺩﺭ ﻣﻮﺍﺭﺩﻱ ﻫﻤﭽﻮﻥ ﻣﺘﻮﻥ ﻓﺎﺭﺳﻲ ﻛﻪ ﺣﺮﻭﻑ ﺑﺼﻮﺭﺕ ﺳﺮﻫﻢ ﻧﻮﺷﺘﻪ ﻣﻲ ﺷﻮﻧﺪ، ﺳﻪ ﺭﻭﻳﻜﺮﺩ ﻣﺨﺘﻠﻒ ﺩﺭ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺑﺮﻭﻥ ﺧﻂ ﻣﺘﻮﻥ ﻛﻠﻤﺎﺕ ﻳﺎ ﺯﻳﺮكلمات ﻭﺟﻮﺩ ﺩﺍﺭﺩ.
الف ) ﺭﻭﻳﻜﺮﺩ ﻣﺒﺘﻨﻲ ﺑﺮ ﻗﻄﻌﻪ ﺑﻨﺪی ﻛﻠﻤﺎﺕ
ب ) ﺭﻭﻳﻜﺮﺩ ﻣﺒﺘﻨﻲ ﺑﺮ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻛﻠﻤﻪ ﺑﻪ ﻋﻨﻮﺍﻥ ﻳﻚ ﺍﻟﮕﻮﻱ ﻭﺍحد
ج ) ﺭﻭﻳﻜﺮﺩ ﺗﺮﻛﻴﺒﻲ

ﻗﻄﻌﻪ ﺑﻨﺪی درﻭﻧﻲ :

ﺩﺭ ﺭﻭﻳﻜﺮﺩ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻣﺒﺘﻨﻲ ﺑﺮ ﺟﺪﺍﺳﺎﺯﻱ، ﺍﺑﺘﺪﺍ ﻛﻠﻤﻪ ﺩﺭ ﻣﺮﺣﻠﺔ ﺟﺪﺍﺳﺎﺯﻱ ﺑﻪ ﺣﺮﻭﻑ ﻳﺎ ﺯﻳﺮ ﺣﺮﻭﻑ ﺷﻜﺴﺘﻪ ﻣﻲ ﺷﻮﻧﺪ.
ﺁﻧﮕﺎﻩ ﻗﻄﻌﺎﺕ ﺟﺪﺍ ﺷﺪﻩ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻣﻲ شوند و ﺍﺯ ﻛﻨﺎﺭ ﻫﻢ ﻗﺮﺍﺭ ﮔﺮﻓﺘﻦ ﺁﻧﻬﺎ ﻛﻠﻤﻪ خواهد ﺷﺩ؛ ﺭﻭﺷﻬﺎﻱ ﺑﻜﺎﺭﮔﺮﻓﺘﻪ ﺷﺪﻩ ﺩﺭ ﺍﻳﻦ ﺭﻭﻳﻜﺮﺩ ﺑﻪ ﺩﻭ ﮔﺮﻭﻩ ﻣﺨﺘﻠﻒ ﺗﻘﺴﻴﻢ ﻣﻲ ﺷﻮﻧﺪ :
–    ﺗﻘﻄﻴﻊ ﻛﻠﻤﻪ ﺑﻪ ﺣﺮﻭﻑ
–    ﺗﻘﻄﻴﻊ ﻛﻠﻤﻪ ﺑﻪ ﺯﻳﺮﺣﺮﻭﻑ
ﺩﺭ ﮔﺮﻭﻩ ﺍﻭﻝ ﻛﻠﻤﻪ ﺑﻪ ﺣﺮﻭﻑ ﺟﺪﺍﺳﺎﺯﻱ می ﺷﻮﺩ ﻭ ﺑﺎ ﺷﻨﺎﺳﺎﻳﻲ ﺣﺮﻭﻑ ﺟﺪﺍ ﺷﺪﻩ، ﻛﻠﻤﻪ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻣﻲ ﮔﺮﺩﺩ. ﺭﻭﻳﻜﺮﺩ ﺑﻜﺎﺭ ﮔﺮﻓﺘﻪ ﺷﺪﻩ ﺩﺭ ﺍﻳﻦ ﮔﺮﻭﻩ ﺭﺍ ﺭﻭﻳﻜﺮﺩ ﻣﺒﺘﻨﻲ ﺑﺮ ﺟﺪﺍﺳﺎﺯﻱ ﻭ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﻣﻲ ﻧﺎﻣﻨﺪ.
ﺩﺭ ﮔﺮﻭﻩ ﺩﻭ، ﻛﻠﻤﻪ ﺑﻪ ﺯﻳﺮﺣﺮﻭﻑ ﻣﺜﻞ ﭘﺎﺭﻩ ﻣﻨﺤﻨﻲ ﻫﺎ ﻭ ﺳﺎﺧﺘﺎﺭﻫﺎﻱ ﭘﺎﻳﺔ ﺩﻳﮕﺮ ﺟﺪﺍﺳﺎﺯﻱ ﻣﻲ شود و ﺑﺎ ﺷﻨﺎﺳﺎﻳﻲ ﺯﻳﺮﺣﺮﻭﻑ ﻭ ﺗﺮﻛﻴﺐ ﺁﻧﻬﺎ ﻛﻠﻤﻪ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻣﻲ ﮔﺮﺩﺩ. ﺩﺭ ﺭﻭﻳﻜﺮﺩ ﺑﻜﺎﺭ گرفته شده در ﮔﺮﻭﻩ ﺩﻭﻡ ﻛﻪ ﺍﺻﻄﻼﺣﺎﹲ ﺟﺪﺍﺳﺎﺯﻱ ﻭ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺗﻮﺃﻡ ﻧﺎﻣﻴﺪﻩ ﻣﻲ شود. نمیﺗﻮﺍﻥ ﺩﺭ ﺍﺑﺘﺪﺍ ﻣﺮﺯ ﺣﺮﻭﻑ ﺭﺍ ﺑﻄﻮﺭ ﻛﺎﻣﻞ ﻣﺸﺨﺺ ﻛﺮﺩ. ﺑﻠﻜﻪ ﺣﺮﻭﻑ ﺍﺯ ﺍﺑﺘﺪﺍ ﺑﻪ ﺍﻧﺘﻬﺎﻱ ﻛﻠﻤﻪ ﺑﻪ ﺗﺮﺗﻴﺐ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻭ  ﺟﺪﺍﺳﺎﺯﻱ ﻣﻲ ﺷﻮﻧﺪ. ﺩﺭ ﻫﻴﭽﻜﺪﺍﻡ ﺍﺯ ﺩﻭ ﺷﻜﻞ ﺭﻭﻳﻜﺮﺩ ﻣﺒﺘﻨﻲ ﺑﺮ ﺟﺪﺍﺳﺎﺯﻱ، ﺑﻪ ﺷﻜﻞ ﻛﻠﻲ ﻛﻠﻤﻪ ﺗﻮﺟﻬﻲ نمی ﺷﻮﺩ ﻭ ﺳﻌﻲ ﺑﺮ ﺁﻥ ﺍﺳﺖ ﻛﻪ ﺑﺎ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﻳﻚ ﻛﻠﻤﻪ، ﺁﻥ ﻛﻠﻤﻪ ﺷﻨﺎﺧﺘﻪ ﺷﻮﺩ.
ﺩﺭ ﺭﻭﻳﻜﺮﺩ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻛﻠﻤﻪ ﺑﻪ ﻋﻨﻮﺍﻥ ﻳﻚ ﺍﻟﮕﻮﻱ ﻭﺍﺣﺪ، ﺗﻼﺷﻲ ﺑﺮﺍﻱ ﺗﻘﻄﻴﻊ ﻛﻠﻤﻪ ﺑﻪ ﺣﺮﻭﻑ ﻭ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﻣﻮﺟﻮﺩ ﺩﺭ ﻛﻠﻤﻪ ﺻﻮﺭﺕ ﻧﻤﻲ ﮔﻴﺮﺩ ﻭ ﻛﻠﻤﻪ ﺩﺭ ﻗﺎﻟﺐ ﻳﻚ ﺍﻟﮕﻮ ﺑﺮﺭﺳﻲ ﻣﻲ گردد.
ﺭﻭﺷﻬﺎﻱ ﺑﻜﺎﺭ ﮔﺮﻓﺘﻪ ﺷﺪﻩ ﺩﺭ ﺍﻳﻦ ﺭﻭﻳﻜﺮﺩ ﺭﺍ ﻣﻲ ﺗﻮﺍﻥ ﺑﻪ ﺩﻭ ﮔﺮﻭﻩ ﺗﻘﺴﻴﻢ ﻛﺮﺩ :
ﮔﺮﻭﻩ ﺍﻭﻝ ﺭﻭﺷﻬﺎﻳﻲ ﻫﺴﺘﻨﺪ ﻛﻪ ﺗﺼﻮﻳﺮ ﻛﻠﻤﻪ ﺭﺍ ﺑﺼﻮﺭﺕ ﻳﻚ ﺍﻟﮕﻮﻱ ﺩﻭ ﺳﻄﺤﻲ ( ﺑﺎﻳﻨﺮﻱ ) ﻳﺎ ﺑﺎ ﺳﻄﻮﺡ ﺧﺎﻛﺴﺘﺮﻱ ﺩﺭ    ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻭ ﺍﺯ ﺭﻭﺷﻬﺎﻱ ﻣﻌﻤﻮﻝ ﺩﺭ ﺷﻨﺎﺳﺎﻳﻲ ﺗﺼﺎﻭﻳﺮ ﻛﻪ ﻣﻌﻤﻮﻻً ﻣﺒﺘﻨﻲ ﺑﺮ ﺗﻮﺍﺑﻊ ﻓﺎﺻﻠﻪ ﻣﻲ ﺑﺎﺷﻨﺪ ﻭ ﻳﺎ ﺭﻭﺷﻬﺎﻳﻲ ﻫﻤﭽﻮﻥ ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﻭ ﻏﻴﺮﻩ ﺍﺳﺘﻔﺎﺩﻩ ﻣﻲ ﻧﻤﺎﻳﻨﺪ.
ﮔﺮﻭﻩ ﺩﻭﻡ ﺭﻭﺷﻬﺎﻱ ﻣﺒﺘﻨﻲ ﺑﺮ ﭘﺮﺩﺍﺯﺵ ﺳﻴﮕﻨﺎﻟﻬﺎﻱ ﺗﺼﺎﺩﻓﻲ ﻫﺴﺘﻨﺪ. ﺍﻳﻦ ﺭﻭﺷﻬﺎ ﺍﺑﺘﺪﺍ ﺩﺭ ﺑﺎﺯﺷﻨﺎﺳﻲ ﮔﻔﺘﺎﺭ ﺑﻜﺎﺭ ﮔﺮﻓﺘﻪ ﺷﺪﻩ ﻭ ﺳﭙﺲ ﺩﺭ ﺯﻣﻴﻨﺔ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻛﻠﻤﺎﺕ ﻣﺨﺼﻮﺻﺎً ﻛﻠﻤﺎﺕ ﺩﺳﺘﻨﻮﻳﺲ لاتین ﻣﻮﺭﺩ ﺍﺳﺘﻔﺎﺩﻩ ﻗﺮﺍﺭ ﮔﺮﻓﺘﻪ اند.

ﭘﻴﺶ ﭘﺮﺩﺍﺯﺵ-اولین بخش از کار OCR

پیش پردازش در تشخص نوری کاراکترها

ﺍﻳﻦ ﻣﺮﺣﻠﻪ ﺷﺎﻣﻞ ﻛﻠﻴﺔ ﭘﺮﺩﺍﺯﺷﻬﺎﻳﻲ ﺍﺳﺖ ﻛﻪ ﺑﺮ ﺭﻭﻱ ﺳﻴﮕﻨﺎﻟﻬﺎﻱ ﺗﺼﻮﻳﺮﻱ ﺧﺎﻡ ﺍﻧﺠﺎﻡ ﻣﻲ ﺷﻮﻧﺪ. ﺗﺎ ﻣﻮﺟﺐ ﺗﺴﻬﻴﻞ ﻳﺎ ﺍﻓﺰﺍﻳﺶ ﺩﻗﺖ ﺭﻭﻧﺪ ﺍﺟﺮﺍﻱ ﻓﺎﺯﻫﺎﻱ ﺑﻌﺪﻱ ﮔﺮﺩﻧﺪ. ﺍﺯ ﻣﺠﻤﻮﻋﺔ ﺍﻳﻦ ﭘﺮﺩﺍﺯﺷﻬﺎ، ﻫﺪﻓﻬﺎﻱ ﺯﻳﺮ ﺩﻧﺒﺎﻝ ﻣﻲ ﺷﻮﺩ :
1-    ﻛﺎﻫﺶ ﻧﻮﻳﺰ
2-    ﻧﺮﻣﺎﻟﻴﺰﻩ ﻧﻤﻮﺩﻥ ﺩﺍﺩهﻫﺎ
3-    ﻓﺸﺮﺩﻩ ﺳﺎﺯﻱ ﻣﻴﺰﺍﻥ ﺍﻃﻼﻋﺎﺗﻲ ﻛﻪ ﻣﻲ ﺑﺎﻳﺴﺖ ﻣﺤﻔﻮﻅ ﺑﻤﺎﻧﺪ.
4-    ﺑﺎﺯﺷﻨﺎﺳﻲ ﺧﻂ ، ﺯﺑﺎﻥ ﻭ ﻓﻮﻧﺖ

1-كاهش نویز

ﻧﻮﻳﺰ ﺍﻳﺠﺎﺩ ﺷﺪﻩ ﺑﻮﺍﺳﻄﺔ ﺩﺳﺘﮕﺎﻫﻬﺎﻱ ﺍﺳﻜﻨﺮ ﻧﻮﺭﻱ ﻳﺎ ﺍﺑﺰﺍﺭﻫﺎﻱ ﻧﮕﺎﺭﺷﻲ ﻣﻨﺠﺮ ﺑﻪ ﺍﻳﺠﺎﺩ ﻗﻄﻌﻪ ﺧﻄﻬﺎﻱ ﮔﺴﺴﺘﻪ ، ﺍﺗﺼﺎﻝ ﺑﻴﻦ ﺧﻄﻮﻁ، ﻓﻀﺎﻫﺎﻱ ﺧﺎﻟﻲ ﺩﺭ ﺧﻄﻮﻁ ﻣﺘﻦ، ﭘﺮ ﺷﺪﻥ ﺣﻔﺮه‌های ﻣﻮﺟﻮﺩ ﺩﺭ ﺗﺼﻮﻳﺮ ﺑﺮﺧﻲ ﺣﺮﻭﻑ ﻭ ﻏﻴﺮﻩ ﻣﻲ ﮔﺮﺩﺩ. ﻫﻤﭽﻨﻴﻦ ﺍﻋﻮﺟﺎﺟﻬﺎﻱ ﻣﺨﺘﻠﻒ ﺷﺎﻣﻞ ﺗﻐﻴﻴﺮﺍﺕ ﻣﺤﻠﻲ، ﻣﻨﺤﻨﻲ ﺷﺪﻥ ﮔﻮﺷﻪ ﺣﺮﻭﻑ، ﺗﻐﻴﻴﺮ ﺷﻜﻞ ﻭ ﻳﺎ ﺧﻮﺭﺩﮔﻲ ﺣﺮﻭﻑ ﺭﺍ ﻧﻴﺰ ﺑﺎﻳﺴﺘﻲ ﻣﺪ ﻧﻈﺮ ﻗﺮﺍﺭ ﺩﺍﺩ. ﻗﺒﻞ ﺍﺯ. ﻣﺮﺣﻠﺔ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﻻﺯﻡ ﺍﺳﺖ ﻛﻪ ﺍﻳﻦ ﻧﻘﺎﻳﺺ ﺑﺮﻃﺮﻑ ﺷﻮﻧﺪ. یكی از ﺗﻜﻨﻴﻜﻬﺎﻱ ﻣﺨﺘﻠﻒ ﻛﺎﻫﺶ ﻧﻮﻳﺰ فیلتر كردن می‌باشد :

1-1-فیلتر كردن

ﺍﻳﻦ ﺭﻭﺵ ﺑﻪ ﺣﺬﻑ ﻧﻮﻳﺰ ﻛﻤﻚ ﻣﻲ ﻛﻨﺪ ﻭ ﻧﺎﺻﺎﻓﻴﻬﺎﻱ ﺑﺪﻧﺔ ﺣﺮﻭﻑ ﺭﺍ ﻛﻪ ﻣﻌﻤﻮﻻً ﺑﻮﺳﻴﻠﺔ ﺳﻄﻮﺡ ﻧﮕﺎﺭﺵ ﻧﺎﻫﻤﻮﺍﺭ ( ﺩﺭ ﻣﻮﺭﺩ ﻣﺘﻮﻥ ﺩﺳﺘﻨﻮﻳﺲ ) ﻭ ﻳﺎ ﻧﺮﺥ ﻧﻤﻮﻧﻪ ﺑﺮﺩﺍﺭﻱ ﺿﻌﻴﻒ ﺩﺳﺘﮕﺎﻫﻬﺎﻱ ﺍﺧﺬ ﺩﺍﺩﻩ ﺍﻳﺠﺎﺩ می‌شوند،  در مرحله پیش پردازش كاهش می‌دهد. ﻓﻴﻠﺘﺮﻫﺎﻱ ﺣﻮﺯﺓ ﻣﻜﺎﻧﻲ ﻳﺎ ﻓﺮﻛﺎﻧﺴﻲ ﻣﺘﻌﺪﺩﻱ ﺭﺍ ﻣﻲ ﺗﻮﺍﻥ ﺑﺮﺍﻱ ﺍﻳﻦ ﻣﻨﻈﻮﺭ ﻃﺮﺍﺣﻲ ﻛﺮﺩ. ﺍﻳﺪﺓ ﺍﺻﻠﻲ ﺩﺭ ﺍﻳﻦ ﺭﻭﺵ، ﻛﺎﻧﻮﻭﻟﻮ ﻛﺮﺩﻥ (Convolute) (به معنی پیچاپیچ كردن) یك ماسك از پیش تعریف شده با تصویر ﺟﻬﺖ ﺗﺨﺼﻴﺺ ﻳﻚ ﻣﻘﺪﺍﺭ ﺟﺪﻳﺪ ﺑﻪ ﭘﻴﻜﺴﻞ ﺑﺮﺣﺴﺐ ﺗﺎﺑﻌﻲ ﺍﺯ ﻣﻘﺎﺩﻳﺮ ﭘﻴﻜﺴﻠﻬﺎﻱ مجاور است. فیلترها ﺭﺍ ﻣﻲ ﺗﻮﺍﻥ ﺑﺮﺍﻱ ﻣﻘﺎﺻﺪ ﻣﺨﺘﻠﻔﻲ ﭼﻮﻥ ﻫﻤﻮﺍﺭﺳﺎﺯﻱ، ﺷﺎﺭﭖ ﻛﺮﺩﻥ ، ﺍﻋﻤﺎﻝ ﺳﻄﻮﺡ ﺁﺳﺘﺎﻧﻪ، ﺣﺬﻑ ﭘﺲ ﺯﻣﻴﻨﺔ ﺑﺎﻓﺖ ﮔﻮﻧﻪ ﻳﺎ ﺭﻧﮕﻲ ﺧﻔﻴﻒ ﻭ ﺗﻨﻈﻴﻢ ﻛﻨﺘﺮﺍﺳﺖ (ﭘﺎﺩﻧﻤﺎﻳﻲ) طراحی کرد.

2-ﻧﺮﻣﺎﻟﻴﺰﻩ ﻧﻤﻮﺩﻥ ﺩﺍﺩهﻫﺎ

ﺭﻭﺷﻬﺎﻱ ﻧﺮﻣﺎﻟﻴﺰﻩ ﻛﺮﺩﻥ ﺩﺍﺩﻩ ﻫﺎ در پیش پردازش ﺑﻪ ﺣﺬﻑ ﺗﻐﻴﻴﺮﺍﺕ ﻧﮕﺎﺭﺷﻲ ﻛﻤﻚ ﻧﻤﻮﺩﻩ و ﺩﺍﺩﻩهای ﺍﺳﺘﺎﻧﺪﺍﺭﺩ ﺷﺪﻩﺍﻱ ﺭﺍ ﻧﺘﻴﺠﻪ ﻣﻲﺩﻫﺪ.
ﺭﻭﺷﻬﺎﻱ ﭘﺎﻳﺔ ﻧﺮﻣﺎﻟﻴﺰﻩ ﻛﺮﺩﻥ ﻋﺒﺎﺭﺗﻨﺪ ﺍﺯ :

2-1-ﻧﺮﻣﺎﻟﻴﺰﻩ ﻛﺮﺩﻥ ﻛﺠﻲ ﻣﺘﻦ ﻭ ﺍﺳﺘﺨﺮﺍﺝ ﺧﻄﻮﻁ ﺯﻣﻴﻨﻪ

ﺑﺪﻳﻞ ﻋﺪﻡ ﺩﻗﺖ ﺩﺭ ﻣﺮﺣﻠﺔ ﺍﺳﻜﻦ ﻭ ﻳﺎ ﺑﻲ ﺩﻗﺘﻲ ﻧﻮﻳﺴﻨﺪﻩ ﺩﺭ ﻫﻨﮕﺎﻡ ﻧﮕﺎﺭﺵ ﻣﺘﻦ ﺩﺳﺘﻨﻮﻳﺲ، ﻣﻤﻜﻦ است ﺧﻄﻮﻁ ﻣﺘﻦ ﻧﺴﺒﺖ ﺑﻪ ﺗﺼﻮﻳﺮ ﺍﻧﺪﻛﻲ ﺍﻧﺤﺮﺍﻑ ﻳﺎ ﭼﺮﺧﺶ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ، ﺍﻳﻦ ﻣﺴﺌﻠﻪ ﻣﻲ ﺗﻮﺍﻧﺪ ﻛﺎﺭﺍﻳﻲ ﺍﻟﮕﻮﺭﻳﺘﻤﻬﺎﻱ ﺑﻜﺎﺭ ﺭﻓﺘﻪ ﺩﺭ ﻃﺒﻘﺎﺕ ﺑﻌﺪﻱ ﺳﻴﺴﺘﻢ OCR ﺭﺍ ﺗﺄﺛﻴﺮ ﻗﺮﺍﺭ ﺩﻫﺪ؛ ﭼﺮﺍ ﻛﻪ ﻳﻜﻲ ﺍﺯ ﻣﻔﺮﻭﺿﺎﺕ ﺑﻴﺸﺘﺮ ﺭﻭﺷﻬﺎﻱ ﻗﻄﻌﻪ ﺑﻨﺪﻱ، ﻋﺪﻡ ﻛﺞ ﺑﻮﺩﻥ ﺗﺼﻮﻳﺮ ﻣﺘﻦ ﻭﺭﻭﺩﻱ ﺍﺳﺖ ﻭ ﺩﺭ ﻧﺘﻴﺠﻪ ﻻﺯﻡ ﺍﺳﺖ ﻛﻪ ﺍﻳﻦ ﻧﻘﻴﺼﻪ ﺁﺷﻜﺎﺭ ﻭ ﺗﺼﺤﻴﺢ ﮔﺮﺩﺩ. ﺁﺷﻜﺎﺭﺳﺎﺯﻱ ﺧﻂ ﺯﻣﻴﻨﻪ ﺩﺭ ﺑﺴﻴﺎﺭﻱ ﺍﺯ ﺗﻜﻨﻴﻜﻬﺎﻱ ﻗﻄﻌﻪ ﺑﻨﺪﻱ ﻭ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻣﺘﻮﻥ ﻓﺎﺭﺳﻲ، ﻋﺮﺑﻲ ﻭ لاتین ﻧﻘﺶ ﺍﺳﺎﺳﻲ ﺩﺍﺭﺩ. ﻋﻼﻭﻩ ﺑﺮ ﺍﻳﻦ، ﺑﺮﺧﻲ ﺍﺯ ﻛﺎﺭﺍﻛﺘﺮﻫﺎ ﻣﺎﻧﻨﺪ « g » ﻭ « 9 » ﺭﺍ ﻣﻲ ﺗﻮﺍﻥ ﺑﻮﺍﺳﻄﺔ ﻣﻮﻗﻌﻴﺖ ﻧﺴﺒﻲ ﺷﺎﻥ ﻧﺴﺒﺖ ﺑﻪ ﺧﻂ ﺯﻣﻴﻨﻪ ﺁﺷﻜﺎﺭ ﺳﺎﺧﺖ

2-2-ﻧﺮﻣﺎﻟﻴﺰﻩ ﻛﺮﺩﻥ ﺍﺭﻳﺐ ﺷﺪﮔﻲ

ﺩﺭ ﻣﺘﻮﻥ ﭼﺎﭘﻲ فارسی ﻭ ﻻﺗﻴﻦ، ﻛﺎﺭﺍﻛﺘﺮﻫﺎﻱ ﺩﺍﺭﺍﻱ ﻓﺮﻣﺖ ﺍﻳﺘﺎﻟﻴﻚ ﺍﺯ ﺭﺍﺳﺘﺎﻱ ﻋﻤﻮﺩ ﺍﻧﺤﺮﺍﻑ دارند. ﻫﻤﭽﻨﻴﻦ ﺩﺭ ﻣﺘﻮﻥ ﺩﺳﺘﻨﻮﻳﺲ ﺑﺮﺧﻲ ﺍﺯ ﻧﻮﻳﺴﻨﺪﻩ ها ﺍﻳﻦ ﭘﺪﻳﺪﻩ ﺗﺤﺖ ﻋﻨﻮﺍﻥ « ﺷﺪﮔﻲ ﺍﺭﻳﺐ » ﺷﻨﺎﺧﺘﻪ ﻣﻲشود و می‌تواند ﺩﻗﺖ ﺑﺮﺧﻲ ﺍﺯ ﺍﻟﮕﻮﺭﻳﺘﻤﻬﺎﻱ ﻗﻄﻌﻪ بندی ﻳﺎ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺭﺍ ﺗﺤﺖ ﺗﺄﺛﻴﺮ ﻗﺮﺍﺭ ﺩﻫﺪ ﻭ ﻟﺬﺍ ﺩﺭ ﺍﻳﻦ ﺳﻴﺴﺘﻤﻬﺎ ﻻﺯﻡ ﺍﺳﺖ ﻛﻪ ﺩﺭ ﻣﺮﺣﻠﺔ پیش پردازش ﻣﻴﺰﺍﻥ ﺍﺭﻳﺐ ﺑﻮﺩﻥ ﻛﺎﺭﺍﻛﺘﺮﻫﺎ ﺷﻨﺎﺳﺎﻳﻲ ﻭ ﺗﺼﺤﻴﺢ ﮔﺮﺩﺩ. اریب ﺷﺪﮔﻲ ﺑﺼﻮﺭﺕ ﺯﺍﻭﻳﺔ ﺷﻴﺐ ﺑﻴﻦ ﻃﻮﻳﻠﺘﺮﻳﻦ ﺯﻳﺮﺣﺮﻑ ﺩﺭ ﻳﻚ ﻛﻠﻤﻪ ﻭ ﺟﻬﺖ ﻋﻤﻮﺩﻱ ﺗﻌﺮﻳﻒ ﻣﻲ ﺷﻮﺩ. ﻧﺮﻣﺎﻟﻴﺰﻩ ﻛﺮﺩﻥ ﺍﺭﻳﺐ، ﺑﻨﻈﻮﺭ ﻧﺮﻣﺎﻟﻴﺰﻩ ﻧﻤﻮﺩﻥ ﻛﻠﻴﺔ ﻛﺎﺭﺍﻛﺘﺮﻫﺎ ﺑﻪ ﻳﻚ ﻓﺮﻡ ﺍﺳﺘﺎﻧﺪﺍﺭﺩ ﺑﻜﺎﺭ می‌رود. ﻣﻌﻤﻮﻟﺘﺮﻳﻦ ﺭﻭﺵ ﺩﺭ ﺗﺨﻤﻴﻦ ﻣﻴﺰﺍﻥ ﺍﺭﻳﺐ ﺷﺪﮔﻲ، ﻣﺤﺎﺳﺒﺔ ﺯﺍﻭﻳﺔ ﻣﺘﻮﺳﻂ ﺍﺟﺰﺍﺀ ﻧﺰﺩﻳﻚ ﺑﻪ ﺧﻂ ﻋﻤﻮﺩ ﺍﺳﺖ. در ﺍﺳﺘﺨﺮﺍﺝ ﺧﻄﻮﻁ ﻋﻤﻮﺩﻱ ﺍﺯ ﻛﺎﺭﺍﻛﺘﺮﻫﺎ ﺑﻮﺳﻴﻠﺔ ﺩﻧﺒﺎﻝ ﻛﺮﺩﻥ ﻣﺆﻟﻔﻪ های ﻛﺪ ﺯﻧﺠﻴﺮﻩای ﺗﻮﺳﻂ ﻳﻚ ﺟﻔﺖ ﻓﻴﻠﺘﺮ ﻳﻚ ﺑﻌﺪﻱ ﺍﻧﺠﺎﻡ ﻣﻲﭘﺬﻳﺮﺩ. ﻣﺨﺘﺼﺎﺕ ﺷﺮﻭﻉ ﻭ ﭘﺎﻳﺎﻥ ﻫﺮ ﺧﻂ، ﺯﺍﻭﻳﺔ ﺍﺭﻳﺐ ﺭﺍ ﺑﺪﺳﺖ ﻣﻲ دهد.

2-3-ﻧﺮﻣﺎﻟﻴﺰﻩ ﻛﺮﺩﻥ ﺍﻧﺪﺍﺯﻩ (ﺗﻐﻴﻴﺮ ﻣﻘﻴﺎﺱ ﺩﺍﺩﻥ)

ﺩﺭ ﺳﻴﺴﺘﻤﻬﺎﻱ OCR ﺍﻏﻠﺐ ﺗﺼﺎﻭﻳﺮ ﻛﻠﻤﺎﺕ ﺧﻴﻠﻲ ﻛﻮﭼﻚ ﻳﺎ ﺧﻴﻠﻲ ﺑﺰﺭﮒ ، ﺑﻪ ﻳﻚ ﺍﻧﺪﺍﺯﺓ ﺍﺳﺘﺎﻧﺪﺍﺭﺩ ﻧﺮﻣﺎﻟﻴﺰﻩ ﻣﻲﺷﻮﻧﺪ. ﺍﻳﻦ ﻋﻤﻞ ﻣﻌﻤﻮﻻﹰ ﺑﺎ ﻧﻤﻮﻧﻪ ﺑﺮﺩﺍﺭﻱ ﻣﺠﺪﺩ ﺗﺼﻮﻳﺮ ﺍﻧﺠﺎﻡ ﻣﻲ ﮔﻴﺮﺩ.
روشهای بازشناسی حروف ممكن است نرمالیزه كردن اندازه را در هر دو جهت افقی و عمودی انجام دهند. هر كاراكتر به تعدادی ناحیه تقسیم می‌شود و هر یك از این نواحی بصورت جداگانه تغییر مقیاس داده می‌شوند.

3-ﻓﺸﺮﺩﻩ ﺳﺎﺯﻱ ﻣﻴﺰﺍﻥ ﺍﻃﻼﻋﺎﺗﻲ ﻛﻪ ﻣﻲ ﺑﺎﻳﺴﺖ ﻣﺤﻔﻮﻅ ﺑﻤﺎﻧﺪ

ﺍﻳﻦ ﻣﺴﺌﻠﻪ ﭘﺬﻳﺮﻓﺘﻪ ﺷﺪﻩ ﺍﺳﺖ ﻛﻪ ﺗﻜﻨﻴﻜﻬﺎﻱ ﻛﻼﺳﻴﻚ ﻓﺸﺮﺩﻩ ﺳﺎﺯﻱ ﺗﺼﺎﻭﻳﺮ ﻛﻪ ﺗﺼﻮﻳﺮ ﺭﺍ ﺍﺯ ﺣﻮﺯﺓ ﻣﻜﺎﻧﻲ ﺑﻪ ﺣﻮﺯﻩ ﺩﻳﮕﺮ ﻣﻨﺘﻘﻞ ﻣﻲ ﻛﻨﻨﺪ، ﺑﺮﺍﻱ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﻣﻨﺎﺳﺐ ﻧﻤﻲ ﺑﺎﺷﻨﺪ. در ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ در پیش پردازش، ﻋﻤﻞ ﻓﺸﺮﺩﻩ سازی ﻧﻴﺎﺯﻣﻨﺪ ﺁﻥ ﺩﺳﺘﻪ ﺍﺯ ﺗﻜﻨﻴﻜﻬﺎﻱ ﺣﻮﺯﺓ ﻣﻜﺎﻧﻲ ﺍﺳﺖ ﻛﻪ اطلاعات ﺷﻜﻠﻲ ﺭﺍ ﺣﻔﻆ ﻣﻲ ﻧﻤﺎﻳﻨﺪ.
ﺩﻭ ﺗﻜﻨﻴﻚ ﻣﺘﻌﺎﺭﻑ ﻓﺸﺮﺩﻩ ﺳﺎﺯﻱ، ﻳﻜﻲ ﺗﻜﻨﻴﻚ ﺍﻋﻤﺎﻝ ﺳﻄﺢ ﺁﺳﺘﺎﻧﻪ (ﺑﻤﻨﻈﻮﺭ ﺑﺎﻳﻨﺮﻱ ﻛﺮﺩﻥ ﺗﺼﺎﻭﻳﺮ ﺳﻄﺢ ﺧﺎﻛﺴﺘﺮﻱ ﻣﺘﻮﻥ) و دیگری ﺩﻳﮕﺮﻱ ﻧﺎﺯﻙ سازی می‌باشد.

3-1-ﺑﺎﻳﻨﺮﻱ ( ﺩﻭﺳﻄﺤﻲ ) ﻛﺮﺩﻥ ﺗﺼﻮﻳﺮ ﻣﺘﻦ

ﺑﻤﻨﻈﻮﺭ ﻛﺎﻫﺶ ﺣﺠﻢ ﺫﺧﻴﺮﻩ ﺳﺎﺯﻱ ﻣﻮﺭﺩ ﻧﻴﺎﺯ ﻭ ﺍﻓﺰﺍﻳﺶ ﺳﺮﻋﺖ ﭘﺮﺩﺍﺯﺵ، ﺍﻏﻠﺐ ﻣﻄﻠﻮﺏ ﺍﺳﺖ ﻛﻪ ﺑﺎ ﺍﻧﺘﺨﺎﺏ ﻳﻚ ﺳﻄﺢ ﺁﺳﺘﺎﻧﻪ، ﺗﺼﺎﻭﻳﺮ ﺳﻄﺢ ﺧﺎﻛﺴﺘﺮﻱ ﻳﺎ ﺭﻧﮕﻲ ﺭﺍ ﺑﻪ ﺗﺼﺎﻭﻳﺮ ﺑﺎﻳﻨﺮﻱ ﺗﺒﺪﻳﻞ ﻧﻤﻮﺩ. دو ﺭﻭﺵ ﺍﻋﻤﺎﻝ ﺳﻄﺢ ﺁﺳﺘﺎﻧﻪ ﻋﺒﺎﺭﺗﻨﺪ ﺍﺯ سراسری (Global) و محلی (Local). ﺩﺭ ﺭﻭﺵ ﺍﻋﻤﺎﻝ ﺳﻄﺢ ﺁﺳﺘﺎﻧﺔ ﺳﺮﺍﺳﺮﻱ، ﻣﻘﺪﺍﺭ ﺳﻄﺢ ﺁﺳﺘﺎﻧﻪ ﺑﺮﺍﻱ ﻛﻞ ﺗﺼﻮﻳﺮ ﺳﻨﺪ ﺍﻧﺘﺨﺎﺏ ﻣﻲ شود. ﺍﻳﻦ ﻣﻘﺪﺍﺭ ﺍﻏﻠﺐ ﺑﺮ ﻣﺒﻨﺎﻱ ﺗﺨﻤﻴﻨﻲ ﺍﺯ سطح ﭘﺲ ﺯﻣﻴﻨﻪ ﻛﻪ ﺍﺯ ﻫﻴﺴﺘﻮﮔﺮﺍﻡ ﺳﻄﺢ ﺭﻭﺷﻨﺎﻳﻲ ﺗﺼﻮﻳﺮ ﻣﺤﺎﺳﺒﻪ ﻣﻲگردد، ﺳﻨﺠﻴﺪﻩ ﻣﻲ ﺷﻮﺩ. روش اعمال ﺳﻄﺢ ﺁﺳﺘﺎﻧﺔ ﻣﺤﻠﻲ ( ﺗﻄﺒﻴﻘﻲ ) ﺑﺮﺍﺳﺎﺱ اطلاعات ﻧﻮﺍﺣﻲ ﻣﺤﻠﻲ، ﺍﺯ ﻣﻘﺎﺩﻳﺮ ﻣﺘﻔﺎﻭﺗﻲ ﺑﺮﺍﻱ ﻫﺮ ﭘﻴﻜﺴﻞ ﺍﺳﺘﻔﺎﺩﻩ ﻣﻲ ﻛﻨﺪ. ﻣﻘﺎﻳﺴﻪ ﺍﻱ ﺑﻴﻦ ﺗﻜﻨﻴﻜﻬﺎﻱ ﻣﻌﻤﻮﻝ ﺍﻋﻤﺎﻝ ﺳﻄﺢ ﺁﺳﺘﺎﻧﻪ ﺑﺼﻮﺭﺕ ﺳﺮﺍﺳﺮﻱ ﻭ ﻣﺤﻠﻲ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻳﻚ ﻣﻌﻴﺎﺭ ﺍﺭﺯﻳﺎﺑﻲ ﺍﻧﺠﺎﻡ ﭘﺬﻳﺮﻓﺘﻪ ﺍﺳﺖ. ﺍﻳﻦ ﻣﻌﻴﺎﺭ ﺍﺭﺯﻳﺎﺑﻲ ﻋﺒﺎﺭﺕ ﺍﺳﺖ ﺍﺯ ﻣﻘﺎﻳﺴﺔ ﺩﻗﺖ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺻﺤﻴﺢ ﻳﻚ ﺳﻴﺴﺘﻢ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﺑﺎ ﺍﻋﻤﺎﻝ ﺗﻜﻨﻴﻜﻬﺎﻱ ﻣﺨﺘﻠﻒ ﺳﻄﺢ ﺁﺳﺘﺎﻧﻪ ﮔﺬﺍﺭﻱ.

3-2-ﻧﺎﺯﻙ ﺳﺎﺯﻱ

ﺍﻳﻦ ﻋﻤﻞ ﺩﺭﺣﺎﻟﻴﻜﻪ ﻛﺎﻫﺶ ﻗﺎﺑﻞ ﻣﻼﺣﻈﻪای ﺩﺭ ﺣﺠﻢ ﺩﺍﺩﻩ ایجاد میﻛﻨﺪ، اطلاعات ﺷﻜﻠﻲ ﻛﺎﺭﺍﻛﺘﺮ ﺭﺍ ﻧﻴﺰ ﺍﺳﺘﺨﺮﺍﺝ می ﻧﻤﺎﻳﺪ. ﺩﻭ ﺭﻭﺵ ﭘﺎﻳﻪ ﺑﺮﺍﻱ ﻧﺎﺯﻙ ﺳﺎﺯﻱ ﻋﺒﺎﺭﺗﻨﺪ ﺍﺯ :
–    ﻧﺎﺯﻙ ﺳﺎﺯﻱ ﺍﺯ ﻃﺮﻳﻖ ﭘﻴﻜﺴﻞ
–    ﻧﺎﺯﻙ ﺳﺎﺯﻱ ﻏﻴﺮ ﺍﺯ ﻃﺮﻳﻖ ﭘﻴﻜﺴﻞ
ﻧﺎﺯﻙ ﺳﺎﺯﻱ ﺍﺯ ﻃﺮﻳﻖ ﭘﻴﻜﺴﻞ ﺑﺼﻮﺭﺕ ﻣﺤﻠﻲ ﻭ ﺗﻜﺮﺍﺭﻱ ﺗﺼﻮﻳﺮ ﺭﺍ ﻣﻮﺭﺩ ﭘﺮﺩﺍﺯﺵ ﻗﺮﺍﺭ ﻣﻲ ﺩﻫﺪ ﺗﺎ ﻭﻗﺘﻲ ﻛﻪ ﺍﺯ ﺗﺼﻮﻳﺮ ﻛﺎﺭﺍﻛﺘﺮ ﺗﻨﻬﺎ ﺍﺳﻜﻠﺖ ﺁﻥ ﺑﻪ ﻋﺮﺽ ﻳﻚ ﭘﻴﻜﺴﻞ ﺑﺎﻗﻲ ﺑﻤﺎﻧﺪ. ﺍﻳﻦ ﺭﻭﺵ ﻧﺴﺒﺖ ﺑﻪ ﻧﻮﻳﺰ ﺑﺴﻴﺎﺭ ﺣﺴﺎﺱ ﺑﻮﺩﻩ، ﻣﻤﻜﻦ ﺍﺳﺖ ﺗﺼﻮﻳﺮ ﻛﺎﺭﺍﻛﺘﺮ ﺭﺍ ﻣﺨﺪﻭﺵ ﺳﺎﺯﺩ. ﺍﺯ ﺳﻮﻱ ﺩﻳﮕﺮ، ﺭﻭﺷﻬﺎﻱ ﻧﺎﺯﻙ ﺳﺎﺯﻱ ﻏﻴﺮ ﺍﺯ ﻃﺮﻳﻖ ﭘﻴﻜﺴﻞ، ﻃﻲ ﻓﺮﺍﻳﻨﺪ ﻧﺎﺯﻙ سازی ﻣﻘﺪﺍﺭﻱ ﺍﺯ اطلاعات ﺳﺮﺍﺳﺮﻱ ﺩﺭﺑﺎﺭﺓ ﻛﺎﺭﺍﻛﺘﺮ ﺭﺍ ﻣﻮﺭﺩ ﺍﺳﺘﻔﺎﺩﻩ ﻗﺮﺍﺭ ﻣﻲ ﺩﻫﻨﺪ. ﺍﻳﻦ ﺭﻭﺷﻬﺎ ﻳﻚ ﺧﻂ ﻣﺮﻛﺰﻱ ﻳﺎ ﻣﻴﺎﻧﺔ ﺑﺨﺼﻮﺹ ﺍﺯ ﺗﺼﻮﻳﺮ ﭘرتر ﺭﺍ ﺑﺪﻭﻥ ﺁﺯﻣﺎﻳﺶ ﻫﻤﺔ ﭘﻴﻜﺴﻠﻬﺎ ﺗﻮﻟﻴﺪ ﻣﻲ نمایند.

4-ﺑﺎﺯﺷﻨﺎﺳﻲ ﺧﻂ ، ﺯﺑﺎﻥ ﻭ ﻓﻮﻧﺖ 

ﺑﺎﺯﺷﻨﺎﺳﻲ ﺧﻂ، ﺗﻌﺪﺍﺩ ﻛﻼﺳﻬﺎﻱ ﻣﺨﺘﻠﻒ ﺳﻤﺒﻞ ﻛﻪ ﺑﺎﻳﺴﺘﻲ ﻣﻮﺭﺩ ملاحظه ﻗﺮﺍﺭ ﮔﻴﺮﻧﺪ ﺭﺍ ﻛﺎﻫﺶ ﻣﻲ ﺩﻫﺪ. ﺷﻨﺎﺳﺎﻳﻲ ﺯﺑﺎﻥ ﻣﺘﻦ در پیش پردازش، ﺑﻤﻨﻈﻮﺭ ﺑﻜﺎﺭﮔﻴﺮﻱ ﻣﺪﻟﻬﺎﻱ ﻣﺘﻨﻲ ﺧﺎﺹ ﺿﺮﻭﺭت دارد. ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻓﻮﻧﺘﻬﺎ، ﺗﻌﺪﺩ ﺷﻜﻠﻬﺎﻱ ﻣﺨﺘﻠﻒ ﺣﺮﻭﻑ ﺩﺭ ﻫﺮ ﻛﻼﺱ كه می‌بایست ﺩﺭ ﻓﺮﺍﻳﻨﺪ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻟﺤﺎﻅ ﮔﺮﺩﺩ ﺭﺍ ﻛﺎﻫﺶ می‌دهد و سبب می‌شود كه امر شناسایی، تنها به یك كلاس فونت محدود گردد. ﺑﺎﺯﺷﻨﺎﺳﻲ خط و ﺯﺑﺎﻥ ﻭ ﻓﻮﻧﺖ ﺩﺭ ﻛﺎﺭﺑﺮﺩﻫﺎﻳﻲ ﻣﺎﻧﻨﺪ ﻧﻤﺎﻳﻪ سازی و ﺩﺳﺘﻜﺎﺭﻱ ﺍﺳﻨﺎﺩ نیز مطلوب می باشد.

منبع