بایگانی برچسب برای: بهسان اندیش

کارکرد سیستم‌های بینایی ماشین

روال کار به این صورت است که کامپیوترها با استفاده از دوربین‌ها تصویربرداری می‌کنند، به کمک الگوریتم‌های بینایی ماشین تصاویر را پردازش و سپس تصاویر پردازش شده را تحلیل می‌کنند، در نهایت اشیای موجود در تصویر را می‌فهمند و بر اساس نوع اشیای موجود در تصویر، تصمیم گیری لازم را انجام می‌دهند. معمولا به هر سیستم بینایی ماشین یک یا چنددوربین، مبدل آنالوگ به دیجیتال و غیره متصل است و خروجی این سیستم به یک کنترلر کامپیوتر یا یک ربات می‌رود.

پردازش‌های بینایی ماشین را در سه سطح دسته بندی می‌کنند:

  • بینایی سطح پایین (Low Level Vision)

در بینایی سطح پایین، پردازش تصویر به منظور استخراج ویژگی (لبه، گوشه، یا جریان نوری) انجام می‌شود.

  • بینایی سطح میانی (Mid Level Vision)

بینایی سطح میانی با بهره گیری از ویژگی‌های استخراج شده از بینایی سطح پایین تشخیص اشیا، تحلیل حرکت و بازسازی سه بعدی صورت می‌گیرد.

  • بینایی سطح بالا (High Level Vision)

بینایی سطح بالا وظیفه تفسیر اطلاعات مهیا شده به وسیله بینایی سطح میانی را بر عهده دارد، این تفسیرها ممکن است شامل توصیف‌های مفهومی از صحنه مانند فعالیت، قصد و رفتار باشند. این سطح هم چنین مشخص می‌کند بینایی سطح پایین و میانی چه کارهایی باید انجام دهند.

 

کاربرد‌های بینایی ماشین

امروزه می‌توان ردپای بینایی ماشین را در صنعت، هواشناسی، شهرسازی، کشاورزی، نجوم و فضا نوردی، پزشکی و غیره که در ادامه درباره هرکدام مختصرا بحث شده است، مشاهده کرد.
  • صنعت (Industry)

امروزه کمتر کارخانه پیشرفته‌ای وجود دارد که بخشی از خط تولید آن توسط برنامه‌های هوشمند بینایی ماشین کنترل نشود.

خطای بسیار کم، سرعت زیاد، هزینه نگهداری بسیار پایین، عدم نیاز به حضور  ٢۴ ساعته اپراتور و خیلی مزایای دیگر باعث شده که صنایع و کارخانه‌ها به‌سرعت به سمت پردازش تصویر و بینایی ماشین روی بیاورند. برای مثال: دستگاهی ساخته‌شده که قادر است نان‌های پخته را از نان‌هایی که نیاز به پخت مجدد دارند، تشخیص دهد و آنها را به صورت اتوماتیک به بسته بندی بفرستد و نان‌هایی که نیاز به پخت دارند را دوباره برای پختن ارسال کند.

بینایی ماشین-صنعت-نان

  •  هواشناسی (Meteorology)

در علم هواشناسی تشخیص و پیش بینی آب و هوا اکثرا از طریق تصاویر هوایی و ماهواره‌ای انجام می‌گیرد. پردازش تصویر در این علم کاربرد زیادی دارد و دقت و سرعت پیش بینی آب و هوا را بسیار بالا می‌برد.

بینایی ماشین-آب و هوا

  • شهرسازی (Urbanization)

با مقایسه عکس‌های مختلف از سال‌های مختلف یک شهر می‌توان میزان گسترش و پیشرفت آن را مشاهده کرد. کاربرد دیگر پردازش تصویر می‌تواند در کنترل ترافیک باشد. با گرفتن عکس‌های هوایی از زمین ترافیک هر قسمت از شهر مشخص می‌شود.

همچنین قبل از ساختن یک شهر می‌توان آن را توسط کامپیوتر شبیه‌سازی کرد که به صورت دوبعدی از بالا و حتی به‌صورت سه‌بعدی از دیدهای مختلف، یک شهرک چطور ممکن است به نظر برسد. تصاویر ماهواره‌ای که از شهرها گرفته می‌شود، می‌تواند توسط فیلترهای مختلف پردازش تصویر فیلتر شود و اطلاعات مختلفی از آن استخراج شود. به طور مثال این که شهر در چه قسمت‌هایی دارای ساختمان‌ها، آب‌ها یا راه‌های بیشتری است و همین‌طور می‌توان جاده‌هایی که داخل یا خارج از شهر کشیده شده‌اند را تحلیل کرد.

 

بینایی ماشین-شهر سازی

  • کشاورزی (Agricultural)

این علم در بخش کشاورزی معمولا در دو حالت کاربرد دارد. یکی در پردازش تصاویر گرفته‌شده از ارتفاعات بالا مثلا از هواپیما و دیگری در پردازش تصاویر نزدیک به زمین .

در تصاویر دور به ‌عنوان ‌مثال می‌توان تقسیم‌بندی اراضی را تحلیل کرد. همچنین می‌توان با مقایسه تصاویر دریافتی در زمان‌های متفاوت میزان صدمات احتمالی وارد به محیط‌زیست را دید. به ‌عنوان مثال می‌توان برنامه‌ای نوشت که با توجه به محل رودخانه‌ها و نوع خاک مناطق مختلف، به صورت اتوماتیک بهترین نقاط برای کشت محصولات مختلف را تعیین می‌کند.

تصاویر نزدیک در ساخت ماشین‌های هرز چین اتوماتیک کاربرد دارد. امروزه ماشین‌های بسیار گران‌قیمت کشاورزی وجود دارند که می‌توانند علف‌های هرز را از گیاهان تشخیص بدهند و به‌صورت خودکار آن‌ها را نابود کنند. برای مثال یکی از پروژه‌های جالب در بخش کشاورزی، تشخیص خودکار گل زعفران برای جداسازی پرچم قرمزرنگ آن بوده است. این پردازش توسط نرم‌افزار Stigma detection انجام گرفته است.

بینایی ماشین-کشاورزی

  • نظامی (Martial)

پردازش تصویر بخصوص بینایی ماشین، کاربردهای نظامی بسیاری دارد و این کاربرد برای دولت اکثر کشورها بسیار مهم است. به عنوان مثال موشک هدایت شونده خودکاری وجود دارد که می‌تواند روی یک ساختمان قفل کند و حتی می‌تواند به درز بین در و دیوار آن ساختمان که حساس ترین جای ساختمان است به راحتی نفوذ کند. این موشک به صورت اتوماتیک این قسمت را شناسایی کرده و به سمت آن حمله می‌کند.

بینایی ماشین-نظامی

  •  امنیتی (Security)

در مسائل امنیتی هم کاربرد بینایی ماشین کاملا در زندگی ما مشهود است. از سیستم‌های امنیتی می‌توان سیستم تشخیص اثر انگشت اتوماتیک را نام برد. در گوشی ها و  لپ تاپ های جدید قابلیت finger print به آنها اضافه شده و می‌تواند صاحب خود را توسط اثر انگشت شناسایی کند.

کد امنیتی دیگری که همیشه همراه انسان حمل می شود، چشم انسان است. دانشمندان ثابت کرده اند که بافت‌های (Pattern) موجود در مردمک چشم هر انسان منحصر به فرد است و هیچ دو فردی در دنیا وجود ندارند که پترن هایی که در مردمک چشم آنها وجود دارد دقیقا مثل هم باشد. از همین روش برای شناخت افراد و سیستم های امنیتی استفاده می‌شود.

 

بینایی ماشین-امنیتی

  •  نجوم و فضا نوردی (Astronomy and Space Exploration)

ساخت دستگاه‌های اتوماتیک رصد آسمان و ثبت وقایع آسمانی به صورت خودکار از کاربردهای بینایی ماشین است که امروزه روی آن کار می‌شود.

از پروژه‌های جدید در بخش نجوم که بخشی از آن توسط سیستم پردازش تصویر انجام می‌شود، تهیه نقشه سه‌بعدی از کل عالم کائنات است. پردازش تصویر در فضانوردی هم کاربرد زیادی دارد. در تصاویر دور می‌توان سطح سیارات و همچنین سطح قمرها را اسکن کرده و اطلاعات بسیار ریزی از آن‌ها استخراج‌کنیم.

کاربرد دیگر پردازش تصویر در فـیلتر کردن عکس‌هایی است که توسط تلسکوپ‌های فضایی مختلف مانند هابل، از فضا گرفته می‌شود.

کاربرد دیگر آن حذف گردوخاک و جو سیاره‌ها از تصاویر به کمک تصویربرداری IR و X-RAY به‌صورت همزمان و ترکیب این تصاویر است.

 

بینایی ماشین-تلسکوپ هابل-نجوم

  •  پزشکی (Medic)

یکی از مهم‌ترین کاربردهای پردازش تصویر در مهندسی پزشکی است. درجایی که ما نیاز داریم تمام عکس‌ها با نهایت شفافیت و وضوح گرفته شوند زیرا دیدن تمام جزئیات لازم است. جراحی‌های ریز Microsurgery با ایجاد یک سوراخ کوچک و فقط دیدن محل جراحی توسط پزشک، از راه دور و توسط بازوهای رباتیک بسیار دقیق انجام می‌شوند.

 

بینایی ماشین-پزشکی

  •  فناوری‌های علمی (Scientific Technology)

بینایی ماشین در افزایش سرعت پیشرفت‌های علمی تاثیر فوق‌العاده داشته است. اولین و مشخص‌ترین تاثیر آن را می‌توان در علم عکاسی یا هنر دید. شکار لحظه‌های شگفت‌آوری که در کسری از ثانیه اتفاق می‌افتد، بالا بردن وضوح عکس‌های گرفته‌شده و ایجاد افکت‌های خیره‌کننده، از دستاوردهای پردازش تصویر است.

بینایی ماشین در توسعه فناوری پیشرفته Global Positioning Systems) GPS) نقش زیادی داشته و تهیه نقشه‌های سه‌بعدی از جاده‌ها در تمام نقاط جهان، از کاربردهای دیگر آن است. هم چنین با به وجود آمدن این علم، مسابقات ربات‌های فوتبالیست به‌صورت جدی دنبال شد.

رباتیک-ربات فوتبالیست

  • باستان‌شناسی (Archaeology)

در علم باستان‌شناسی تنها مدارک باقی‌مانده از دوران باستان، دست‌نوشته‌ها، نقاشی‌ها و غار نگاری‌های قدیمی است. تهیه تصاویر از بناهای گذشته و بازسازی مجازی این بناهای تاریخی یکی از کاربردهای پردازش تصویر در این علم است. همچنین می‌توان نقاشی‌ها و غار‌نگاری‌ها را مورد پردازش دقیق قرار داد و شکل آنها را همان طور که در ابتدا بوده اند، شبیه‌سازی کرد. حتی می‌توان مکان‎‌های باستانی را از زوایایی که تصاویر مستندی از آن‌ها وجود ندارد، شبیه سازی کرد.

بینایی ماشین-باستان شناسی

  •  سینما (Cinema)

اولین علمی که پردازش تصویر در آن مورد استفاده قرار گرفت، هنر و سینما بود. یکی از تکنولوژی های برتر دنیا Motion Capture است که در آن یک کاراکتر انیمیشنی قادر است حرکات دست انسان را تقلید کند. امروزه این سیستم جهت ساخت فیلم ها و بازی های کامپیوتری مورد استفاده قرار می‌گیرد.

بینایی ماشین-پردازش تصویر-سینما

  •  اقتصاد (Economy)

در دنیای امروز تمام نوآوری‌ها، به نوعی مستقیم یا غیر مستقیم باعث تغییراتی در اقتصاد گروهی از کشورها و یا کل دنیا می‌شوند. پردازش تصویر هم  به صورت مستقیم و غیر مستقیم در اقتصاد تاثیر گذار است. از تاثیر مستقیم آن در اقتصاد، می‌توان به وجود شعبه‌های بانک بدون کارمند اشاره کرد. این شعبه‌ها قادرند به صورت خودکار سریال چک ها و قبوض پرداختی را بخوانند، نوع اسکناس‌ها را تشخیص دهند و تا حد زیادی از کارهای یک بانک عادی را انجام دهند.

  •  زمین شناسی (Geology)

با پردازش تصویر می‌توان کانی‌های مختلف را از روی رنگ و اندازه آن ها شناسایی و دسته بندی کرد. همچنین درزمین‌شناسی برای پی بردن به مواد تشکیل دهنده کانی ها از روش پرتونگاری (Tomography) استفاده می‌کنند و پردازش تصویر در این بخش می‌تواند سرعت و دقت این روش را بسیار بالا ببرد.

بینایی ماشین-زمین شناسی

تشخیص پلاک از جمله کاربردهای فراگیر  بینایی ماشین می‌باشد. با شناساندن کاراکترهای پلاک هر کشور به سیستم پردازشی و جستجوی شباهت میان آن‌ها و تصاویر ورودی دوربین می‌توان پلاک موجود در تصویر را خواند. این سیستم‌ها در پارکینگ‌های هوشمند، ورودی و خروجی سازمان‌ها و مجتمع‌های بزرگ جهت کنترل تردد مورد استفاده قرار می‌گیرد. علاوه بر این‌ها در صورت پلاک خوانی یک خودرو در ابتدا و انتهای یک مسیر می‌توان سرعت میانگین آن را محاسبه و متخلفین را اعمال قانون کرد.

  •  سرعت سنج (Speedometer)

در نوعی از سرعت سنج‌های بزرگراهی از بینایی ماشین جهت استخراج سرعت استفاده می‌شود. این سیستم‌ها در نوع ثابت و متحرک طراحی می‌شوند. سیستم‌های ثابت در کنار خیابان، جاده و یا بزرگراه نصب شده و سیستم‌های متحرک بر روی خودروی‌های پلیس نصب می‌شوند. از این سیستم‌ها می‌توان به عنوان تردد شمار و سیستم کنترل ترافیک نیز بهره برد.

بینایی ماشین-سرعت سنج

  • ثبت تخلف (Submit an Infringement)

با پردازش تصاویر دوربین‌های نصب شده در تقاطع‌ها می‌توان زمان، سرعت، جهت حرکت و پلاک خودروها را بدست آورد و بدین ترتیب تخلفات متنوعی از جمله عبور از چراغ قرمز، توقف روی خط عابر پیاده، گردش به چپ و راست و تخطی از سرعت مجاز هنگام عبور از تقاطع را ثبت کرد.

بینایی ماشین-ثبت تخلف

  • ایمنی در رانندگی (Driving Safety)

برای افزایش سطح ایمنی در رانندگی، ماشین‌های جدید مجهز به سیستم‌های بینایی ماشینی شده‌اند که به راننده در حفظ هوشیاری و دقت کمک می‌کنند. از جمله این سیستم‌ها می‌توان به سیستم‌های تشخیص مانع، آینه کنار هشدار دهنده، هشدار دهنده تابلوهای راهنمایی و رانندگی و هشدار دهنده خارج شدن از خطوط جاده اشاره کرد.

بینایی ماشین-ایمنی رانندگی

  •  تشخیص حجم (Volume Detection)

با توجه به اینکه سیستم‌های بینایی ماشین قادرند مشخصات مکانی نقاط تصاویر را استخراج کنند، می‌توان از آن‌ها به عنوان سیستم‌های تشخیص حجم بهره برد. این سیستم‌ در محل‌های دفن زباله پسماند و یا نخاله ساختمانی، معادن و کارخانجات تولید مصالح ساختمانی کاربرد دارد.

بینایی ماشین-نخاله ساختمانی

نرم افزارهای بینایی ماشین

 

بینایی ماشین-متلب

 

از سال‌ها پیش نرم افزارهای زیادی برای تسهیل کاربرد‌های پردازش تصویر و بینایی ماشین توسعه یافته‌اند که شاید معروف ترین آن‌ها جعبه ابزار پردازش تصویر نرم افزار MATLAB باشد.

اما کسانی که تجربه کار با این نرم افزار را دارند به خوبی می‌دانند که با وجود سهولت برنامه نویسی با آن، سرعت اجرای MATLAB به خصوص برای کار با ویدیو بسیار آزاردهنده است. همچنین این نرم افزار متن باز (Open Source) نیست.

یکی از پروژه‌های پر سر و صدای بازسازی بناهای باستانی، بازسازی شهر روم باستان توسط دانشمندان ایتالیایی است. هم اکنون با کمک پردازش تصویر، توریست‌ها با زدن عینک‌های مخصوص می‌توانند در خیابان‌های شهر روم باستان قدم بزنند.

امروزه با پیشرفت علم و تکنولوژی، بشر سعی در استفاده حداکثری از دست‌آوردهای خود را دارد و بینایی ماشین یکی از ابزار‌هایی است که او را در این مسیر کمک می‌کند. بینایی ماشین علمی است وسیع با کاربرد‌های فراوان.

 


منابع

fa.wikipedia.org

www.enline.ir

 

بینایی ماشین چیست؟قسمت اول
بینایی ماشین چیست؟قسمت دوم

تاریخچه پردازش تصویر چیست؟

در اوایل دهه ۶۰ متعلق به ناسا شروع به ارسال تصاویر تلویزیونی مبهمی از سطح ماه به زمین کرد. استخراج جزئیات تصویر برای یافتن محلی برای فرود سفینه آپولو نیازمند اعمال تصمیماتی روی تصاویر بود. این کار مهم به عهده لابراتوار  Jet Propulsion قرار داده شد. بدین ترتیب زمینه تخصصی پردازش تصاویر رقومی آغاز گردید و مثل تمام تکنولوژی های دیگر سریعاً استفاده های متعدد پیدا کرد.

از سال ۱۹۶۴ تاکنون، موضوع پردازش تصویر، رشد زیادی کرده است.

پردازش تصویر روشی برای تبدیل یک تصویر به صورت دیجیتال و انجام برخی از عملیات بر روی آن، به منظور دریافت یک تصویر بهبود یافته و یا برای استخراج برخی از اطلاعات مفید از آن است.

این کار درواقع  یک نوع تبدیل سیگنال است  که ورودی  آن تصویر است، مانند ( ویدئوها  و عکس ها ) و خروجی ها ممکن است تصویر یا ویژگی های مرتبط با آن تصویر باشند.
امروزه با پیشرفت و توسعه سریع تکنولوژی، پردازش تصویر  کاربرد بیشتری در جنبه های مختلف کسب و کار و علوم مهندسی و علوم کامپیوتر از خود به نمایش گذاشته است.

آموزش MATLAB - تاریخچه پردازش تصویر

 پردازش تصویر اساسا شامل سه مرحله زیر است:

۱) گرفتن تصویر با اسکنر های نوری یا با دوربین ها و حسگرهای دیجیتال.
۲) تجزیه و تحلیل و دستکاری تصویر ، شامل:  فشرده سازی داده ها ، ترمیم تصویر و استخراج اطلاعات خاص از تصویر توسط فرآیند پردازش تصویر.
۳) آخرین مرحله که در آن نتیجه خروجی می تواند تصویر یا گزارشی از اطلاعاتی که در مرحله تجزیه و تحلیل تصویر در مرحله قبل بدست آمد، باشد.

عملیات اصلی در پردازش تصویر :

  1. تبدیلات هندسی: همانند تغییر اندازه، چرخش و…
  2. رنگ: همانند تغییر روشنایی، وضوح و یا تغییر فضای رنگ
  3. ترکیب تصاویر: ترکیب دو یا چند تصویر
  4. فشرده سازی پرونده: کاهش حجم تصویر
  5. ناحیه بندی پرونده: تجزیهٔ تصویر به نواحی با معنی
  6. بهبود کیفیت پرونده: کاهش نویز، افزایش کنتراست، اصلاح گاما و …
  7. سنجش کیفیت تصویر
  8. ذخیره سازی اطلاعات در تصویر
  9. انطباق تصاویر

هدف از پردازش تصویر :

هدف از پردازش تصویر را می توان به ۴ گروه تقسیم کرد.

۱٫ تشدید تصویر و بهبود

۲٫ بازیابی تصویر

۳٫ اندازه گیری الگو

۴٫ تشخیص تصویر

 پردازش تصویر با نرم افزار MATLAB :

از جمله نرم افزار های قوی و توانمند در خصوص پردازش تصویر به نرم افزار متلب می توان اشاره کرد که دانستن دانش آن برای متخصصین گرایش های مختلف علوم مهندسی و پزشکی هر روز پررنگ تر می شود.

کاربردهای پردازش تصویر :

ابتدایی ترین کاربردهای پردازش تصاویر رقومی در دهه ۶۰ و۷۰ جنبه های نظامی و جاسوسی بود که باعث شد نیاز به تصاویر با کیفیت بالاتر بوجود آید. پس از آن مصارف دیگری برای تصاویر رقومی سطح زمین پیدا شد که کاربرد تصاویر چند طیفی (Multi Spectral)  در کشاورزی و جنگل داری از آن جمله است. همچنین با استفاده از تصاویر رقومی عملیاتهایی مثل کنکاش نفت در سرزمین های دور افتاده و یا ردیابی منابع آلودگی شهری از داخل دفتر کار متخصصین آنها انجام شد.

بزودی کاربردهای زمینی زیادتری برای پردازش تصاویر رقومی پیدا شد . از اواسط دهه ۷۰ تا اواسط دهه ۸۰ اختراع اسکنر ها ی CAT یا (Computerized Arial Topography )  و اسکنر های MRI یا (Magnetic Resonance Imagery ) پزشکی را متحول کردند. صنعت چاپ استفاده کننده بعدی بود. در اواخر دهه ۸۰ پردازش تصاویر رقومی وارد دنیای سرگرمی شد بطوریکه امروزه این نقش به امر عادی تبدیل شده است. بهمین ترتیب دنیای صنعت با روباتهایی که عملا می بینند یعنی در واقع با ظهور تکنولوژی Machine Vision  متحول شد و هنوز هم در حال تحول است.

هر ساله با سریعتر و ارزانتر شدن کامپیوتر ها و ایجاد امکان پخش تصاویر با استفاده از تکنولوژی ارتباطات، افراد بیشتری به این تصاویر دسترسی پیدا می کنند. کنفرانس های ویدئویی یک روش زنده برای انجام کسب و کار شده اند و کامپیوترها ی خانگی توانایی نمایش و مدیریت تصاویر را به خوبی پیدا کرده اند. خوشبختانه با بالاتر رفتن سرعت پردازش و فضای حافظه کامپیوترها دیگر از بابت امکانات پردازش تصاویر نگرانی ها کمتر شده است و روز به روز این روند رو به رشد ادامه پیدا می کند.

با استفاده از پردازش تصویر، شمارش و اندازه گیری اشیا، تشخیص عیوب، تشخیص ترک، دسته بندی اشیا و عملیات بیشمار دیگری را انجام می‌دهند:

۱٫         اندازه گیری و کالیبراسیون

۲٫         جداسازی پینهای معیوب

۳٫         بازرسی لیبل و خواندن بارکد

۴٫         بازرسی عیوب چوب

۵٫         بازرسی قرص و بلیسترها

۶٫         بازرسی و دسته بندی

۷٫         درجه بندی و دسته بندی کاشی

۸٫         بازرسی و درجه بندی میوه

۹٫         بازرسی عیوب ورق های فلزی، پلیمری و …

۱۰٫       بازرسی لوله ها

۱۱٫       میکروسکوپ های دیجیتال

۱۲٫       اسکن سه بعدی

۱۳٫       بازرسی کمی بطری ها

۱۴٫       هدایت روبات ها

کاربرد پردازش تصویر در اتوماسیون صنعتی 

با استفاده از تکنیکهای پردازش تصویر می‌توان دگرگونی اساسی در خطوط تولید ایجاد کرد. بسیاری از پروسه‌های صنعتی که تا چند دهه پیش پیاده سازیشان دور از انتظار بود، هم اکنون با بهرگیری از پردازش هوشمند تصاویر به مرحله عمل رسیده‌اند. از جمله منافع کاربرد پردازش تصویر به شرح زیر است.

  • افزایش سرعت و کیفیت تولید
  • کاهش ضایعات
  • اصلاح روند تولید
  • گسترش کنترل کیفیت

منبع

پردازش تصویر چیست؟

تعریف پردازش تصویر:

پردازش تصویر روشی برای تبدیل یک تصویر به صورت دیجیتال و انجام برخی از عملیات بر روی آن، به منظور دریافت یک تصویر بهبود یافته و یا برای استخراج برخی از اطلاعات مفید از آن است.

تاریخچه:

در اوايل دهه 60 سفينه فضايي رنجر 7 متعلق به ناسا شروع به ارسال تصاوير تلويزيوني مبهمي از سطح ماه به زمين کرد. استخراج جزئيات تصوير براي يافتن محلي براي فرود سفينه آپولو نيازمند اعمال تصميماتي روي تصاوير بود. اين کار مهم به عهده لابراتوار  Jet Propulsion قرار داده شد. بدين ترتيب زمينه تخصصي پردازش تصاوير رقومي آغاز گرديد و مثل تمام تکنولوژي های ديگر سريعاً استفاده هاي متعدد پيدا کرد.

از سال 1964 تاكنون، موضوع پردازش تصوير، رشد فراواني كرده است. علاوه بر برنامه تحقيقات فضايي، اكنون از فنون پردازش تصوير، در موارد متعددي استفاده مي شود. براي نمونه در پزشكي شيوه هاي رايانه اي Contrast تصوير را ارتقا مي دهند يا اين كه براي تعبير آسانتر تصاوير اشعه ايكس يا ساير تصاوير پزشكي، سطوح شدت روشنايي را با رنگ، نشانه گذاری می کنند. متخصصان جغرافيايي نيز از اين روش ها يا روش هاي مشابه براي مطالعه الگوهاي آلودگي هوا كه با تصوير برداري هوايي و ماهواره اي بدست آمده است، استفاده مي كنند. در باستان شناسی برای تصویربرداری سه بعدی از اجسام و فسیل ها مورد استفاده قرار می گیرد. در موزه های نيز روش هاي پردازش تصوير براي بازيابي عكس هاي مات شده اي كه تنها باقي مانده آثار هنري نادر هستند، مورد استفاده قرار مي گيرد. كاربردهاي موفق ديگري از پردازش تصوير را نيز مي توان در نجوم، زيست شناسي، پزشكي هسته ای، صنعت بيان كرد. پردازش تصویر در صنایع مختلف از جمله صنايع هوافضا،صنایع بسته‌بندي و چاپ، صنايع خودرو، داروسازي و پزشكي، صنايع الكترونيك، صنايع غذايي، صنایع فولاد، آلومينيوم، مس و …،صنایع سلولوزي(كاغذ، مقوا، كارتن)، صنایع لوله، پروفيل فلزي، لوله پليمري و كابل، صنایع منسوجات (پارچه، موكت، فرش و بافته‌هاي صنعتي)، صنایع كاشي، سراميك کاربردهای فراوانی دارد.

پردازش تصویر اساسا شامل سه مرحله زیر است.

    • گرفتن تصویر با اسکنر های نوری یا با دوربین ها و حسگرهای دیجیتال.
    •  تجزیه و تحلیل تصویر که شامل فشرده سازی اطلاعات، بهبود تصویر، تشخیص الگوها
  •  آخرین مرحله خروجی است که می تواند تصویر یا گزارش باشد که از نتیجه تجزیه و تحلیل تصویر حاصل شده است.

هدف از پردازش تصویر

هدف از پردازش تصویر را می توان به 4 گروه تقسیم کرد.

1. تشدید تصویر و بهبود

2. بازیابی تصویر

3. اندازه گیری الگو

4. تشخیص تصویر

انواع پردازش تصویر

دو نوع از روش های مورد استفاده برای پردازش تصویر پردازش تصویر آنالوگ و دیجیتال می باشد.  تکنیک های بصری  آنالوگ از پردازش تصویر را برای نسخه های سخت مانند چاپ و عکس استفاده می شود و پردازش تصویر دیجیتال که امروز بیشتر شناخته شده است دارای کاربردهای متعددی از تجزیه و تحلیل تصاویر ماهوارهای تا کنترل ابعادی قطعات میکروسکوپی می باشد.

ماشین بینایی و پردازش تصویر در اتوماسیون صنعتی

کنترل ماشین آلات و تجهیزات صنعتی یکی از وظایف مهم در فرآیندهای تولیدی است. بکارگیری کنترل خودکار و اتوماسیون روزبه روز گسترده تر شده و رویکردهای جدید با بهره گیری از تکنولوژی‌های نو امکان رقابت در تولید را فراهم می‌سازد. لازمه افزایش کیفیت و کمیت یک محصول، استفاده از ماشین آلات پیشرفته و اتوماتیک می‌باشد. ماشین آلاتی که بیشتر مراحل کاری آنها به طور خودکار صورت گرفته و اتکای آن به عوامل انسانی کمتر باشد. امروزه استفاده از تکنولوژی ماشین بینایی و تکنیک‌های پردازش تصویر کاربرد گسترده‌ای در صنعت پیدا کرده‌است و کاربرد آن بویژه در کنترل کیفیت محصولات تولیدی، هدایت روبات و مکانیزم‌های خود هدایت شونده روز به روز گسترده تر می‌شود.

عدم اطلاع کافی مهندسین از تکنولوژی ماشین بینایی و عدم آشنایی با توجیه اقتصادی بکارگیری آن موجب شده‌است که در استفاده از این تکنولوژی تردید و در بعضی مواقع واکنش منفی وجود داشته باشد. علی رغم این موضوع، ماشین بینایی روز به روز کاربرد بیشتری پیدا کرده و روند رشد آن چشمگیر بوده‌است. عملیات پردازش تصویر در حقیقت مقایسه دو مجموعه عدد است که اگر تفاوت این دو مجموعه از یک محدوده خاص فراتر رود، از پذیرفتن محصول امتناع شده و در غیر این‌صورت محصول پذیرفته می‌شود. در زیر پروژه‌هایی که در زمینه پردازش تصاویر پیاده سازی شده‌است، توضیح داده می‌شود. این پروژه‌ها با استفاده از پردازش تصویر، شمارش و اندازه گیری اشیا، تشخیص عیوب، تشخیص ترک، دسته بندی اشیا و عملیات بیشمار دیگری را انجام می‌دهند:

1.         اندازه گیری و کالیبراسیون

2.         جداسازی پینهای معیوب

3.         بازرسی لیبل و خواندن بارکد

4.         بازرسی عیوب چوب

5.         بازرسی قرص و بلیسترها

6.         بازرسی و دسته بندی

7.         درجه بندی و دسته بندی کاشی

8.         بازرسی و درجه بندی میوه

9.         بازرسی عیوب ورق های فلزی، پلیمری و …

10.       بازرسی لوله ها

11.       میکروسکوپ های دیجیتال

12.       اسکن سه بعدی

13.       بازرسی کمی بطری ها

14.       هدایت روبات ها

منبع

پردازش تصویر چیست؟ قسمت 1
پردازش تصویر چیست؟ قسمت 2

ﺑﺎﺯﻧﻤﺎیی و ﺍﺳﺘﺨﺮﺍﺝ ﻭﻳﮋﮔﻴﻬﺎ-سومین و آخرین بخش OCR

باﺯﻧﻤﺎیی و ﺍﺳﺘﺨﺮﺍﺝ ﻭﻳﮋﮔﻴﻬﺎ :

ﺑﺎﺯﻧﻤﺎیی ﺗﺼﺎﻭﻳﺮ ﻣﻬﻤﺘﺮﻳﻦ ﻧﻘﺶ ﺭﺍ ﺩﺭ ﺳﻴﺴﺘﻤﻬﺎﻱ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﺍﻳﻔﺎ ﻣﻲكند. در ﺳﺎﺩﻩﺗﺮﻳﻦ ﺣﺎﻟﺖ، ﺗﺼﺎﻭﻳﺮ ﺳﻄﺢ ﺧﺎﻛﺴﺘﺮﻱ ﻳﺎ ﺑﺎﻳﻨﺮﻱ ﺑﻪ ﻳﻚ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻛﻨﻨﺪﻩ ﺩﺍﺩﻩ ﻣﻲ ﺷﻮﻧﺪ. ﻟﻴﻜﻦ ﺩﺭ ﺑﻴﺸﺘﺮ ﺳﻴﺴﺘﻤﻬﺎﻱ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺑﻤﻨﻈﻮﺭ ﺍﺟﺘﻨﺎﺏ ﺍﺯ ﭘﻴﭽﻴﺪﮔﻲ ﺍﺿﺎﻓﻲ ﻭ ﺍﻓﺰﺍﻳﺶ ﺩﻗﺖ ﺍﻟﮕﻮﺭﻳﺘﻤﻬﺎ، ﻳﻚ ﺭﻭﺵ ﺑﺎﺯﻧﻤﺎیی ﻓﺸﺮﺩﻩ ﺗﺮ ﻭ ﺑﺎ ﻗﺪﺭﺕ ﺗﻤﺎﻳﺰ ﺑﻴﺸﺘﺮ ﻣﻮﺭﺩ ﻧﻴﺎﺯ است. ﺑﺮﺍﻱ ﺍﻳﻦ ﻣﻨﻈﻮﺭ ﻣﺠﻤﻮﻋﻪ ﺍﻱ ﺍﺯ ﻭﻳﮋﮔﻴﻬﺎ ﻫﺮ ﻛﻼﺱ ﺍﺳﺘﺨﺮﺍﺝ ﻣﻲشوند ﻛﻪ ﺑﻪ ﺗﺸﺨﻴﺺ ﺁﻥ ﺍﺯ ﺳﺎﻳﺮ ﻛﻼﺳﻬﺎ ﻛﻤﻚ ﻣﻲ گیرد. ﺩﺭ ﻋﻴﻦ ﺣﺎﻟﻲ ﻛﻪ ﻧﺴﺒﺖ ﺑﻪ ﺗﻐﻴﻴﺮﺍﺕ ﻣﺸﺨﺼﺎﺕ ﺍﻋﻀﺎﻱ ﻳﻚ ﻛﻼﺱ ﻣﺴﺘﻘﻞ ﺑﺎﻗﻲ ﻣﻲ ﻣﺎﻧﺪ. ﻭﻳﮋﮔﻴﻬﺎﻱ ﺍﻧﺘﺨﺎﺏ ﺷﺪﻩ ﺑﺎﻳﺴﺘﻲ ﻧﺴﺒﺖ ﺑﻪ ﺍﻋﻮﺟﺎﺟﻬﺎ ﻭ ﺗﻐﻴﻴﺮﺍﺕ ﺍﺣﺘﻤﺎﻟﻲ ﻛﻪ ﻛﺎﺭﺍﻛﺘﺮﻫﺎ ﺩﺭ ﻳﻚ ﻛﺎﺭﺑﺮﺩ ﺧﺎﺹ پیدا كنند، ﺗﻐﻴﻴﺮﻧﺎﭘﺬﻳﺮ ﺑﺎﺷﻨﺪ. ﻫﻤﭽﻨﻴﻦ ﭘﺪﻳﺪﻩﺍﻱ ﺗﺤﺖ ﻋﻨﻮﺍﻥ « ﻧﻔﺮﻳﻦ ابعادی » (Curse of Dimensionality) به ما ﻫﺸﺪﺍﺭ ﻣﻲ ﺩﻫﺪ ﻛﻪ ﺑﺎ ﻳﻚ ﻣﺠﻤﻮﻋﺔ ﺁﻣﻮﺯﺷﻲ ﻣﺤﺪﻭﺩ ﭼﻨﺎﻧﭽﻪ ﺑﺨﻮﺍﻫﻴﻢ ﺍﺯ ﻳﻚ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻛﻨﻨﺪﺓ ﺁﻣﺎﺭﻱ ﺍﺳﺘﻔﺎﺩﻩ ﻛﻨﻴﻢ، ﺗﻌﺪﺍﺩ ﻭﻳﮋﮔﻴﻬﺎ ﺑﻄﻮﺭ ﻣﻨﻄﻘﻲ ﺑﺎﻳﺴﺘﻲ ﻛﻮﭼﻚ ﺑﺎﺷﺪ. ﺑﺮﻃﺒﻖ ﻳﻚ ﻗﺎﻧﻮﻥ ﺗﺠﺮﺑﻲ، ﺗﻌﺪﺍﺩ ﺍﻟﮕﻮﻫﺎﻱ ﺁﻣﻮﺯﺷﻲ ﻫﺮ ﻛﻼﺱ ﺑﺎﻳﺴﺘﻲ 5 تا 10 برابر ابعاد بردار ویژگی انتخابی باشد. در عمل مقتضیات ﺭﻭﺷﻬﺎﻱ ﺑﺎﺯﻧﻤﺎیی، ﺍﻧﺘﺨﺎﺏ ﺑﻬﺘﺮﻳﻦ ﺭﻭﺵ ﺑﺮﺍﻱ ﻳﻚ ﻛﺎﺭﺑﺮﺩ ﺧﺎﺹ ﺭﺍ ﺑﺎ ﻣﺸﻜﻞ ﻣﻮﺍﺟﻪ ﻣﻲﻛﻨﺪ. ﻫﻤﭽﻨﻴﻦ ﺍﻳﻦ ﻣﺴﺌﻠﻪ ﺭﺍ ﻧﻴﺰ ﺑﺎﻳﺪ ﻣﺪ ﻧﻈﺮ ﻗﺮﺍﺭ ﺩﺍﺩ ﻛﻪ ﺁﻳﺎ ﺣﺮﻭﻑ ﻳﺎ ﻛﻠﻤﺎﺗﻲ ﻛﻪ ﻣﻲ ﺑﺎﻳﺴﺖ ﺗﺸﺨﻴﺺ ﺩﺍﺩﻩ ﺷﻮﻧﺪ  ﺟﻬﺖ ﻭ ﺍﻧﺪﺍﺯﺓ ﻣﺸﺨﺼﻲ ﺩﺍﺭﻧﺪ ﻳﺎ ﺧﻴﺮ، ﺩﺳﺘﻨﻮﻳﺲ ﻳﺎ ﭼﺎﭘﻲ ﻫﺴﺘﻨﺪ، ﻭ ﻳﺎ ﻣﻤﻜﻦ ﺍﺳﺖ ﺗﺎ ﭼﻪ ﺣﺪ ﺑﻮﺳﻴﻠﺔ ﻧﻮﻳﺰ ﻣﻐﺸﻮﺵ ﺷﺪﻩ ﺑﺎﺷﻨﺪ. ﺍﺯ ﻃﺮﻑ ﺩﻳﮕﺮ ﺩﺭ ﻣﻮﺭﺩ ﺣﺮﻭﻓﻲ ﻛﻪ ﺑﻪ ﭼﻨﺪﻳﻦ ﺷﻜﻞ ﻧﻮﺷﺘﻪ ﻣﻲ ﺷﻮﻧﺪ. (ﻣﺎﻧﻨﺪ ’a‘ ﻭ ’A‘) ﻣﻤﻜﻦ ﺍﺳﺖ ﻻﺯﻡ ﺑﺎﺷﺪ ﻛﻪ ﺑﻴﺶ ﺍﺯ ﻳﻚ ﻛﻼﺱ ﺍﻟﮕﻮ ﺑﻪ ﻳﻚ ﻛﺎﺭﺍﻛﺘﺮ ﺧﺎﺹ ﺗﻌﻠﻖ ﻳﺎﺑﺪ.
ﻫﻤﺎﻧﻄﻮﺭ ﻛﻪ ﻋﻨﻮﺍﻥ ﺷﺪ، ﺑﺎﺯﻧﻤﺎیی ﻳﻚ ﻣﺮﺣﻠﺔ ﺑﺴﻴﺎﺭ ﻣﻬﻢ ﺩﺭ ﺣﺼﻮﻝ ﺭﺍﻧﺪﻣﺎﻥ ﻣﻨﺎﺳﺐ ﺑﺮﺍﻱ ﺳﻴﺴﺘﻤﻬﺎﻱ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﺍﺳﺖ؛ ﻟﻴﻜﻦ ﺟﻬﺖ ﺩﺳﺘﻴﺎﺑﻲ ﺑﻪ ﻋﻤﻠﻜﺮﺩ ﺑﻬﻴﻨﻪ ﻻﺯﻡ ﺍﺳﺖ ﻛﻪ ﺳﺎﻳﺮ ﻣﺮﺍﺣﻞ ﻧﻴﺰ ﺑﻬﻴﻨﻪ ﮔﺮﺩﻧﺪ ﻭ ﺑﺎﻳﺴﺘﻲ ﺗﻮﺟﻪ ﻧﻤﻮﺩ ﻛﻪ ﺍﻳﻦ ﻣﺮﺍﺣﻞ ﻣﺴﺘﻘﻞ ﻧﻤﻲ ﺑﺎﺷﻨﺪ. ﺍﺳﺘﺨﺮﺍﺝ ﻳﻚ ﺭﻭﺵ ﺧﺎﺹ ﺍﺳﺘﺨﺮﺍﺝ ﻭﻳﮋﮔﻴﻬﺎ، ﻃﺒﻴﻌﺖ ﺧﺮﻭﺟﻲ ﻣﺮﺣﻠﺔ ﭘﻴﺶ ﭘﺮﺩﺍﺯﺵ ﺭﺍ ﺑﻪ ﻣﺎ ﺩﻳﻜﺘﻪ ﻣﻲ ﻛﻨﺪ ﻭ ﻳﺎ ﺣﺪﺍﻗﻞ ﻣﺎ ﺭﺍ ﺩﺭ ﺍﻧﺘﺨﺎﺑﻤﺎﻥ ﻣﺤﺪﻭﺩ ﻣﻲ ﺳﺎﺯﺩ. ﺑﻌﻀﻲ ﺍﺯ ﺭﻭﺷﻬﺎﻱ ﺍﺳﺘﺨﺮﺍﺝ ﻭﻳﮋﮔﻴﻬﺎ ﺑﺮ ﺭﻭﻱ ﺗﺼﺎﻭﻳﺮ ﺳﻄﺢ ﺧﺎﻛﺴﺘﺮﻱ ﺣﺮﻭﻑ ﻣﻨﻔﺮﺩ ﻋﻤﻞ ﻣﻲ ﻧﻤﺎﻳﻨﺪ. ﺩﺭﺣﺎﻟﻴﻜﻪ ﺳﺎﻳﺮ ﺭﻭﺷﻬﺎ ﺑﺮ ﺭﻭﻱ ﺳﻤﺒﻠﻬﺎﻱ ﺑﺎ ﭘﻴﻮﺳﺘﮕﻲ ﻣﺮﺗﺒﺔ 4 یا 8 كه از ﺗﺼﻮﻳﺮ ﺑﺎﻳﻨﺮﻱ ﺍﺻﻠﻲ ﺟﺪﺍ ﮔﺮﺩﻳﺪﻩ ﻳﺎ ﺑﺮ ﺭﻭﻱ ﺳﻤﺒﻠﻬﺎﻱ ﻧﺎﺯﻙ ﺷﺪﻩ ﻳﺎ ﺑﺮ ﺭﻭﻱ ﻛﺎﻧﺘﻮﺭ ﺳﻤﺒﻠﻬﺎ ﺍﻋﻤﺎﻝ ﻣﻲ ﮔﺮﺩﻧﺪ.
ﻋﻼﻭﻩ ﺑﺮ ﺍﻳﻦ، ﻧﻮﻉ ﻓﺮﻣﺖ ﻭﻳﮋﮔﻴﻬﺎﻱ ﺍﺳﺘﺨﺮﺍﺝ ﺷﺪﻩ ﺑﺎﻳﺴﺘﻲ ﺑﺎ ﻧﻴﺎﺯﻣﻨﺪﻳﻬﺎﻱ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻛﻨﻨﺪﺓ ﻣﻨﺘﺨﺐ ﻣﻄﺎﺑﻘﺖ ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ. ﻭﻳﮋﮔﻴﻬﺎﻱ ﻧﻮﻉ ﮔﺮﺍﻓﻲ ﻳﺎ ﮔﺮﺍﻣﺮﻱ ﺑﺮﺍﻱ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻛﻨﻨﺪﻩ ﻫﺎﻱ ﺳﺎﺧﺘﺎﺭﻱ ﻳﺎ ﻧﺤﻮﻱ ﻣﻨﺎﺳﺐ ﻣﻲ ﺑﺎﺷﻨﺪ.
ﻭﻳﮋﮔﻴﻬﺎﻱ ﮔﺴﺴﺘﻪ ﻛﻪ ﻓﺮﺿﺎﹰ ﺗﻨﻬﺎ ﺩﻭ ﻳﺎ ﺳﻪ ﻣﻘﺪﺍﺭ ﻣﺠﺰﺍ ﺩﺍﺭﻧﺪ، ﺑﺮﺍﻱ ﺩﺭﺧﺘﻬﺎﻱ ﺗﺼﻤﻴﻢ ﮔﻴﺮﻱ ﺍﻳﺪﻩ ﺁﻝ ﻣﻲ ﺑﺎﺷﻨﺪ. ﺑﺮﺩﺍﺭﻫﺎﻱ ﻭﻳﮋﮔﻲ ﺑﺎ ﻣﻘﺎﺩﻳﺮ ﺣﻘﻴﻘﻲ، ﻣﻨﺎﺳﺐ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻛﻨﻨﺪﻩ ﻫﺎﻱ ﺁﻣﺎﺭﻱ ﻫﺴﺘﻨﺪ.
ﻫﻤﭽﻨﻴﻦ ﭼﻨﺪﻳﻦ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻛﻨﻨﺪﻩ ﻧﻴﺰ ﻣﻤﻜﻦ ﺍﺳﺖ ﺑﻪ ﻋﻨﻮﺍﻥ ﻳﻚ ﺭﻭﺵ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﭼﻨﺪ ﻃﺒﻘﻪ ﻳﺎ ﺑﻪ ﻋﻨﻮﺍﻥ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻛﻨﻨﺪﻩ ﻫﺎﻱ ﻣﻮﺍﺯﻱ (ﻛﻪ ﺩﺭ ﺁﻥ ﺗﺮﻛﻴﺒﻲ ﺍﺯ ﻧﺘﺎﻳﺞ ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻛﻨﻨﺪﻩ های ﻣﺠﺰﺍ ﺩﺭ ﺣﺼﻮﻝ ﻧﺘﻴﺠﺔ ﻧﻬﺎﻳﻲ ﺩﺧﺎﻟﺖ ﺩﺍﺭﻧﺪ) ﻣﻮﺭﺩ ﺍﺳﺘﻔﺎﺩﻩ ﻗﺮﺍﺭ ﮔﻴﺮﻧﺪ. ﺩﺭ ﺍﻳﻦ ﺣﺎﻟﺖ ﻣﻤﻜﻦ ﺍﺳﺖ ﻭﻳﮋﮔﻴﻬﺎﻱ ﺩﺍﺭﺍﻱ ﭼﻨﺪ ﻓﺮﻣﺖ ﻣﺨﺘﻠﻒ ﺍﺯ ﺣﺮﻭﻑ ﻭﺭﻭﺩﻱ ﺍﺳﺘﺨﺮﺍﺝ ﮔﺮﺩﻧﺪ.

قطعه بندی قسمت دوم OCR

 ﻗﻄﻌﻪ ﺑﻨﺪی :

ﻣﺮﺣﻠﺔ ﭘﻴﺶ ﭘﺮﺩﺍﺯﺵ ﻳﻚ ﺗﺼﻮﻳﺮ ﺍﺻﻼﺡ ﺷﺪﻩ ﺍﺯ ﺳﻨﺪ ﺭﺍ ﻧﺘﻴﺠﻪ ﻣﻲ ﺩﻫﺪ ﺑﮕﻮﻧﻪ ﺍﻱ ﻛﻪ ﻣﻘﺪﺍﺭ ﻛﺎﻓﻲ ﺍﺯ اطلاعات ﺷﻜﻠﻲ، ﻓﺸﺮﺩﻩ ﺳﺎﺯﻱ ﺑﺎﻻ ﻭ ﻧﻮﻳﺰ ﭘﺎﻳﻴﻦ، ﺍﺯ ﺗﺼﻮﻳﺮ ﻧﺮﻣﺎﻟﻴﺰﻩ ﺷﺪﺓ ﺳﻨﺪ ﻗﺎﺑﻞ ﺣﺼﻮﻝ است. ﻗﻄﻌﻪ ﺑﻨﺪی ﻳﻚ ﻣﺮﺣﻠﺔ ﺑﺴﻴﺎﺭ ﺑﺎ ﺍﻫﻤﻴﺖ ﺩﺭ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﻣﺨﺼﻮﺻﺎﹰ ﺣﺮﻭﻑ ﻓﺎﺭﺳﻲ ﻭ ﻋﺮﺑﻲ ﻛﻪ ﺑﺼﻮﺭﺕ ﭘﻴﻮﺳﺘﻪ ﻧﻮﺷﺘﻪ ﻣﻲ ﺑﺎﺷﺪ؛ ﭼﺮﺍ ﻛﻪ ﻧﺘﻴﺠﺔ ﺑﺪﺳﺖ ﺁﻣﺪﻩ ﺍﺯ ﺟﺪﺍﺳﺎﺯﻱ ﻛﻠﻤﺎﺕ، ﺧﻄﻮﻁ ﻳﺎ ﻛﺎﺭﺍﻛﺘﺮﻫﺎ ﻣﺴﺘﻘﻴﻤﺎً ﺑﺮ ﺭﻭﻱ ﻧﺮﺥ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺳﻴﺴﺘﻢ ﺗﺄﺛﻴﺮ ﻣﻲ ﮔﺬﺍﺭﺩ. ﻗﻄﻌﻪ ﺑﻨﺪی ﻏﻠﻂ ﻛﺎﺭﺍﻛﺘﺮﻫﺎ، ﻋﺎﻣﻞ ﺑﺴﻴﺎﺭﻱ ﺍﺯ ﺧﻄﺎﻫﺎﻱ OCR است.
مانند : nr →  mیا m →  nr
ﻣﻴﺰﺍﻥ ﺩﻗﺖ ﻳﻚ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻗﻄﻌﻪ ﺑﻨﺪی ﺑﻪ ﺳﺒﻚ ﻧﮕﺎﺭﺵ ﺣﺮﻭﻑ، ﻛﻴﻔﻴﺖ ﺩﺳﺘﮕﺎﻩ ﭘﺮﻳﻨﺖ، ﻛﺎﺭﺍﻛﺘﺮﻫﺎﻱ ﺍﻳﺘﺎﻟﻴﻚ ﻟﻜﻪ ﺷﺪﻩ و ﻧﻴﺰ ﻧﺴﺒﺖ ﺍﻧﺪﺍﺯﺓ ﻓﻮﻧﺖ ﺑﻪ ﺭﺯﻭﻟﻮﺷﻦ ﺩﺳﺘﮕﺎﻩ ﺍﺳﻜﻨﺮ ﺑﺴﺘﮕﻲ ﺩﺍﺭﺩ.


ﺩﻭ ﻧﻮﻉ ﻗﻄﻌﻪ ﺑﻨﺪی ﻭﺟﻮﺩ ﺩﺍﺭﺩ :

الف ) ﻗﻄﻌﻪ ﺑﻨﺪی ﺑﻴﺮﻭﻧﻲ، ﻛﻪ ﻋﺒﺎﺭﺕ ﺍﺳﺖ ﺍﺯ ﺟﺪﺍﺳﺎﺯﻱ ﺑﺨﺸﻬﺎﻱ ﻣﺨﺘﻠﻒ ﻧﮕﺎﺭﺵ ﻣﺎﻧﻨﺪ ﭘﺎﺭﺍﮔﺮﺍﻓﻬﺎ، ﺟﻤﻼﺕ ﻳﺎ ﻛﻠﻤﺎﺕ
ب ) ﻗﻄﻌﻪ ﺑﻨﺪی درونی، ﻛﻪ ﻣﻨﻈﻮﺭ ﺍﺯ ﺁﻥ، ﺟﺪﺍﺳﺎﺯﻱ ﺣﺮﻭﻑ ﻛﻠﻤﺎﺕ ﻣﺨﺼﻮﺻﺎً ﺩﺭ ﻣﻮﺭﺩ ﻛﻠﻤﺎﺕ ﺳﺮ ﻫﻢ ﻧﻮﺷﺘﻪ ﺷﺪﻩ ﺩﺭ ﻣﺘﻮﻥ لاتین ﻭ ﻳﺎ ﺭﺳﻢﺍﻟﺨﻄﻬﺎﻱ ﭘﻴﻮﺳﺘﻪ ﻧﻈﻴﺮ ﻓﺎﺭﺳﻲ ﻭ ﻋﺮﺑﻲ می باشد.

ﻗﻄﻌﻪ ﺑﻨﺪی ﺑﻴﺮﻭﻧﻲ :

ﺩﺭ ﻣﻮﺍﺭﺩﻱ ﻫﻤﭽﻮﻥ ﻣﺘﻮﻥ ﻓﺎﺭﺳﻲ ﻛﻪ ﺣﺮﻭﻑ ﺑﺼﻮﺭﺕ ﺳﺮﻫﻢ ﻧﻮﺷﺘﻪ ﻣﻲ ﺷﻮﻧﺪ، ﺳﻪ ﺭﻭﻳﻜﺮﺩ ﻣﺨﺘﻠﻒ ﺩﺭ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺑﺮﻭﻥ ﺧﻂ ﻣﺘﻮﻥ ﻛﻠﻤﺎﺕ ﻳﺎ ﺯﻳﺮكلمات ﻭﺟﻮﺩ ﺩﺍﺭﺩ.
الف ) ﺭﻭﻳﻜﺮﺩ ﻣﺒﺘﻨﻲ ﺑﺮ ﻗﻄﻌﻪ ﺑﻨﺪی ﻛﻠﻤﺎﺕ
ب ) ﺭﻭﻳﻜﺮﺩ ﻣﺒﺘﻨﻲ ﺑﺮ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻛﻠﻤﻪ ﺑﻪ ﻋﻨﻮﺍﻥ ﻳﻚ ﺍﻟﮕﻮﻱ ﻭﺍحد
ج ) ﺭﻭﻳﻜﺮﺩ ﺗﺮﻛﻴﺒﻲ

ﻗﻄﻌﻪ ﺑﻨﺪی درﻭﻧﻲ :

ﺩﺭ ﺭﻭﻳﻜﺮﺩ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻣﺒﺘﻨﻲ ﺑﺮ ﺟﺪﺍﺳﺎﺯﻱ، ﺍﺑﺘﺪﺍ ﻛﻠﻤﻪ ﺩﺭ ﻣﺮﺣﻠﺔ ﺟﺪﺍﺳﺎﺯﻱ ﺑﻪ ﺣﺮﻭﻑ ﻳﺎ ﺯﻳﺮ ﺣﺮﻭﻑ ﺷﻜﺴﺘﻪ ﻣﻲ ﺷﻮﻧﺪ.
ﺁﻧﮕﺎﻩ ﻗﻄﻌﺎﺕ ﺟﺪﺍ ﺷﺪﻩ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻣﻲ شوند و ﺍﺯ ﻛﻨﺎﺭ ﻫﻢ ﻗﺮﺍﺭ ﮔﺮﻓﺘﻦ ﺁﻧﻬﺎ ﻛﻠﻤﻪ خواهد ﺷﺩ؛ ﺭﻭﺷﻬﺎﻱ ﺑﻜﺎﺭﮔﺮﻓﺘﻪ ﺷﺪﻩ ﺩﺭ ﺍﻳﻦ ﺭﻭﻳﻜﺮﺩ ﺑﻪ ﺩﻭ ﮔﺮﻭﻩ ﻣﺨﺘﻠﻒ ﺗﻘﺴﻴﻢ ﻣﻲ ﺷﻮﻧﺪ :
–    ﺗﻘﻄﻴﻊ ﻛﻠﻤﻪ ﺑﻪ ﺣﺮﻭﻑ
–    ﺗﻘﻄﻴﻊ ﻛﻠﻤﻪ ﺑﻪ ﺯﻳﺮﺣﺮﻭﻑ
ﺩﺭ ﮔﺮﻭﻩ ﺍﻭﻝ ﻛﻠﻤﻪ ﺑﻪ ﺣﺮﻭﻑ ﺟﺪﺍﺳﺎﺯﻱ می ﺷﻮﺩ ﻭ ﺑﺎ ﺷﻨﺎﺳﺎﻳﻲ ﺣﺮﻭﻑ ﺟﺪﺍ ﺷﺪﻩ، ﻛﻠﻤﻪ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻣﻲ ﮔﺮﺩﺩ. ﺭﻭﻳﻜﺮﺩ ﺑﻜﺎﺭ ﮔﺮﻓﺘﻪ ﺷﺪﻩ ﺩﺭ ﺍﻳﻦ ﮔﺮﻭﻩ ﺭﺍ ﺭﻭﻳﻜﺮﺩ ﻣﺒﺘﻨﻲ ﺑﺮ ﺟﺪﺍﺳﺎﺯﻱ ﻭ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﻣﻲ ﻧﺎﻣﻨﺪ.
ﺩﺭ ﮔﺮﻭﻩ ﺩﻭ، ﻛﻠﻤﻪ ﺑﻪ ﺯﻳﺮﺣﺮﻭﻑ ﻣﺜﻞ ﭘﺎﺭﻩ ﻣﻨﺤﻨﻲ ﻫﺎ ﻭ ﺳﺎﺧﺘﺎﺭﻫﺎﻱ ﭘﺎﻳﺔ ﺩﻳﮕﺮ ﺟﺪﺍﺳﺎﺯﻱ ﻣﻲ شود و ﺑﺎ ﺷﻨﺎﺳﺎﻳﻲ ﺯﻳﺮﺣﺮﻭﻑ ﻭ ﺗﺮﻛﻴﺐ ﺁﻧﻬﺎ ﻛﻠﻤﻪ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻣﻲ ﮔﺮﺩﺩ. ﺩﺭ ﺭﻭﻳﻜﺮﺩ ﺑﻜﺎﺭ گرفته شده در ﮔﺮﻭﻩ ﺩﻭﻡ ﻛﻪ ﺍﺻﻄﻼﺣﺎﹲ ﺟﺪﺍﺳﺎﺯﻱ ﻭ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺗﻮﺃﻡ ﻧﺎﻣﻴﺪﻩ ﻣﻲ شود. نمیﺗﻮﺍﻥ ﺩﺭ ﺍﺑﺘﺪﺍ ﻣﺮﺯ ﺣﺮﻭﻑ ﺭﺍ ﺑﻄﻮﺭ ﻛﺎﻣﻞ ﻣﺸﺨﺺ ﻛﺮﺩ. ﺑﻠﻜﻪ ﺣﺮﻭﻑ ﺍﺯ ﺍﺑﺘﺪﺍ ﺑﻪ ﺍﻧﺘﻬﺎﻱ ﻛﻠﻤﻪ ﺑﻪ ﺗﺮﺗﻴﺐ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻭ  ﺟﺪﺍﺳﺎﺯﻱ ﻣﻲ ﺷﻮﻧﺪ. ﺩﺭ ﻫﻴﭽﻜﺪﺍﻡ ﺍﺯ ﺩﻭ ﺷﻜﻞ ﺭﻭﻳﻜﺮﺩ ﻣﺒﺘﻨﻲ ﺑﺮ ﺟﺪﺍﺳﺎﺯﻱ، ﺑﻪ ﺷﻜﻞ ﻛﻠﻲ ﻛﻠﻤﻪ ﺗﻮﺟﻬﻲ نمی ﺷﻮﺩ ﻭ ﺳﻌﻲ ﺑﺮ ﺁﻥ ﺍﺳﺖ ﻛﻪ ﺑﺎ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﻳﻚ ﻛﻠﻤﻪ، ﺁﻥ ﻛﻠﻤﻪ ﺷﻨﺎﺧﺘﻪ ﺷﻮﺩ.
ﺩﺭ ﺭﻭﻳﻜﺮﺩ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻛﻠﻤﻪ ﺑﻪ ﻋﻨﻮﺍﻥ ﻳﻚ ﺍﻟﮕﻮﻱ ﻭﺍﺣﺪ، ﺗﻼﺷﻲ ﺑﺮﺍﻱ ﺗﻘﻄﻴﻊ ﻛﻠﻤﻪ ﺑﻪ ﺣﺮﻭﻑ ﻭ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﻣﻮﺟﻮﺩ ﺩﺭ ﻛﻠﻤﻪ ﺻﻮﺭﺕ ﻧﻤﻲ ﮔﻴﺮﺩ ﻭ ﻛﻠﻤﻪ ﺩﺭ ﻗﺎﻟﺐ ﻳﻚ ﺍﻟﮕﻮ ﺑﺮﺭﺳﻲ ﻣﻲ گردد.
ﺭﻭﺷﻬﺎﻱ ﺑﻜﺎﺭ ﮔﺮﻓﺘﻪ ﺷﺪﻩ ﺩﺭ ﺍﻳﻦ ﺭﻭﻳﻜﺮﺩ ﺭﺍ ﻣﻲ ﺗﻮﺍﻥ ﺑﻪ ﺩﻭ ﮔﺮﻭﻩ ﺗﻘﺴﻴﻢ ﻛﺮﺩ :
ﮔﺮﻭﻩ ﺍﻭﻝ ﺭﻭﺷﻬﺎﻳﻲ ﻫﺴﺘﻨﺪ ﻛﻪ ﺗﺼﻮﻳﺮ ﻛﻠﻤﻪ ﺭﺍ ﺑﺼﻮﺭﺕ ﻳﻚ ﺍﻟﮕﻮﻱ ﺩﻭ ﺳﻄﺤﻲ ( ﺑﺎﻳﻨﺮﻱ ) ﻳﺎ ﺑﺎ ﺳﻄﻮﺡ ﺧﺎﻛﺴﺘﺮﻱ ﺩﺭ    ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻭ ﺍﺯ ﺭﻭﺷﻬﺎﻱ ﻣﻌﻤﻮﻝ ﺩﺭ ﺷﻨﺎﺳﺎﻳﻲ ﺗﺼﺎﻭﻳﺮ ﻛﻪ ﻣﻌﻤﻮﻻً ﻣﺒﺘﻨﻲ ﺑﺮ ﺗﻮﺍﺑﻊ ﻓﺎﺻﻠﻪ ﻣﻲ ﺑﺎﺷﻨﺪ ﻭ ﻳﺎ ﺭﻭﺷﻬﺎﻳﻲ ﻫﻤﭽﻮﻥ ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﻭ ﻏﻴﺮﻩ ﺍﺳﺘﻔﺎﺩﻩ ﻣﻲ ﻧﻤﺎﻳﻨﺪ.
ﮔﺮﻭﻩ ﺩﻭﻡ ﺭﻭﺷﻬﺎﻱ ﻣﺒﺘﻨﻲ ﺑﺮ ﭘﺮﺩﺍﺯﺵ ﺳﻴﮕﻨﺎﻟﻬﺎﻱ ﺗﺼﺎﺩﻓﻲ ﻫﺴﺘﻨﺪ. ﺍﻳﻦ ﺭﻭﺷﻬﺎ ﺍﺑﺘﺪﺍ ﺩﺭ ﺑﺎﺯﺷﻨﺎﺳﻲ ﮔﻔﺘﺎﺭ ﺑﻜﺎﺭ ﮔﺮﻓﺘﻪ ﺷﺪﻩ ﻭ ﺳﭙﺲ ﺩﺭ ﺯﻣﻴﻨﺔ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻛﻠﻤﺎﺕ ﻣﺨﺼﻮﺻﺎً ﻛﻠﻤﺎﺕ ﺩﺳﺘﻨﻮﻳﺲ لاتین ﻣﻮﺭﺩ ﺍﺳﺘﻔﺎﺩﻩ ﻗﺮﺍﺭ ﮔﺮﻓﺘﻪ اند.

ﭘﻴﺶ ﭘﺮﺩﺍﺯﺵ-اولین بخش از کار OCR

پیش پردازش در تشخص نوری کاراکترها

ﺍﻳﻦ ﻣﺮﺣﻠﻪ ﺷﺎﻣﻞ ﻛﻠﻴﺔ ﭘﺮﺩﺍﺯﺷﻬﺎﻳﻲ ﺍﺳﺖ ﻛﻪ ﺑﺮ ﺭﻭﻱ ﺳﻴﮕﻨﺎﻟﻬﺎﻱ ﺗﺼﻮﻳﺮﻱ ﺧﺎﻡ ﺍﻧﺠﺎﻡ ﻣﻲ ﺷﻮﻧﺪ. ﺗﺎ ﻣﻮﺟﺐ ﺗﺴﻬﻴﻞ ﻳﺎ ﺍﻓﺰﺍﻳﺶ ﺩﻗﺖ ﺭﻭﻧﺪ ﺍﺟﺮﺍﻱ ﻓﺎﺯﻫﺎﻱ ﺑﻌﺪﻱ ﮔﺮﺩﻧﺪ. ﺍﺯ ﻣﺠﻤﻮﻋﺔ ﺍﻳﻦ ﭘﺮﺩﺍﺯﺷﻬﺎ، ﻫﺪﻓﻬﺎﻱ ﺯﻳﺮ ﺩﻧﺒﺎﻝ ﻣﻲ ﺷﻮﺩ :
1-    ﻛﺎﻫﺶ ﻧﻮﻳﺰ
2-    ﻧﺮﻣﺎﻟﻴﺰﻩ ﻧﻤﻮﺩﻥ ﺩﺍﺩهﻫﺎ
3-    ﻓﺸﺮﺩﻩ ﺳﺎﺯﻱ ﻣﻴﺰﺍﻥ ﺍﻃﻼﻋﺎﺗﻲ ﻛﻪ ﻣﻲ ﺑﺎﻳﺴﺖ ﻣﺤﻔﻮﻅ ﺑﻤﺎﻧﺪ.
4-    ﺑﺎﺯﺷﻨﺎﺳﻲ ﺧﻂ ، ﺯﺑﺎﻥ ﻭ ﻓﻮﻧﺖ

1-كاهش نویز

ﻧﻮﻳﺰ ﺍﻳﺠﺎﺩ ﺷﺪﻩ ﺑﻮﺍﺳﻄﺔ ﺩﺳﺘﮕﺎﻫﻬﺎﻱ ﺍﺳﻜﻨﺮ ﻧﻮﺭﻱ ﻳﺎ ﺍﺑﺰﺍﺭﻫﺎﻱ ﻧﮕﺎﺭﺷﻲ ﻣﻨﺠﺮ ﺑﻪ ﺍﻳﺠﺎﺩ ﻗﻄﻌﻪ ﺧﻄﻬﺎﻱ ﮔﺴﺴﺘﻪ ، ﺍﺗﺼﺎﻝ ﺑﻴﻦ ﺧﻄﻮﻁ، ﻓﻀﺎﻫﺎﻱ ﺧﺎﻟﻲ ﺩﺭ ﺧﻄﻮﻁ ﻣﺘﻦ، ﭘﺮ ﺷﺪﻥ ﺣﻔﺮه‌های ﻣﻮﺟﻮﺩ ﺩﺭ ﺗﺼﻮﻳﺮ ﺑﺮﺧﻲ ﺣﺮﻭﻑ ﻭ ﻏﻴﺮﻩ ﻣﻲ ﮔﺮﺩﺩ. ﻫﻤﭽﻨﻴﻦ ﺍﻋﻮﺟﺎﺟﻬﺎﻱ ﻣﺨﺘﻠﻒ ﺷﺎﻣﻞ ﺗﻐﻴﻴﺮﺍﺕ ﻣﺤﻠﻲ، ﻣﻨﺤﻨﻲ ﺷﺪﻥ ﮔﻮﺷﻪ ﺣﺮﻭﻑ، ﺗﻐﻴﻴﺮ ﺷﻜﻞ ﻭ ﻳﺎ ﺧﻮﺭﺩﮔﻲ ﺣﺮﻭﻑ ﺭﺍ ﻧﻴﺰ ﺑﺎﻳﺴﺘﻲ ﻣﺪ ﻧﻈﺮ ﻗﺮﺍﺭ ﺩﺍﺩ. ﻗﺒﻞ ﺍﺯ. ﻣﺮﺣﻠﺔ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﻻﺯﻡ ﺍﺳﺖ ﻛﻪ ﺍﻳﻦ ﻧﻘﺎﻳﺺ ﺑﺮﻃﺮﻑ ﺷﻮﻧﺪ. یكی از ﺗﻜﻨﻴﻜﻬﺎﻱ ﻣﺨﺘﻠﻒ ﻛﺎﻫﺶ ﻧﻮﻳﺰ فیلتر كردن می‌باشد :

1-1-فیلتر كردن

ﺍﻳﻦ ﺭﻭﺵ ﺑﻪ ﺣﺬﻑ ﻧﻮﻳﺰ ﻛﻤﻚ ﻣﻲ ﻛﻨﺪ ﻭ ﻧﺎﺻﺎﻓﻴﻬﺎﻱ ﺑﺪﻧﺔ ﺣﺮﻭﻑ ﺭﺍ ﻛﻪ ﻣﻌﻤﻮﻻً ﺑﻮﺳﻴﻠﺔ ﺳﻄﻮﺡ ﻧﮕﺎﺭﺵ ﻧﺎﻫﻤﻮﺍﺭ ( ﺩﺭ ﻣﻮﺭﺩ ﻣﺘﻮﻥ ﺩﺳﺘﻨﻮﻳﺲ ) ﻭ ﻳﺎ ﻧﺮﺥ ﻧﻤﻮﻧﻪ ﺑﺮﺩﺍﺭﻱ ﺿﻌﻴﻒ ﺩﺳﺘﮕﺎﻫﻬﺎﻱ ﺍﺧﺬ ﺩﺍﺩﻩ ﺍﻳﺠﺎﺩ می‌شوند،  در مرحله پیش پردازش كاهش می‌دهد. ﻓﻴﻠﺘﺮﻫﺎﻱ ﺣﻮﺯﺓ ﻣﻜﺎﻧﻲ ﻳﺎ ﻓﺮﻛﺎﻧﺴﻲ ﻣﺘﻌﺪﺩﻱ ﺭﺍ ﻣﻲ ﺗﻮﺍﻥ ﺑﺮﺍﻱ ﺍﻳﻦ ﻣﻨﻈﻮﺭ ﻃﺮﺍﺣﻲ ﻛﺮﺩ. ﺍﻳﺪﺓ ﺍﺻﻠﻲ ﺩﺭ ﺍﻳﻦ ﺭﻭﺵ، ﻛﺎﻧﻮﻭﻟﻮ ﻛﺮﺩﻥ (Convolute) (به معنی پیچاپیچ كردن) یك ماسك از پیش تعریف شده با تصویر ﺟﻬﺖ ﺗﺨﺼﻴﺺ ﻳﻚ ﻣﻘﺪﺍﺭ ﺟﺪﻳﺪ ﺑﻪ ﭘﻴﻜﺴﻞ ﺑﺮﺣﺴﺐ ﺗﺎﺑﻌﻲ ﺍﺯ ﻣﻘﺎﺩﻳﺮ ﭘﻴﻜﺴﻠﻬﺎﻱ مجاور است. فیلترها ﺭﺍ ﻣﻲ ﺗﻮﺍﻥ ﺑﺮﺍﻱ ﻣﻘﺎﺻﺪ ﻣﺨﺘﻠﻔﻲ ﭼﻮﻥ ﻫﻤﻮﺍﺭﺳﺎﺯﻱ، ﺷﺎﺭﭖ ﻛﺮﺩﻥ ، ﺍﻋﻤﺎﻝ ﺳﻄﻮﺡ ﺁﺳﺘﺎﻧﻪ، ﺣﺬﻑ ﭘﺲ ﺯﻣﻴﻨﺔ ﺑﺎﻓﺖ ﮔﻮﻧﻪ ﻳﺎ ﺭﻧﮕﻲ ﺧﻔﻴﻒ ﻭ ﺗﻨﻈﻴﻢ ﻛﻨﺘﺮﺍﺳﺖ (ﭘﺎﺩﻧﻤﺎﻳﻲ) طراحی کرد.

2-ﻧﺮﻣﺎﻟﻴﺰﻩ ﻧﻤﻮﺩﻥ ﺩﺍﺩهﻫﺎ

ﺭﻭﺷﻬﺎﻱ ﻧﺮﻣﺎﻟﻴﺰﻩ ﻛﺮﺩﻥ ﺩﺍﺩﻩ ﻫﺎ در پیش پردازش ﺑﻪ ﺣﺬﻑ ﺗﻐﻴﻴﺮﺍﺕ ﻧﮕﺎﺭﺷﻲ ﻛﻤﻚ ﻧﻤﻮﺩﻩ و ﺩﺍﺩﻩهای ﺍﺳﺘﺎﻧﺪﺍﺭﺩ ﺷﺪﻩﺍﻱ ﺭﺍ ﻧﺘﻴﺠﻪ ﻣﻲﺩﻫﺪ.
ﺭﻭﺷﻬﺎﻱ ﭘﺎﻳﺔ ﻧﺮﻣﺎﻟﻴﺰﻩ ﻛﺮﺩﻥ ﻋﺒﺎﺭﺗﻨﺪ ﺍﺯ :

2-1-ﻧﺮﻣﺎﻟﻴﺰﻩ ﻛﺮﺩﻥ ﻛﺠﻲ ﻣﺘﻦ ﻭ ﺍﺳﺘﺨﺮﺍﺝ ﺧﻄﻮﻁ ﺯﻣﻴﻨﻪ

ﺑﺪﻳﻞ ﻋﺪﻡ ﺩﻗﺖ ﺩﺭ ﻣﺮﺣﻠﺔ ﺍﺳﻜﻦ ﻭ ﻳﺎ ﺑﻲ ﺩﻗﺘﻲ ﻧﻮﻳﺴﻨﺪﻩ ﺩﺭ ﻫﻨﮕﺎﻡ ﻧﮕﺎﺭﺵ ﻣﺘﻦ ﺩﺳﺘﻨﻮﻳﺲ، ﻣﻤﻜﻦ است ﺧﻄﻮﻁ ﻣﺘﻦ ﻧﺴﺒﺖ ﺑﻪ ﺗﺼﻮﻳﺮ ﺍﻧﺪﻛﻲ ﺍﻧﺤﺮﺍﻑ ﻳﺎ ﭼﺮﺧﺶ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ، ﺍﻳﻦ ﻣﺴﺌﻠﻪ ﻣﻲ ﺗﻮﺍﻧﺪ ﻛﺎﺭﺍﻳﻲ ﺍﻟﮕﻮﺭﻳﺘﻤﻬﺎﻱ ﺑﻜﺎﺭ ﺭﻓﺘﻪ ﺩﺭ ﻃﺒﻘﺎﺕ ﺑﻌﺪﻱ ﺳﻴﺴﺘﻢ OCR ﺭﺍ ﺗﺄﺛﻴﺮ ﻗﺮﺍﺭ ﺩﻫﺪ؛ ﭼﺮﺍ ﻛﻪ ﻳﻜﻲ ﺍﺯ ﻣﻔﺮﻭﺿﺎﺕ ﺑﻴﺸﺘﺮ ﺭﻭﺷﻬﺎﻱ ﻗﻄﻌﻪ ﺑﻨﺪﻱ، ﻋﺪﻡ ﻛﺞ ﺑﻮﺩﻥ ﺗﺼﻮﻳﺮ ﻣﺘﻦ ﻭﺭﻭﺩﻱ ﺍﺳﺖ ﻭ ﺩﺭ ﻧﺘﻴﺠﻪ ﻻﺯﻡ ﺍﺳﺖ ﻛﻪ ﺍﻳﻦ ﻧﻘﻴﺼﻪ ﺁﺷﻜﺎﺭ ﻭ ﺗﺼﺤﻴﺢ ﮔﺮﺩﺩ. ﺁﺷﻜﺎﺭﺳﺎﺯﻱ ﺧﻂ ﺯﻣﻴﻨﻪ ﺩﺭ ﺑﺴﻴﺎﺭﻱ ﺍﺯ ﺗﻜﻨﻴﻜﻬﺎﻱ ﻗﻄﻌﻪ ﺑﻨﺪﻱ ﻭ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻣﺘﻮﻥ ﻓﺎﺭﺳﻲ، ﻋﺮﺑﻲ ﻭ لاتین ﻧﻘﺶ ﺍﺳﺎﺳﻲ ﺩﺍﺭﺩ. ﻋﻼﻭﻩ ﺑﺮ ﺍﻳﻦ، ﺑﺮﺧﻲ ﺍﺯ ﻛﺎﺭﺍﻛﺘﺮﻫﺎ ﻣﺎﻧﻨﺪ « g » ﻭ « 9 » ﺭﺍ ﻣﻲ ﺗﻮﺍﻥ ﺑﻮﺍﺳﻄﺔ ﻣﻮﻗﻌﻴﺖ ﻧﺴﺒﻲ ﺷﺎﻥ ﻧﺴﺒﺖ ﺑﻪ ﺧﻂ ﺯﻣﻴﻨﻪ ﺁﺷﻜﺎﺭ ﺳﺎﺧﺖ

2-2-ﻧﺮﻣﺎﻟﻴﺰﻩ ﻛﺮﺩﻥ ﺍﺭﻳﺐ ﺷﺪﮔﻲ

ﺩﺭ ﻣﺘﻮﻥ ﭼﺎﭘﻲ فارسی ﻭ ﻻﺗﻴﻦ، ﻛﺎﺭﺍﻛﺘﺮﻫﺎﻱ ﺩﺍﺭﺍﻱ ﻓﺮﻣﺖ ﺍﻳﺘﺎﻟﻴﻚ ﺍﺯ ﺭﺍﺳﺘﺎﻱ ﻋﻤﻮﺩ ﺍﻧﺤﺮﺍﻑ دارند. ﻫﻤﭽﻨﻴﻦ ﺩﺭ ﻣﺘﻮﻥ ﺩﺳﺘﻨﻮﻳﺲ ﺑﺮﺧﻲ ﺍﺯ ﻧﻮﻳﺴﻨﺪﻩ ها ﺍﻳﻦ ﭘﺪﻳﺪﻩ ﺗﺤﺖ ﻋﻨﻮﺍﻥ « ﺷﺪﮔﻲ ﺍﺭﻳﺐ » ﺷﻨﺎﺧﺘﻪ ﻣﻲشود و می‌تواند ﺩﻗﺖ ﺑﺮﺧﻲ ﺍﺯ ﺍﻟﮕﻮﺭﻳﺘﻤﻬﺎﻱ ﻗﻄﻌﻪ بندی ﻳﺎ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺭﺍ ﺗﺤﺖ ﺗﺄﺛﻴﺮ ﻗﺮﺍﺭ ﺩﻫﺪ ﻭ ﻟﺬﺍ ﺩﺭ ﺍﻳﻦ ﺳﻴﺴﺘﻤﻬﺎ ﻻﺯﻡ ﺍﺳﺖ ﻛﻪ ﺩﺭ ﻣﺮﺣﻠﺔ پیش پردازش ﻣﻴﺰﺍﻥ ﺍﺭﻳﺐ ﺑﻮﺩﻥ ﻛﺎﺭﺍﻛﺘﺮﻫﺎ ﺷﻨﺎﺳﺎﻳﻲ ﻭ ﺗﺼﺤﻴﺢ ﮔﺮﺩﺩ. اریب ﺷﺪﮔﻲ ﺑﺼﻮﺭﺕ ﺯﺍﻭﻳﺔ ﺷﻴﺐ ﺑﻴﻦ ﻃﻮﻳﻠﺘﺮﻳﻦ ﺯﻳﺮﺣﺮﻑ ﺩﺭ ﻳﻚ ﻛﻠﻤﻪ ﻭ ﺟﻬﺖ ﻋﻤﻮﺩﻱ ﺗﻌﺮﻳﻒ ﻣﻲ ﺷﻮﺩ. ﻧﺮﻣﺎﻟﻴﺰﻩ ﻛﺮﺩﻥ ﺍﺭﻳﺐ، ﺑﻨﻈﻮﺭ ﻧﺮﻣﺎﻟﻴﺰﻩ ﻧﻤﻮﺩﻥ ﻛﻠﻴﺔ ﻛﺎﺭﺍﻛﺘﺮﻫﺎ ﺑﻪ ﻳﻚ ﻓﺮﻡ ﺍﺳﺘﺎﻧﺪﺍﺭﺩ ﺑﻜﺎﺭ می‌رود. ﻣﻌﻤﻮﻟﺘﺮﻳﻦ ﺭﻭﺵ ﺩﺭ ﺗﺨﻤﻴﻦ ﻣﻴﺰﺍﻥ ﺍﺭﻳﺐ ﺷﺪﮔﻲ، ﻣﺤﺎﺳﺒﺔ ﺯﺍﻭﻳﺔ ﻣﺘﻮﺳﻂ ﺍﺟﺰﺍﺀ ﻧﺰﺩﻳﻚ ﺑﻪ ﺧﻂ ﻋﻤﻮﺩ ﺍﺳﺖ. در ﺍﺳﺘﺨﺮﺍﺝ ﺧﻄﻮﻁ ﻋﻤﻮﺩﻱ ﺍﺯ ﻛﺎﺭﺍﻛﺘﺮﻫﺎ ﺑﻮﺳﻴﻠﺔ ﺩﻧﺒﺎﻝ ﻛﺮﺩﻥ ﻣﺆﻟﻔﻪ های ﻛﺪ ﺯﻧﺠﻴﺮﻩای ﺗﻮﺳﻂ ﻳﻚ ﺟﻔﺖ ﻓﻴﻠﺘﺮ ﻳﻚ ﺑﻌﺪﻱ ﺍﻧﺠﺎﻡ ﻣﻲﭘﺬﻳﺮﺩ. ﻣﺨﺘﺼﺎﺕ ﺷﺮﻭﻉ ﻭ ﭘﺎﻳﺎﻥ ﻫﺮ ﺧﻂ، ﺯﺍﻭﻳﺔ ﺍﺭﻳﺐ ﺭﺍ ﺑﺪﺳﺖ ﻣﻲ دهد.

2-3-ﻧﺮﻣﺎﻟﻴﺰﻩ ﻛﺮﺩﻥ ﺍﻧﺪﺍﺯﻩ (ﺗﻐﻴﻴﺮ ﻣﻘﻴﺎﺱ ﺩﺍﺩﻥ)

ﺩﺭ ﺳﻴﺴﺘﻤﻬﺎﻱ OCR ﺍﻏﻠﺐ ﺗﺼﺎﻭﻳﺮ ﻛﻠﻤﺎﺕ ﺧﻴﻠﻲ ﻛﻮﭼﻚ ﻳﺎ ﺧﻴﻠﻲ ﺑﺰﺭﮒ ، ﺑﻪ ﻳﻚ ﺍﻧﺪﺍﺯﺓ ﺍﺳﺘﺎﻧﺪﺍﺭﺩ ﻧﺮﻣﺎﻟﻴﺰﻩ ﻣﻲﺷﻮﻧﺪ. ﺍﻳﻦ ﻋﻤﻞ ﻣﻌﻤﻮﻻﹰ ﺑﺎ ﻧﻤﻮﻧﻪ ﺑﺮﺩﺍﺭﻱ ﻣﺠﺪﺩ ﺗﺼﻮﻳﺮ ﺍﻧﺠﺎﻡ ﻣﻲ ﮔﻴﺮﺩ.
روشهای بازشناسی حروف ممكن است نرمالیزه كردن اندازه را در هر دو جهت افقی و عمودی انجام دهند. هر كاراكتر به تعدادی ناحیه تقسیم می‌شود و هر یك از این نواحی بصورت جداگانه تغییر مقیاس داده می‌شوند.

3-ﻓﺸﺮﺩﻩ ﺳﺎﺯﻱ ﻣﻴﺰﺍﻥ ﺍﻃﻼﻋﺎﺗﻲ ﻛﻪ ﻣﻲ ﺑﺎﻳﺴﺖ ﻣﺤﻔﻮﻅ ﺑﻤﺎﻧﺪ

ﺍﻳﻦ ﻣﺴﺌﻠﻪ ﭘﺬﻳﺮﻓﺘﻪ ﺷﺪﻩ ﺍﺳﺖ ﻛﻪ ﺗﻜﻨﻴﻜﻬﺎﻱ ﻛﻼﺳﻴﻚ ﻓﺸﺮﺩﻩ ﺳﺎﺯﻱ ﺗﺼﺎﻭﻳﺮ ﻛﻪ ﺗﺼﻮﻳﺮ ﺭﺍ ﺍﺯ ﺣﻮﺯﺓ ﻣﻜﺎﻧﻲ ﺑﻪ ﺣﻮﺯﻩ ﺩﻳﮕﺮ ﻣﻨﺘﻘﻞ ﻣﻲ ﻛﻨﻨﺪ، ﺑﺮﺍﻱ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﻣﻨﺎﺳﺐ ﻧﻤﻲ ﺑﺎﺷﻨﺪ. در ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ در پیش پردازش، ﻋﻤﻞ ﻓﺸﺮﺩﻩ سازی ﻧﻴﺎﺯﻣﻨﺪ ﺁﻥ ﺩﺳﺘﻪ ﺍﺯ ﺗﻜﻨﻴﻜﻬﺎﻱ ﺣﻮﺯﺓ ﻣﻜﺎﻧﻲ ﺍﺳﺖ ﻛﻪ اطلاعات ﺷﻜﻠﻲ ﺭﺍ ﺣﻔﻆ ﻣﻲ ﻧﻤﺎﻳﻨﺪ.
ﺩﻭ ﺗﻜﻨﻴﻚ ﻣﺘﻌﺎﺭﻑ ﻓﺸﺮﺩﻩ ﺳﺎﺯﻱ، ﻳﻜﻲ ﺗﻜﻨﻴﻚ ﺍﻋﻤﺎﻝ ﺳﻄﺢ ﺁﺳﺘﺎﻧﻪ (ﺑﻤﻨﻈﻮﺭ ﺑﺎﻳﻨﺮﻱ ﻛﺮﺩﻥ ﺗﺼﺎﻭﻳﺮ ﺳﻄﺢ ﺧﺎﻛﺴﺘﺮﻱ ﻣﺘﻮﻥ) و دیگری ﺩﻳﮕﺮﻱ ﻧﺎﺯﻙ سازی می‌باشد.

3-1-ﺑﺎﻳﻨﺮﻱ ( ﺩﻭﺳﻄﺤﻲ ) ﻛﺮﺩﻥ ﺗﺼﻮﻳﺮ ﻣﺘﻦ

ﺑﻤﻨﻈﻮﺭ ﻛﺎﻫﺶ ﺣﺠﻢ ﺫﺧﻴﺮﻩ ﺳﺎﺯﻱ ﻣﻮﺭﺩ ﻧﻴﺎﺯ ﻭ ﺍﻓﺰﺍﻳﺶ ﺳﺮﻋﺖ ﭘﺮﺩﺍﺯﺵ، ﺍﻏﻠﺐ ﻣﻄﻠﻮﺏ ﺍﺳﺖ ﻛﻪ ﺑﺎ ﺍﻧﺘﺨﺎﺏ ﻳﻚ ﺳﻄﺢ ﺁﺳﺘﺎﻧﻪ، ﺗﺼﺎﻭﻳﺮ ﺳﻄﺢ ﺧﺎﻛﺴﺘﺮﻱ ﻳﺎ ﺭﻧﮕﻲ ﺭﺍ ﺑﻪ ﺗﺼﺎﻭﻳﺮ ﺑﺎﻳﻨﺮﻱ ﺗﺒﺪﻳﻞ ﻧﻤﻮﺩ. دو ﺭﻭﺵ ﺍﻋﻤﺎﻝ ﺳﻄﺢ ﺁﺳﺘﺎﻧﻪ ﻋﺒﺎﺭﺗﻨﺪ ﺍﺯ سراسری (Global) و محلی (Local). ﺩﺭ ﺭﻭﺵ ﺍﻋﻤﺎﻝ ﺳﻄﺢ ﺁﺳﺘﺎﻧﺔ ﺳﺮﺍﺳﺮﻱ، ﻣﻘﺪﺍﺭ ﺳﻄﺢ ﺁﺳﺘﺎﻧﻪ ﺑﺮﺍﻱ ﻛﻞ ﺗﺼﻮﻳﺮ ﺳﻨﺪ ﺍﻧﺘﺨﺎﺏ ﻣﻲ شود. ﺍﻳﻦ ﻣﻘﺪﺍﺭ ﺍﻏﻠﺐ ﺑﺮ ﻣﺒﻨﺎﻱ ﺗﺨﻤﻴﻨﻲ ﺍﺯ سطح ﭘﺲ ﺯﻣﻴﻨﻪ ﻛﻪ ﺍﺯ ﻫﻴﺴﺘﻮﮔﺮﺍﻡ ﺳﻄﺢ ﺭﻭﺷﻨﺎﻳﻲ ﺗﺼﻮﻳﺮ ﻣﺤﺎﺳﺒﻪ ﻣﻲگردد، ﺳﻨﺠﻴﺪﻩ ﻣﻲ ﺷﻮﺩ. روش اعمال ﺳﻄﺢ ﺁﺳﺘﺎﻧﺔ ﻣﺤﻠﻲ ( ﺗﻄﺒﻴﻘﻲ ) ﺑﺮﺍﺳﺎﺱ اطلاعات ﻧﻮﺍﺣﻲ ﻣﺤﻠﻲ، ﺍﺯ ﻣﻘﺎﺩﻳﺮ ﻣﺘﻔﺎﻭﺗﻲ ﺑﺮﺍﻱ ﻫﺮ ﭘﻴﻜﺴﻞ ﺍﺳﺘﻔﺎﺩﻩ ﻣﻲ ﻛﻨﺪ. ﻣﻘﺎﻳﺴﻪ ﺍﻱ ﺑﻴﻦ ﺗﻜﻨﻴﻜﻬﺎﻱ ﻣﻌﻤﻮﻝ ﺍﻋﻤﺎﻝ ﺳﻄﺢ ﺁﺳﺘﺎﻧﻪ ﺑﺼﻮﺭﺕ ﺳﺮﺍﺳﺮﻱ ﻭ ﻣﺤﻠﻲ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻳﻚ ﻣﻌﻴﺎﺭ ﺍﺭﺯﻳﺎﺑﻲ ﺍﻧﺠﺎﻡ ﭘﺬﻳﺮﻓﺘﻪ ﺍﺳﺖ. ﺍﻳﻦ ﻣﻌﻴﺎﺭ ﺍﺭﺯﻳﺎﺑﻲ ﻋﺒﺎﺭﺕ ﺍﺳﺖ ﺍﺯ ﻣﻘﺎﻳﺴﺔ ﺩﻗﺖ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺻﺤﻴﺢ ﻳﻚ ﺳﻴﺴﺘﻢ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﺑﺎ ﺍﻋﻤﺎﻝ ﺗﻜﻨﻴﻜﻬﺎﻱ ﻣﺨﺘﻠﻒ ﺳﻄﺢ ﺁﺳﺘﺎﻧﻪ ﮔﺬﺍﺭﻱ.

3-2-ﻧﺎﺯﻙ ﺳﺎﺯﻱ

ﺍﻳﻦ ﻋﻤﻞ ﺩﺭﺣﺎﻟﻴﻜﻪ ﻛﺎﻫﺶ ﻗﺎﺑﻞ ﻣﻼﺣﻈﻪای ﺩﺭ ﺣﺠﻢ ﺩﺍﺩﻩ ایجاد میﻛﻨﺪ، اطلاعات ﺷﻜﻠﻲ ﻛﺎﺭﺍﻛﺘﺮ ﺭﺍ ﻧﻴﺰ ﺍﺳﺘﺨﺮﺍﺝ می ﻧﻤﺎﻳﺪ. ﺩﻭ ﺭﻭﺵ ﭘﺎﻳﻪ ﺑﺮﺍﻱ ﻧﺎﺯﻙ ﺳﺎﺯﻱ ﻋﺒﺎﺭﺗﻨﺪ ﺍﺯ :
–    ﻧﺎﺯﻙ ﺳﺎﺯﻱ ﺍﺯ ﻃﺮﻳﻖ ﭘﻴﻜﺴﻞ
–    ﻧﺎﺯﻙ ﺳﺎﺯﻱ ﻏﻴﺮ ﺍﺯ ﻃﺮﻳﻖ ﭘﻴﻜﺴﻞ
ﻧﺎﺯﻙ ﺳﺎﺯﻱ ﺍﺯ ﻃﺮﻳﻖ ﭘﻴﻜﺴﻞ ﺑﺼﻮﺭﺕ ﻣﺤﻠﻲ ﻭ ﺗﻜﺮﺍﺭﻱ ﺗﺼﻮﻳﺮ ﺭﺍ ﻣﻮﺭﺩ ﭘﺮﺩﺍﺯﺵ ﻗﺮﺍﺭ ﻣﻲ ﺩﻫﺪ ﺗﺎ ﻭﻗﺘﻲ ﻛﻪ ﺍﺯ ﺗﺼﻮﻳﺮ ﻛﺎﺭﺍﻛﺘﺮ ﺗﻨﻬﺎ ﺍﺳﻜﻠﺖ ﺁﻥ ﺑﻪ ﻋﺮﺽ ﻳﻚ ﭘﻴﻜﺴﻞ ﺑﺎﻗﻲ ﺑﻤﺎﻧﺪ. ﺍﻳﻦ ﺭﻭﺵ ﻧﺴﺒﺖ ﺑﻪ ﻧﻮﻳﺰ ﺑﺴﻴﺎﺭ ﺣﺴﺎﺱ ﺑﻮﺩﻩ، ﻣﻤﻜﻦ ﺍﺳﺖ ﺗﺼﻮﻳﺮ ﻛﺎﺭﺍﻛﺘﺮ ﺭﺍ ﻣﺨﺪﻭﺵ ﺳﺎﺯﺩ. ﺍﺯ ﺳﻮﻱ ﺩﻳﮕﺮ، ﺭﻭﺷﻬﺎﻱ ﻧﺎﺯﻙ ﺳﺎﺯﻱ ﻏﻴﺮ ﺍﺯ ﻃﺮﻳﻖ ﭘﻴﻜﺴﻞ، ﻃﻲ ﻓﺮﺍﻳﻨﺪ ﻧﺎﺯﻙ سازی ﻣﻘﺪﺍﺭﻱ ﺍﺯ اطلاعات ﺳﺮﺍﺳﺮﻱ ﺩﺭﺑﺎﺭﺓ ﻛﺎﺭﺍﻛﺘﺮ ﺭﺍ ﻣﻮﺭﺩ ﺍﺳﺘﻔﺎﺩﻩ ﻗﺮﺍﺭ ﻣﻲ ﺩﻫﻨﺪ. ﺍﻳﻦ ﺭﻭﺷﻬﺎ ﻳﻚ ﺧﻂ ﻣﺮﻛﺰﻱ ﻳﺎ ﻣﻴﺎﻧﺔ ﺑﺨﺼﻮﺹ ﺍﺯ ﺗﺼﻮﻳﺮ ﭘرتر ﺭﺍ ﺑﺪﻭﻥ ﺁﺯﻣﺎﻳﺶ ﻫﻤﺔ ﭘﻴﻜﺴﻠﻬﺎ ﺗﻮﻟﻴﺪ ﻣﻲ نمایند.

4-ﺑﺎﺯﺷﻨﺎﺳﻲ ﺧﻂ ، ﺯﺑﺎﻥ ﻭ ﻓﻮﻧﺖ 

ﺑﺎﺯﺷﻨﺎﺳﻲ ﺧﻂ، ﺗﻌﺪﺍﺩ ﻛﻼﺳﻬﺎﻱ ﻣﺨﺘﻠﻒ ﺳﻤﺒﻞ ﻛﻪ ﺑﺎﻳﺴﺘﻲ ﻣﻮﺭﺩ ملاحظه ﻗﺮﺍﺭ ﮔﻴﺮﻧﺪ ﺭﺍ ﻛﺎﻫﺶ ﻣﻲ ﺩﻫﺪ. ﺷﻨﺎﺳﺎﻳﻲ ﺯﺑﺎﻥ ﻣﺘﻦ در پیش پردازش، ﺑﻤﻨﻈﻮﺭ ﺑﻜﺎﺭﮔﻴﺮﻱ ﻣﺪﻟﻬﺎﻱ ﻣﺘﻨﻲ ﺧﺎﺹ ﺿﺮﻭﺭت دارد. ﻃﺒﻘﻪ ﺑﻨﺪﻱ ﻓﻮﻧﺘﻬﺎ، ﺗﻌﺪﺩ ﺷﻜﻠﻬﺎﻱ ﻣﺨﺘﻠﻒ ﺣﺮﻭﻑ ﺩﺭ ﻫﺮ ﻛﻼﺱ كه می‌بایست ﺩﺭ ﻓﺮﺍﻳﻨﺪ ﺑﺎﺯﺷﻨﺎﺳﻲ ﻟﺤﺎﻅ ﮔﺮﺩﺩ ﺭﺍ ﻛﺎﻫﺶ می‌دهد و سبب می‌شود كه امر شناسایی، تنها به یك كلاس فونت محدود گردد. ﺑﺎﺯﺷﻨﺎﺳﻲ خط و ﺯﺑﺎﻥ ﻭ ﻓﻮﻧﺖ ﺩﺭ ﻛﺎﺭﺑﺮﺩﻫﺎﻳﻲ ﻣﺎﻧﻨﺪ ﻧﻤﺎﻳﻪ سازی و ﺩﺳﺘﻜﺎﺭﻱ ﺍﺳﻨﺎﺩ نیز مطلوب می باشد.

منبع

تاریخچه OCRدر ایران

 ocr در ایران چگونه آغاز شد؟ 

ماجرا از ثبت‌نام داوطلبان آزمون «سازمان ملی پرورش استعدادهای درخشان (تیزهوشان)» در سال 1380 ‎آغاز شد. ثبت‌نام از روی فرم‌هایی كه توسط دانش‌آموزان تكمیل می‌شد انجام می‌گرفت. دانش‌آموزان شركت‌كننده در آزمون ــ مانند آزمون‌های سراسری ــ باید نام، نام خانوادگی، نام پدر، نام شهرستان محل تولد و سكونت، نام مدرسه و دین خود را در داخل كادرهای مربعی شكل و به صورت حروف مقطع (یعنی هر حرف داخل یك كادر) می‌نوشتند. وقتی كه همة فرم‌ها از طریق پست به سازمان مركزی برگزاركننده آزمون می‌رسید، عدة زیادی تایپیست متن آنها را دوباره وارد رایانه می‌كردند. در واقع همان حرف‌های داخل كادر را دوباره تایپ می‌كردند تا اطلاعات شناسنامه‌ای هر دانش‌آموز به صورت دیجیتالی درآید. این روش هم بسیار زمان‌بُر بود و هم نیاز به تعداد زیادی تایپیست داشت. احتمال داشت كه تایپیست‌ها هم هنگام تایپ اشتباه كنند و با ثبت نادرست یك نام، مشخصات فردی در رایانه مركزی وارد شود كه اصلاً متولد نشده است! مثلاً فرض كنید تایپیست محترم نام «جواد» را، كه داخل كادرها به صورت «ج.و.ا.د» نوشته شده بود،« فؤاد» تایپ می‌كرد؛ در آن صورت در كارت شناسایی جواد سابق، فؤاد فعلی ثبت می‌شد! (جوادِ موجود حذف می‌شد و فؤاد ناموجود وارد فهرست داوطلبان می‌شد!) افزون بر این، هزینة كار نیز بسیار زیاد بود.
به علت همین مشكلات، در بهمن‌ماه 1380، نخستین طرح OCR برای بازشناسی حروف فارسی توسط كامپیوتر ارائه شد و در سال‌های 1381 و 1382 نیز ثبت‌نام آزمون تیزهوشان به یاری این نرم‌افزار انجام شد.
در زبان‌های دیگر، به ویژه زبان‌هایی كه با حروف لاتینی نوشته می‌شوند، سال‌هاست كه از OCR استفاده می‌شود. اما در ایران تازه دو سه سالی است كه به فكر استفاده از OCR در زبان فارسی افتاده‌ایم.
و اما OCR چند نوع است: یا تایپی است یا دست‌نویس. یعنی یا باید یك متن قبلاً تایپ شده را (مثل كتاب‌ها و روزنامه‌های چندین سال قبل، یا حتی متنی را كه فایل تایپی آن موجود نیست و فقط پرینت آن را داریم) وارد رایانه كنیم، یا متن دست‌نویس را. متن‌های دست‌نویس هم به دو صورت «گسسته» و «پیوسته» وجود دارند: متن «دست‌نویس پیوسته» مثل همان چیزهایی است كه ما هر از گاهی كه دلمان تنگ می‌شود روی كاغذ می‌نویسیم، یا یك نامه، یا یك قطعه شعر و … اما متن «دست‌نویس گسسته» همان نوشته‌‌هایی است كه حروف آن جدا از هم و به صورت گسسته نوشته شده‌اند، مثل نام و نام‌خانوادگی كه در فرم‌های آزمون ثبت‌نام، به صورت هر حرف داخل یك كادر، نوشته می‌شوند. طراحی OCR گسستة فارسی تقریباً در مراحل پایانی كار قرار دارد ولی، OCR پیوسته ظاهراً سال‌های زیادی كار می‌برد. «رضا صدیق» و «پرویز رزازی»، كه در رشتة مخابرات تحصیل كرده‌اند و مسئولان یك شركت كامپیوتری به نام «اندیشه نرم‌افزار پایا» هستند، برای اولین بار به طور جدی پروژة OCR فارسی را دنبال كرده‌اند. رزازی كه دانشجوی مخابرات و مسئول بخش پردازش سیگنال شركت «پایا» و مدیر پروژة OCR در این شركت است، می‌گوید : « OCR در دنیا موضوعی ناشناخته نیست، و بر روی آن زیاد كار شده است، ولی در ایران با آنكه مدت‌هاست روی آن كار شده، اما بسیاری از این كارها در حد كارهای دانشگاهی و مقاله‌های علمی باقی‌مانده بود و تبدیل به یك محصول كاربردی در ابعاد وسیع (مثل ثبت‌نام آزمون‌های بزرگ) نشده بود. ما بر روی این طرح كار كردیم و هدفمان هم این بود كه محصول را به شكل صنعتی آن تولید كنیم. البته غیر از شركت «پایا»، دو شركت دیگر نیز با حمایت دبیرخانه طرح «تكفا» (توسعه كاربرد فناوری اطلاعات و ارتباطات) مشغول پژوهش و آزمایش بر روی OCR فارسی هستند. یكی از این شركت‌ها «داده‌پردازان دوران نوین» نام دارد كه مدیریت آن را دكتر «حسام فیلی» بر عهده دارد. دكتر فیلی متخصص در رشتة هوش مصنوعی، از دانشگاه صنعتی شریف، است و شركت «دوران نوین» را از سال 1381، با هدف كار تخصصی بر روی پروژه‌های هوش مصنوعی تأسیس كرده است. او دربارة چگونگی پیوستن شركتش به این طرح می‌گوید: «از تیرماه سال 82 با شروع فعالیت طرح «تكفا» و حمایت‌های مالی آنها، این شركت تصمیم گرفت كه در زمینة طراحی OCR فارسی پژوهش و فعالیت كند. این پروژه در شركت «دوران نوین» با همكاری آقای دكتر «ابراهیمی مقدم» كه او هم از دانشجویان دورة دكتری هوش مصنوعی دانشگاه صنعتی شریف است، انجام می‌گیرد.
ﭘﻴﺪﺍﻳﺶ ﻋﻠﻮﻡ ﻭ ﻓﻨﻮﻥ ﺟﺪﻳﺪ، ﺟﻮﺍﻣﻊ ﺑﺸﺮﻱ ﺭﺍ ﺑﺎ ﺷﻜﻠﻬﺎﻱ ﻣﺨﺘﻠﻔﻲ ﺍﺯ اطلاعات ﺭﻭﺑﺮﻭ ﻧﻤﻮﺩﻩ است ﺳﻄﺢ ﺗﻮﺳﻌﺔ ﻳﻚ ﺟﺎﻣﻌﻪ ﺭﺍ ﻣﻲ ﺗﻮﺍﻥ ﺑﺎ ﻣﻘﺪﺍﺭ اطلاعات ﻭ ﺩﺍﻧﺶ ﺗﻮﻟﻴﺪ ﺷﺪﻩ ﺩﺭ ﺁﻥ ﺍﺭﺯﻳﺎﺑﻲ ﻛﺮﺩ. ﺗﻮﻟﻴﺪ ﻓﺰﺍﻳﻨﺪﺓ اطلاعات ﺑﻪ ﺷﻜﻠﻬﺎﻱ ﻣﺨﺘﻠﻒ ﺻﻮﺭﺕ ﻣﻲ گیرد و با درجات متفاوتی ﺍﺯ ﭘﻴﭽﻴﺪﮔﻲ ﻫﻤﺮﺍﻩ می باشد. ﺩﺭ ﻧﺘﻴﺠﻪ ﻧﻴﺎﺯ ﺑﻪ ﺳﻴﺴﺘﻤﻬﺎﻱ ﭘﺮﺩﺍﺯﺵ اطلاعات ﺑﺼﻮﺭﺕ ﺭﻭﺯﺍﻓﺰﻭﻥ ﺍﻓﺰﺍﻳﺶ ﻣﻲ یابد یكی از ﻣﺴﺎﺋﻞ ﻣﻬﻢ ﺩﺭ ﻃﺮﺍﺣﻲ ﺳﻴﺴﺘﻤﻬﺎﻱ ﻣﺪﺭﻥ ﺍﻃﻼﻋﺎﺗﻲ ﺑﺎﺯﺷﻨﺎﺳﻲ ﺧﻮﺩﻛﺎﺭ ﺍﻟﮕﻮﻫﺎ می باشد.

ﺑﺮخی ﻭﻳﮋﮔﻴﻬﺎی ﻣﺘﻮﻥ ﭼﺎپی ﻓﺎﺭسی

ﻧﮕﺎﺭﺵ ﻓﺎﺭﺳﻲ ﻭﻳﮋﮔﻴﻬﺎﻱ ﻣﻨﺤﺼﺮ ﺑﻪ ﻓﺮﺩﻱ ﺩﺍﺭﺩ ﻛﻪ ﺁﻥ ﺭﺍ ﻛﺎﻣﻼً ﺍﺯ ﻧﮕﺎﺭﺵ لاتین ﻣﺘﻤﺎﻳﺰ ﻣﻲسازد.
ﺑﻤﻨﻈﻮﺭ ﻓﻌﺎﻟﻴﺖ ﺩﺭ ﺯﻣﻴﻨﺔ OCR فارسی ﺁﮔﺎﻫﻲ ﺍﺯ ﻗﻮﺍﻧﻴﻦ ﻧﮕﺎﺭﺷﻲ ﻭ ﻧﺤﻮﺓ ﭼﺎﭖ ﺣﺮﻭﻑ ﺩﺭ ﺍﻳﻦ ﺯﺑﺎﻥ ﺍﻣﺮﻱ ﺿﺮﻭﺭﻱ ﺍﺳﺖ. ﺩﺭ ﺍﻳﻨﺠﺎ ﺑﻪ ﻭﻳﮋﮔﻴﻬﺎﻱ ﻛﻠﻲ ﻧﮕﺎﺭﺵ ﻓﺎﺭﺳﻲ ﺍﺷﺎﺭﻩ ﻣﻲ ﺷﻮﺩ :

1-    ﻣﺘﻮﻥ ﻓﺎﺭﺳﻲ ﺑﺮﺧﻼﻑ متون لاتین ﺍﺯ ﭼﭗ ﺑﻪ ﺭﺍﺳﺖ ﻧﻮﺷﺘﻪ ﻣﻲشود.
2-     ﺩﺭ ﻛﻠﻤﺎﺕ ﻓﺎﺭﺳﻲ ﺑﺮﺧﻲ ﺍﺯ ﺣﺮﻭﻑ ﺍﺯ ﻳﻚ ﻳﺎ ﺩﻭ ﻃﺮﻑ ﺑﻪ ﺣﺮﻭﻑ ﻣﺠﺎﻭﺭ ﺧﻮﺩ ﺍﺗﺼﺎﻝ ﺩﺍﺷﺘﻪ ﻭ ﺑﺮﺧﻲ ﻧﻴﺰ ﺑﺼﻮﺭﺕ ﻣﺠﺰﺍ ﻧﻮﺷﺘﻪ ﻣﻲ ﺷﻮﻧﺪ. ﺩﺭ ﻧﺘﻴﺠﻪ ﻫﺮ ﻛﻠﻤﻪ ﻣﻤﻜﻦ ﺍﺳﺖ ﺷﺎﻣﻞ ﻳﻚ ﻳﺎ ﭼﻨﺪ ﺑﺨﺶ ﻣﺘﺼﻞ ﺑﺎﺷﺪ ﻛﻪ « ﺯﻳﺮﻛﻠﻤﻪ » ﻧﺎﻣﻴﺪﻩ ﻣﻲ ﺷﻮﻧﺪ. (الف)
3-    ﺣﺮﻭﻑ ﻓﺎﺭﺳﻲ ﻣﻲﺗﻮﺍﻧﻨﺪ ﭼﻬﺎﺭ ﻣﻮﻗﻌﻴﺖ ﻣﺠﺰﺍ ﻭ ﺩﺭ ﻧﺘﻴﺠﻪ ﭼﻬﺎﺭ ﺷﻜﻞ ﻣﺘﻔﺎﻭﺕ ﻧﮕﺎﺭﺵ ﺩﺍﺷﺘﻪ باشند. ﺣﺮﻭﻑ ﺍﺑﺘﺪﺍﻳﻲ، ﻣﻴﺎﻧﻲ، ﺍﻧﺘﻬﺎﻳﻲ ﻭ ﻣﺠﺰﺍ. (ب)
4-     ﺣﺮﻭﻑ ﻭﺍﻗﻊ ﺩﺭ ﻳﻚ ﻛﻠﻤﻪ ﻣﻤﻜﻦ ﺍﺳﺖ ﻫﻤﭙﻮﺷﺎﻧﻲ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ، ﺑﺪﻳﻦ ﻣﻌﻨﻲ ﻛﻪ ﻧﺘﻮﺍﻥ ﺑﺎ ﺭﺳﻢ ﺧﻄﻮﻁ ﻋﻤﻮﺩﻱ، ﺣﺮﻭﻑ ﺭﺍ ﺑﻄﻮﺭ ﻛﺎﻣﻞ ﺍﺯ ﻳﻜﺪﻳﮕﺮ ﻣﺠﺰﺍ ﻧﻤﻮﺩ. (ج)
5-    ﺑﺮﺧﻲ ﺍﺯ ﻓﻮﻧﺘﻬﺎ ﺑﻌﻀﻲ ﺍﺯ ﺣﺮﻭﻑ ﺩﺭ ﺩﻭ ﻣﺤﻞ ﺑﻪ ﻳﻜﺪﻳﮕﺮ ﺍﺗﺼﺎﻝ ﺩﺍﺭﻧﺪ (د)
6-    ﺑﺮﺧﻲ ﺍﺯ ﺣﺮﻭﻑ ﺑﻴﻦ ﻳﻚ ﺗﺎ ﺳﻪ ﻋﺪﺩ ﻧﻘﻄﻪ ﺩﺍﺭﻧﺪ ﻛﻪ ﻣﻤﻜﻦ ﺍﺳﺖ ﺩﺭ ﺑﺎﻻ ﻳﺎ ﭘﺎﻳﻴﻦ ﺑﺪﻧﺔ ﺣﺮﻑ ﻭﺍﻗﻊ ﺑﺎﺷﻨﺪ.
7-    ﺩﺭ ﺑﻌﻀﻲ ﺍﺯ ﺣﺮﻭﻑ ﺑﺪﻧﺔ ﻣﺸﺎﺑﻪ ﺩﺍﺭﻧﺪ ﻭ ﺗﻔﺎﻭﺕ ﺁﻧﻬﺎ ﺗﻨﻬﺎ ﺩﺭ ﺗﻌﺪﺍﺩ ﻭ ﻣﺤﻞ ﻗﺮﺍﺭﮔﻴﺮﻱ ﻧﻘﺎﻁ ﺁﻧﻬﺎﺳﺖ (ﻩ)
8-    ﺣﺮﻭﻑ ﻓﺎﺭﺳﻲ ﻣﻲ ﺗﻮﺍﻧﻨﺪ ﺩﺭ ﺑﺎﻻ ﻳﺎ ﭘﺎﻳﻴﻦ ﺑﺪﻧﺔ ﺧﻮﺩ ﺩﺍﺭﺍﻱ ﺍﻋﺮﺍﺏ ﺑﺎﺷﻨﺪ. سه اعراب ﺩﺭ ﺯﺑﺎﻥ ُ  ِ  َ در زبان فارسی ﺍﻋﺮﺍﺑﻬﺎﻱ ﺍﺻﻠﻲ ﺑﻮﺩﻩ و ﺍﻋﺮﺍﺏ ً ﺩﺭ ﺑﺮﺧﻲ ﻛﻠﻤﺎﺕ ﻋﺮﺑﻲ ﺭﺍﻳﺞ ﺩﺭ ﺯﺑﺎﻥ ﻓﺎﺭﺳﻲ ﺩﻳﺪﻩ ﻣﻲ ﺷﻮﺩ. ﻛﻠﻤﺎﺕ ﻋﺮﺑﻲ ﺩﺍﺭﺍﻱ اعراب  ٍ   ٌ  ﺩﺭ ﺯﺑﺎﻥ ﻓﺎﺭﺳﻲ ﻋﻤﻮﻣﻴﺖ ندارد.
9-    ﺩﺭ ﺑﺎﻻﻱ ﺑﺪﻧﺔ ﻳﻚ ﺣﺮﻑ ﻣﻤﻜﻦ ﺍﺳﺖ ﻋﻼﻣﺖ ﺗﺸﺪﻳﺪ ﻭﺟﻮﺩ ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ.
10-ﺑﺮﺧﻲ ﺍﺯ ﺣﺮﻭﻑ ﺷﺎﻣﻞ ﻫﻤﺰﻩ ﻫﺴﺘﻨﺪ.
11-ﺣﺮﻭﻓﻲ ﻛﻪ ﺍﺯ ﻃﺮﻑ ﭼﭗ ﻗﺎﺑﻠﻴﺖ ﺍﺗﺼﺎﻝ ﺑﻪ ﺣﺮﻑ ﻣﺠﺎﻭﺭ ﺧﻮﺩ ﺭﺍ ﺩﺍﺭﻧﺪ، ﻣﻲ ﺗﻮﺍﻧﻨﺪ ﺑﺼﻮﺭﺕ ﻛﺸﻴﺪﻩ ﻧﻮﺷﺘﻪ ﺷﻮﻧﺪ.
ﺑﺎﺯﺷﻨﺎﺳﻲ ﺣﺮﻭﻑ ﺧﻮﺩ ﺯﻳﺮﻣﺠﻤﻮﻋﻪ ﺍﺯ ﺩﺳﺘﺔ بزرگی از ﺗﻜﻨﻴﻜﻬﺎ ﺑه نامﺁﻧﺎﻟﻴﺰ ﺍﺳﻨﺎﺩ ﺍﺳﺖ ﻛﻪ ﻣﺒﺤﺚ ﺍﺻﻠﻲ ﺍﻳﻦ ﻃﺮﺡ می باشد.
هدف از مبحث آنالیز اسناد، شناسایی اجزای متنی، گرافیكی و عكس در تصاویر اسناد و استخراج اطلاعات مورد نظر از آنها می باشد. آنایز اسناد مشتمل بر كلیه مراحل پردازشی است كه محتویات یك سند اسكن یا دورنگاری شده چند صفحه ای را به یك فرم الكترونیكی مناسب كد می كنند. این كد كردن می توان چندین شكل داشته باشد : یك توصیف قابل ویرایش، یك نمایش فشرده كه تصویر سند از ان قابل بازیابی باشد و یا یك توصیف معناشناختی سطح بالا كه به منظور پاسخگویی به پرس و جوها می توان بكار رود.
منبع