آراکس، OCR فارسی

21

OCR، مخفف Optical character recognition یا شناسایی نوری کاراکترهاست. به نرم‌افزاری که بتواند، صفحات اسکن‌ شده را به فرمت متنی تبدیل کند، نرم‌افزار OCR‌گفته می‌شود.

دانشجویی را تصور کنید که در حال نوشتن پایان‌نامه خودتان است و می‌خواهد مثلا در بخش مقدمه و مرور منابع، به متن‌های چند کتاب مرجع استناد کند، در عین حال وقت کمی دارد و فرصتی برای تایپ نوشته‌ها ندارد. در این زمان او حتما آرزو می‌کرد که نرم‌افزار معجره‌گری وجود داشت که به صورت خودکار، عکس نوشته‌ها را به متن تبدیل می‌کرد.

محققی را در نظر بگیرید که مجبور است در کتاب خود، به ده‌ها کتاب و نوشته استناد کند، وبلاگ‌نویسی را در نظر بگیرید که می‌خواهد مطلب جالبی را که در مجله‌ای خوانده برای خوانندگانش بنویسد، فردی را در نظر بگیرید که می‌خواهد کتابی را الکترونیک کند و در گوشی موبایل خود جای بدهد، اداره‌ و سازمانی را در نظر بگیرید که قصد دیجیتال کردن، استاد خود را دارد، … در همه این موارد نرم‌افزار OCR که تعریفش پیشتر آمد، می‌تواند یاری‌رسان باشد.

در دید کلان، OCR یک زمینه تحقیقی گسترده است که هوش مصنوعی، شناسایی طرح‌ها و دید ماشینی را در در برمی‌گیرد و قطعا در آینده کاربردهای بیشتری هم پیدا خواهد کرد.

شاید فکر کنید که تاریخچه OCR به بیش از یکی دو دهه پیش برنمی‌گردد ولی چنین تصوری درست نیست.

نخستین بار در سال ۱۹۲۹ یک آلمای به نام گوستاو توشک Gustav Tauschek، امتیاز OCR را ثبت کرد. پرواضح که OCR او یک نرم‌افزار نبود بلکه یک ماشین مکانیکی بود که مجهز به قالب‌های پیش‌فرض و یک وسیله تشخیص نور بود.

در سال ۱۹۵۰، دیوید شفارد David H. Shepard، یک متخصص برجسته کشف رمز نیروهای مسلح آمریکا، وسیله‌ای به نام Gismo ساخت که کارش تبدیل نوشته‌های چاپی به زبان ماشین بود. سپس او شرکتی به نام IMR بنا نهاد که نخستین OCR تجاری چندمنظوره را عرضه کرد. ریدر دایجست و شرکت نفتی استاندارد اویل نخستین خریداران این OCR‌ بودند.

شرکت‌های پست آمریکا و بریتانیا از سال ۱۹۶۵ برای سر و سامان دادن و مکانیزه کردن سامانه‌های خود از OCR استفاده می‌کردند.

اما صرف‌نظر از این پیشینه تاریخی، با وجود اینکه سالها بود نرم‌افزارهای بسیار کارای OCR به زبان انگلیسی و بعضی از زبان‌های دیگر در اختیار کاربران قرار داده شده بود، خبری از OCR فارسی نبود.

موانع زیادی بر سر نوشتن OCR فارسی و تکامل آن وجد دارد: عدم احترام به کپی رایت، پیچیدگی‌های زبان فارسی، نبود سرمایه‌گذار، کم بودن بازار خرید، عدم آشنایی شرکت‌های با OCR، استاندارد نبودن فونت‌های فارسی و …

شخصا از زمانی که چند سال پیش، یه دستگاه اسکنر خریدم، به کاربردهای OCR پی بردم و همواره منتظر بودم که بتوانم OCR خوبی در بازار پیدا کنم، اما OCRهای مشهور یا از زبان فارسی پشتیبانی نمی‌کردند و یا عملکردشان در مورد زبان فارسی آنقدر بد بود که کاربر مجبور به ویرایش اساسی متن تبدیلی می‌شد و از انجا که این OCRها برای عرب‌زبان‌ها نوشته می‌شدند، در مورد حروف پ چ گ ژ ، هم مشکل عمده داشتند.

چند هفته پیش از طریق یکی از دوستان وبلاگی با OCR یا نویسه‌خوان آراکس آشنا شدم، با لطف ایشان و مسئولین سیستم هدی سیستم، یک نسخه از این نرم‌افزار برای من ارسال شد و الان مدتی است که من این نرم‌افزار را روی سیستمم دارم.

arax (2).jpg

استفاده از نویسه‌خوان آراکس در حال حاضر به سبب قیمتش، بیشتر مناسب شرکت‌ها و کتابخانه‌ها و مؤسسات تحقیقاتی و اداره‌های دولتی است. امیدوارم که در آینده و با سیاست‌های حمایتی از نویسندگان نرم‌افزارهای دسترسی به این نرم‌افزار برای همگی میسر شود.

خوب! بیایید یک مقایسه سریع بین آراکس و یکی از مشهورترین OCRهای موجود در بازار یعنی ریدآیریس Readiris داشته باشیم و یک نوشته اسکن شده را به خورد این دو نرم‌افزار بدهیم تا ببینیم چه تفاوت‌ عملکردی با هم دارند.

در مورد هر دو نرم‌افزار باید متن چاپی را با وضوح خوبی مثلا ۳۰۰ DPI، اسکن کنید.

چیزی که نخست در مورد آراکس جلب نظر می‌کند، رایط گرافیکی خوب آن است. خوب! حالا برای تست من یک صفحه از یکی از رمان‌ها را انتخاب می‌کنم و به هر دو نرم‌افزار می‌دهم، نتیجه کار را ببینید:

arax (3).gif

در کادر بزرگ نتیجه کار آراکس و در کادر برنامه نت پد، نتیجه کار ریدآیریس را می‌بینید و می‌بینید که آراکس بسیار کاراتر و بی‌اشتباه تر عمل کرده است.

اما آراکس ویژگی‌های جانبی دیگری هم دارد که آن را تا متمایز می‌کند، بعد از اسکن و خوانش و تبدیل اولیه متن اسکن‌شده، لازم است که برای کنترل درستی تبدیل، یک بار متن خوانده شود و با متن اصلی مقابله شود. آراکس چنین کاری را بسیار آسان می‌کند، چون یک غلط‌یاب خوب دارد، به علاوه وقتی در پنجره برنامه روی یک کلمه کلیک کنید، نسخه تصویری کلمه را خواهید دید، چنین چیزی ویرایش متن را بسیار ساده و سریع می‌کند:

arax (4).gif

خوب در همینجا تست دیگری می‌کنیم و برای دشوارتر کردن کار، این بار متنی رااز یک مجله اسکن می‌کنیم، مجله فونت ریزتری دارد و بنابراین انتظار داریم وضوح تصاویر اسکن‌شده پایین‌تر باشد، به علاوه رنگ پشت زمینه هم ممکن است تا حدی کار OCR را مختل کند. متن آبی نتیجه کار آراکس و متن با قلم مشکلی، نتیجه کار ریدآیریس است

arax (1).gif

حتما به سایت آراکس سر بزنید.

 
21 نظرات
  1. reza می گوید

    با سلام
    این برنامه که شما معرفی کردین یک کمی گرونه.اما امروزه با خرید هر دستگاه چاپگری معمولاً
    برنامه مورده نظر هم به همراه چاپگر هست.
    یک برنامه خوب و مجانی هم موجود هست که من قبلاً استفاده میکردم و میتونم به
    بقیه پیشنهاد کنم:
    simpleOCR 3.5
    که میتونید از این جا دانلود کنید
    http://simpleocr.softonic.de/

  2. شیخ شهر می گوید

    به لیست مصارف ocr خواندن نام نامزدهای انتخاباتی از روی برگ رای ها را هم اضافه کنید چیزهای اندکی اینجا هست http://sheikheshahr.blogspot.com/2008/03/blog-post_6224.html
    اگر اینطور که شما می گویید باشد که باور نکردنی است.
    فعلا ذوق مرگ شده ام .می رویم تا بیابیم این نرم افزار گهربار را.

  3. کافه فلسفه می گوید

    دکتر جان تبلیغ هفته نامه شهروند امروز هم بودها…

  4. رضا می گوید

    با سلام
    نرم افزاری به نامه readiris این کار را انجام می دهد. به سایت زیر سری بزنید و با کرک دانلود کنید. http://www.tebyan.net

  5. شهسوار می گوید

    سلام .
    شما احتمالا با Readiris9 متن را تبدیل کردید . ورژن Readiris10 کم اشتباه تر و در ضمن رایگان است .

  6. حسین می گوید

    داداش، من Iris 11.0 رو هم تست کردم، چیز تحفه‏ای که نیست بماند، مفتش هم گرونه!

  7. سجاد می گوید

    به نظر منم که نرم افزار خیلی خوبیه ولی با توجه به قیمتی که داره مطمئنم به جز شرکت‌های خصوصی بزرگ و شرکت‌های دولتی، توان خریدش برای بقیه وجود نداره.

  8. يكي از همين آرش‌ها می گوید

    البته که این نرم‌افزار بسی بهتر از اون رید‌آیریس‌ها هست! حالا هر ورژنی اما دوهزار تومن کجا و یک میلیون و ششصد و خرده‌ای تومن کجا!!

    البته خوبه که اصولاً چنین نرم‌افزاری “هست” حالا به بودجهء ما خونگی‌ها نمی‌خوره به کار مثلاً کتابخونه‌ها که میاد. (البته اگه استفاده کنند)

    یادمه یه نرم‌افزار OCR (ایرانی) دیگه‌ای هم تو بازار بود، حدود دویست تومن،‌زیاد مطمئن نیستم، ولی این یکی خیلی خداست.

  9. رهگذر می گوید

    بله شما درست میگید.
    نرم افزار واژه شناس مال شرکت هوش مصنوعی رایورز که یه سرچ بزنید سایتش پیدا میشه.
    قیمتش هم مثل اینکه حدود ۱۵۰ هزار تومان یا کمی بیشتر باشه.
    خیلی هم قوی تر از readiris 11 هست. اصلا این readiris که برای فارسی خیلی خطا داره. اگه حدودی بگم بالای ۴۰ درصد خطا داره.

  10. علاقه مند OCR می گوید

    در مورد نظر دوستمون رهگذر، باید بگویم نرم افزار واژه شناس در واقع یک نرم افزار عربی به نام صخر است که توسط شرکت رایورز کرک شده و به صورت غیر قانونی عرضه می شود. در عین حال قابلیت و کارایی آن در مقایسه با آراکس بسیار پایین تر است.

  11. مریم علوی گنجه ای می گوید

    سلام،

    دکتر جان به نظر من شما یکی از پرسنل فروش شرکت هدی سیستم هستی، حالا نمی دونم پزشکها تو واحد فروش چیکار می کنند!؟!
    من خودم چند تا عکس ۳۰۰ دی پی آی از کتاب و روزنامه اسکن کردم و به تمام شرکتهایی که در زیر اسمشونو میارم یا خودم یا از طریق دوستم آرمان دادم تا دقت OCR هاشونو مقایسه کنم :

    شرکت هوش مصنوعی رایور – نرم افزار واژه شناس نسخه ۲- http://www.aisoft.ir
    شرکت مدیانیک – نرم افزار روژاوه – http://www.medianik.com
    شرکت پرشیا نگار – نویسه خوان فارسی نسخه ۱ – http://www.persianreader.com
    بنیاد پژوهشی و رباتیک سپنتا – OCR فارسی سپنتا – http://www.srrf.net/plpl/Products/OCR
    شرکت هدی سیستم – نرم افزار آراکس – http://www.hodasystems.com

    یکی از شرکتها که اسمشم نمی یارم گفت قیمت OCR نزدیک ۷-۸ میلیون هست حالا دقتشم همچین بالا نبود و نمی دونم واقعا چرا این قیمت را برای نرم افزارشون گذاشتن، من که کلا به خاطر قیمتش بی خیالش شدم.
    ولی وقتی یه جدول برای خودم کشیدم و قیمت و نتیجه و دقت OCR تقریبی بقیه را مقایسه کردم دیدم واژه شناس با اینکه در صورت آموزش فونت با آراکس فرقی نداره قیمتش خیلی مناسبتر هست، حالا آدمهایی مثل من که ۳۲۰ هزار تومن را هم قسطی می دهند چطور بیان یک میلیون و اندی بدن پای آراکس.
    من نمی خوام از شرکت هوش مصنوعی یا کس دیگری حمایت کنم ولی قیمت آراکس به نسبت کارآیی اش خیلی زیاد هست.

    با تشکر
    مریم علوی گنجه ای

    1. حسین می گوید

      @مریم علوی گنجه ای,
      بنده مدیر سایت پرشیانگار، نویسه خوان فارسی هستم، طی دو ماه اخیر هیچ گونه تقاضایی اینچنینی نداشتیم. می‌خواهید واژ‌ه‌نشناس رایورز را تبلیغ کنید، درست تبلیغ کنید. هر آدمی که اندکی از OCR بداند، می‌داند که واژه‌نشناس همان Automatic Reader از شرکت صخر است که تنها منوهای آن فارسی شده است

      1. مریم علوی گنجه ای می گوید

        @حسین, متاسفم که من را هم ردیف خودتان قرار می دهید و حتی آمار افرادی که با شما تماس می گیرند را کامل ندارید لزوم ندارد که من در تماس با شما کامل خودم را معرفی کرده باشم کافیست کمی فکر کنید تا یادتان بیاید برای چه کسانی نرم افزارتان را تست کرده اید!
        من قصد بدگویی از هیچ شرکتی را ندارم و همه این شرکته در صورت زحمت کشیده اند و محصول ارائه داده اند حالا یا خارجی یا داخلی، برای من کارایی و قیمت مهم هست!؟!
        پس لزومی ندارد لو دهید کدام نرم افزار ۷-۸ میلیون هست….

  12. AminePouya می گوید
  13. Amin می گوید

    در رابطه با پکیج نرم افزار های ocr فارسی باید بگم که نرم افزارها تست شده و آخرین نسخه می باشد، نسخه DVD کلیه برنامه های موجود در دمو و کلیه نرم افزار های کمکی و مکمل (که در طی عملیات تبدیل زیاد به کار می رود)با قیمت ۸۰۰۰ تومان فقط برای دانشجویان و قیمت آزاد ۱۰۰۰۰ تومان می باشد این مجموعه همچنین حاوی آموزش فارسی نحوه راه اندازی برنامه ها و نحوه استفاده ازOCR فارسی می باشد.
    نرم افزارها تست شده و آخرین نسخه می باشد،
    توجه : هنوزهیچ برنامه OCR فارسی وجود ندارد که کارکتر های فارسی رو ۱۰۰ % بدون غلط تبدیل کند(حتی نرم افزار های بسیار گران قیمت ساخت داخل کشور هم هنوز نمی توانند بدون غلط عمل تبدیل را انجام بدهند) اما برنامه هایOCR این پکیج با دقت ۹۰-۸۰ % از بیست فونت مشهور فارسی پشتیبانی می کنند و اگر فایل PDF و یا عکس اسکن شده شما رزولیشن و درجه تفکیک ۳۰۰ دی پی آی به بالا داشته باشد(که به صورت مجازی نیز با نرم افزارهای ارائه شده می توان این کار را انجام داد) فایل متنِ خروجی، صحت مناسب و قابل قبولی دارد و با یک ویرایش دستی ساده کامل می شود که در مقابل هزینه پرینت و تایپ یک عکس اسکن شده یا فایل PDF بسیار مقرون به صرفه تر خواهد بود.
    از دوستانی که این پک کامل ، جدیدو بسیار مفید و ارزان را می خواهند لطفاً فقط در وقت اداری تماس بگیرند.

    ۰۹۱۳۲۰۲۳۸۱۵ aminepouya@yahoo.com

  14. محسن می گوید

    واقعا مسخره هست که یه شرکت آمریکایی هیولا رو با یه خرده شرکت مقایسه کنیم اگه واقعا زبان اونا بود که چیزایی می ساختن که باور نمی کردیم ولی فعلا به نظر میرسه که همین ورژن نهایی ۱۲ Readiris خیلی از مشکلات رو حل کرده
    هیچ احمقی هزینه رو اینجوری به کاربر تحمیل نمیکنه با IRIS که مقایسه کنید میشه فهمید سطح درامد و قدرت خرید ما و قیمت این محصول ایرانی چقدر عادلانست (بلانسبت)

  15. ایشان می گوید

    من دیروز شاهد یک تماس تلفنی با شرکت هدی سیستم برای درخواست یک SDK از نرم افزار آراکس بودم. مبلغی که شرکت درخواست کرد واقعا عالی بود، ۱۵ میلیون تومان 🙂

  16. pouya می گوید

    به نظر من همش تو ایران کلاه برداری هست

    یک مثال

    روزی که من دیدم نرم افزار مترجم پدیده و مترجم دیگه امدن تو بازار ایران که شرکت های خصوصی یعنی نوشته بودن اول این که قیمت از ۴۵۰ هزار تومان تو چند سال پیش دلار ارزان بود قیمت این بود تا یک میلون نیم

    و کارایی هم نداشتند حالا گوگل رایگان داره ترجمه میکنه فقط اینترنت میخواد

    دومین مورد اینه که تا وب سایت ocr آنلاین رایگان هست نباید

    یک نرم افزار ocr از داخل ایران بخرید همش … هست بس

    وب سایت های زیر زبان عربی را پشتیبانی میکنه استفاده کنید به جای زبان فارسی

    http://www.i2ocr.com/

    http://www.ocr-extract.com/

  17. محمد هاشمی می گوید

    سلام من یه برنامه اوسیار کاملا فارسی میخوام که آگهی های روزنامه رو به متن تبدیل کنه کسی هست به من معرفی کنه
    خیلی خیلی خیلی ممنون میشم
    خیلی وقت دنبالشم کارمم گیره این برنامه اس

  18. هادی می گوید

    سلام
    برنامه نویسه خوان آراکس اصلاً توی اینترنت موجود نیست و خرید اینترنتی هم نداره ! پس چطور میشه اونو خرید ؟ لطفاً اگه جایی برای خرید این نرم افزار هست راهنمایی گنید . با تشکر

  19. هلیا می گوید

    بله، لطفا راهنمایی بفرمایید!

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.