آراکس، OCR فارسی

21

OCR، مخفف Optical character recognition یا شناسایی نوری کاراکترهاست. به نرم‌افزاری که بتواند، صفحات اسکن‌ شده را به فرمت متنی تبدیل کند، نرم‌افزار OCR‌گفته می‌شود.

دانشجویی را تصور کنید که در حال نوشتن پایان‌نامه خودتان است و می‌خواهد مثلا در بخش مقدمه و مرور منابع، به متن‌های چند کتاب مرجع استناد کند، در عین حال وقت کمی دارد و فرصتی برای تایپ نوشته‌ها ندارد. در این زمان او حتما آرزو می‌کرد که نرم‌افزار معجره‌گری وجود داشت که به صورت خودکار، عکس نوشته‌ها را به متن تبدیل می‌کرد.

محققی را در نظر بگیرید که مجبور است در کتاب خود، به ده‌ها کتاب و نوشته استناد کند، وبلاگ‌نویسی را در نظر بگیرید که می‌خواهد مطلب جالبی را که در مجله‌ای خوانده برای خوانندگانش بنویسد، فردی را در نظر بگیرید که می‌خواهد کتابی را الکترونیک کند و در گوشی موبایل خود جای بدهد، اداره‌ و سازمانی را در نظر بگیرید که قصد دیجیتال کردن، استاد خود را دارد، … در همه این موارد نرم‌افزار OCR که تعریفش پیشتر آمد، می‌تواند یاری‌رسان باشد.

در دید کلان، OCR یک زمینه تحقیقی گسترده است که هوش مصنوعی، شناسایی طرح‌ها و دید ماشینی را در در برمی‌گیرد و قطعا در آینده کاربردهای بیشتری هم پیدا خواهد کرد.

شاید فکر کنید که تاریخچه OCR به بیش از یکی دو دهه پیش برنمی‌گردد ولی چنین تصوری درست نیست.

نخستین بار در سال 1929 یک آلمای به نام گوستاو توشک Gustav Tauschek، امتیاز OCR را ثبت کرد. پرواضح که OCR او یک نرم‌افزار نبود بلکه یک ماشین مکانیکی بود که مجهز به قالب‌های پیش‌فرض و یک وسیله تشخیص نور بود.

در سال 1950، دیوید شفارد David H. Shepard، یک متخصص برجسته کشف رمز نیروهای مسلح آمریکا، وسیله‌ای به نام Gismo ساخت که کارش تبدیل نوشته‌های چاپی به زبان ماشین بود. سپس او شرکتی به نام IMR بنا نهاد که نخستین OCR تجاری چندمنظوره را عرضه کرد. ریدر دایجست و شرکت نفتی استاندارد اویل نخستین خریداران این OCR‌ بودند.

شرکت‌های پست آمریکا و بریتانیا از سال 1965 برای سر و سامان دادن و مکانیزه کردن سامانه‌های خود از OCR استفاده می‌کردند.

اما صرف‌نظر از این پیشینه تاریخی، با وجود اینکه سالها بود نرم‌افزارهای بسیار کارای OCR به زبان انگلیسی و بعضی از زبان‌های دیگر در اختیار کاربران قرار داده شده بود، خبری از OCR فارسی نبود.

موانع زیادی بر سر نوشتن OCR فارسی و تکامل آن وجد دارد: عدم احترام به کپی رایت، پیچیدگی‌های زبان فارسی، نبود سرمایه‌گذار، کم بودن بازار خرید، عدم آشنایی شرکت‌های با OCR، استاندارد نبودن فونت‌های فارسی و …

شخصا از زمانی که چند سال پیش، یه دستگاه اسکنر خریدم، به کاربردهای OCR پی بردم و همواره منتظر بودم که بتوانم OCR خوبی در بازار پیدا کنم، اما OCRهای مشهور یا از زبان فارسی پشتیبانی نمی‌کردند و یا عملکردشان در مورد زبان فارسی آنقدر بد بود که کاربر مجبور به ویرایش اساسی متن تبدیلی می‌شد و از انجا که این OCRها برای عرب‌زبان‌ها نوشته می‌شدند، در مورد حروف پ چ گ ژ ، هم مشکل عمده داشتند.

چند هفته پیش از طریق یکی از دوستان وبلاگی با OCR یا نویسه‌خوان آراکس آشنا شدم، با لطف ایشان و مسئولین سیستم هدی سیستم، یک نسخه از این نرم‌افزار برای من ارسال شد و الان مدتی است که من این نرم‌افزار را روی سیستمم دارم.

arax (2).jpg

استفاده از نویسه‌خوان آراکس در حال حاضر به سبب قیمتش، بیشتر مناسب شرکت‌ها و کتابخانه‌ها و مؤسسات تحقیقاتی و اداره‌های دولتی است. امیدوارم که در آینده و با سیاست‌های حمایتی از نویسندگان نرم‌افزارهای دسترسی به این نرم‌افزار برای همگی میسر شود.

خوب! بیایید یک مقایسه سریع بین آراکس و یکی از مشهورترین OCRهای موجود در بازار یعنی ریدآیریس Readiris داشته باشیم و یک نوشته اسکن شده را به خورد این دو نرم‌افزار بدهیم تا ببینیم چه تفاوت‌ عملکردی با هم دارند.

در مورد هر دو نرم‌افزار باید متن چاپی را با وضوح خوبی مثلا 300 DPI، اسکن کنید.

چیزی که نخست در مورد آراکس جلب نظر می‌کند، رایط گرافیکی خوب آن است. خوب! حالا برای تست من یک صفحه از یکی از رمان‌ها را انتخاب می‌کنم و به هر دو نرم‌افزار می‌دهم، نتیجه کار را ببینید:

arax (3).gif

در کادر بزرگ نتیجه کار آراکس و در کادر برنامه نت پد، نتیجه کار ریدآیریس را می‌بینید و می‌بینید که آراکس بسیار کاراتر و بی‌اشتباه تر عمل کرده است.

اما آراکس ویژگی‌های جانبی دیگری هم دارد که آن را تا متمایز می‌کند، بعد از اسکن و خوانش و تبدیل اولیه متن اسکن‌شده، لازم است که برای کنترل درستی تبدیل، یک بار متن خوانده شود و با متن اصلی مقابله شود. آراکس چنین کاری را بسیار آسان می‌کند، چون یک غلط‌یاب خوب دارد، به علاوه وقتی در پنجره برنامه روی یک کلمه کلیک کنید، نسخه تصویری کلمه را خواهید دید، چنین چیزی ویرایش متن را بسیار ساده و سریع می‌کند:

arax (4).gif

خوب در همینجا تست دیگری می‌کنیم و برای دشوارتر کردن کار، این بار متنی رااز یک مجله اسکن می‌کنیم، مجله فونت ریزتری دارد و بنابراین انتظار داریم وضوح تصاویر اسکن‌شده پایین‌تر باشد، به علاوه رنگ پشت زمینه هم ممکن است تا حدی کار OCR را مختل کند. متن آبی نتیجه کار آراکس و متن با قلم مشکلی، نتیجه کار ریدآیریس است

arax (1).gif

حتما به سایت آراکس سر بزنید.


اگر خواننده جدید سایت «یک پزشک»  هستید!
شما در حال خواندن سایت یک پزشک (یک پزشک دات کام) به نشانی اینترنتی www.1pezeshk.com هستید. سایتی با 18 سال سابقه که برخلاف اسمش سرشار از مطالب متنوع است!
ما را رها نکنید. بسیار ممنون می‌شویم اگر:
- سایت یک پزشک رو در مرورگر خود بوک‌مارک کنید.
-مشترک فید یا RSS یک پزشک شوید.
- شبکه‌های اجتماعی ما را دنبال کنید: صفحه تلگرام - صفحه اینستاگرام ما
- برای سفارش تبلیغات ایمیل alirezamajidi در جی میل یا تلگرام تماس بگیرید.
و دیگر مطالب ما را بخوانید. مثلا:

عکس‌های دلپذیر این سلبریتی‌ها با میدجرنی نسخه پنج و این دستور ایجاد شده که شما هم می‌توانید از آن…

تصور کنید که بخواهید عکس‌هایی از شمار قابل توجهی از سلبریتی‌ها داشته باشید که همه در حال انجام یک کار واحد هستند، آن هم در یک شرایط نوری یکسان.در شرایط عادی که نمی‌شود به همه‌شان دیکته کرد که ژست مورد نظر ما را بگیرند. اما هوش مصنوعی…

عملیات گانرساید: حمله نروژ به تاسیسات آب سنگین نازی‌ها که آنها را از بمب اتمی محروم کرد

سرهنگ ارتش سلطنتی نروژ، لیف ترونستاد، پس از تحویل کپسول‌های انتحاری، به سربازانش اطلاع داد: «نمی‌توانم به شما بگویم که چرا این مأموریت اینقدر مهم است، اما اگر موفق شوید، برای صد سال در خاطره نروژ زنده خواهد ماند.»با این حال، این…

این هنرمند با استفاده از هوش مصنوعی به عنوان یک ابزار، نقاشی‌های خود را ارتقا می‌دهد

در حالی که بسیاری از هنرمندان از هوش مصنوعی فرار می‌کنند، هنرمند دیجیتالی به نام Cy Teh از امکانات خلاقانه آن استقبال کرده . او با آمیختن نقاشی‌های دیجیتال خود با هوش مصنوعی، آثار هنری ترکیبی بی نظیری خلق می‌کند که هنر او را به سطح جدیدی…

نقشه واقعی جهان: این نقشه‌های هوشمندانه، اندازه واقعی کشورهای روی کره زمین را نشان می‌دهند

وقتی به نقشه جهان نگاه می کنید، منطقی است که فرض کنید گرینلند و آفریقا از نظر اندازه مشابه هستند. اما در واقعیت، قاره آفریقا 14 برابر وسعت خشکی یخی شمال است.با احتساب تعدادی از جزایر فراساحلی، مساحت کل گرینلند 2.16 میلیون کیلومتر مربع…

سازه‌های و کارهای مهندسی کارا، زیبا و شگفت‌آور از سراسر دنیا

ساختن سازه مهندسی مسلما فقط به معنی ساختن چیزی کارا نیست. بلکه باید زیبایی سازه و تباین آن با محیط اطراف و ابعاد انسانی و فرهنگی آن در نظر گرفته شود. در ضمن امکان توسعه آن در آینده مد نظر قرار گیرد و همچنین چه بهتر که دوست‌دار محیط زیست…

آیا ماری آنتوانت واقعاً گفته بود مردمی که در قطحی نان هستند، کیک بخورند؟! حقیقت درباره یکی از…

این یکی از بدنام‌کننده‌ترین داستان‌های تاریخ است: روایت این است که ملکه ماری آنتوانت وقتی شنید که دهقانان فرانسوی آنقدر فقیر شده‌اند که توانایی خرید نان ندارند، پاسخ داد: "بگذارید کیک بخورند." این افسانه برای قرن‌ها نقل شده است و به این…
آگهی متنی در همه صفحات
دکتر فارمو / مقاله بازار / شیشه اتومبیل / نهال بادام / قیمت ایمپلنت دندان با بیمه /سپتیک تانک /بهترین دکتر لیپوماتیک در تهران /خرید میز تحریر /بهترین جراح بینی در تهران / آموزش تزریق ژل و بوتاکس / دوره های زیبایی برای مامایی / آموزش مزوتراپی، PRP و PRF / خرید نهال گردو / کاشت مو / مجتمع فنی تهران /دندانپزشکی شبانه روزی /قیمت روکش دندان /Hannover messe 2024 /خدمات پرداخت ارزی نوین پرداخت /محصولات بهداشتی ایرانی / درمان طب / قرص لاغری فایر / لیست قیمت تجهیزات پزشکی / دانلود آهنگ / سریال ایرانی کول دانلود / دانلود فیلم دوبله فارسی /داروخانه اینترنتی آرتان /جارو استخری /میکروبلیدینگ / اشتراك دايت /فروشگاه لوازم بهداشتی /شیشه اتومبیل /لیزر فوتونا /داروخانه تینا /خدمات فیزیوتراپی /لیفت صورت در تهران /فروش‌ دوربین مداربسته هایک ویژن /سرور مجازی ایران /مرکز خدمات پزشکی و پرستاری در منزل درمان نو /توانی نو /چاپ فلش / ثبت برند /حمل بار دریایی از چین /سایت نوید /پزشک زنان سعادت آباد / ایمپلنت دندان /کلاه کاسکت / لمینت متحرک دندان /فروشگاه اینترنتی زنبیل /ساعت تبلیغاتی /تجهیزات پزشکی /چاپ لیوان /خرید از آمازون /بهترین سریال های ایرانی /کاشت مو /قیمت ساک پارچه ای /تولید محتوا /دانلود نرم افزار /
21 نظرات
  1. reza می گوید

    با سلام
    این برنامه که شما معرفی کردین یک کمی گرونه.اما امروزه با خرید هر دستگاه چاپگری معمولاً
    برنامه مورده نظر هم به همراه چاپگر هست.
    یک برنامه خوب و مجانی هم موجود هست که من قبلاً استفاده میکردم و میتونم به
    بقیه پیشنهاد کنم:
    simpleOCR 3.5
    که میتونید از این جا دانلود کنید
    http://simpleocr.softonic.de/

  2. شیخ شهر می گوید

    به لیست مصارف ocr خواندن نام نامزدهای انتخاباتی از روی برگ رای ها را هم اضافه کنید چیزهای اندکی اینجا هست http://sheikheshahr.blogspot.com/2008/03/blog-post_6224.html
    اگر اینطور که شما می گویید باشد که باور نکردنی است.
    فعلا ذوق مرگ شده ام .می رویم تا بیابیم این نرم افزار گهربار را.

  3. کافه فلسفه می گوید

    دکتر جان تبلیغ هفته نامه شهروند امروز هم بودها…

  4. رضا می گوید

    با سلام
    نرم افزاری به نامه readiris این کار را انجام می دهد. به سایت زیر سری بزنید و با کرک دانلود کنید. http://www.tebyan.net

  5. شهسوار می گوید

    سلام .
    شما احتمالا با Readiris9 متن را تبدیل کردید . ورژن Readiris10 کم اشتباه تر و در ضمن رایگان است .

  6. حسین می گوید

    داداش، من Iris 11.0 رو هم تست کردم، چیز تحفه‏ای که نیست بماند، مفتش هم گرونه!

  7. سجاد می گوید

    به نظر منم که نرم افزار خیلی خوبیه ولی با توجه به قیمتی که داره مطمئنم به جز شرکت‌های خصوصی بزرگ و شرکت‌های دولتی، توان خریدش برای بقیه وجود نداره.

  8. يكي از همين آرش‌ها می گوید

    البته که این نرم‌افزار بسی بهتر از اون رید‌آیریس‌ها هست! حالا هر ورژنی اما دوهزار تومن کجا و یک میلیون و ششصد و خرده‌ای تومن کجا!!

    البته خوبه که اصولاً چنین نرم‌افزاری “هست” حالا به بودجهء ما خونگی‌ها نمی‌خوره به کار مثلاً کتابخونه‌ها که میاد. (البته اگه استفاده کنند)

    یادمه یه نرم‌افزار OCR (ایرانی) دیگه‌ای هم تو بازار بود، حدود دویست تومن،‌زیاد مطمئن نیستم، ولی این یکی خیلی خداست.

  9. رهگذر می گوید

    بله شما درست میگید.
    نرم افزار واژه شناس مال شرکت هوش مصنوعی رایورز که یه سرچ بزنید سایتش پیدا میشه.
    قیمتش هم مثل اینکه حدود 150 هزار تومان یا کمی بیشتر باشه.
    خیلی هم قوی تر از readiris 11 هست. اصلا این readiris که برای فارسی خیلی خطا داره. اگه حدودی بگم بالای 40 درصد خطا داره.

  10. علاقه مند OCR می گوید

    در مورد نظر دوستمون رهگذر، باید بگویم نرم افزار واژه شناس در واقع یک نرم افزار عربی به نام صخر است که توسط شرکت رایورز کرک شده و به صورت غیر قانونی عرضه می شود. در عین حال قابلیت و کارایی آن در مقایسه با آراکس بسیار پایین تر است.

  11. مریم علوی گنجه ای می گوید

    سلام،

    دکتر جان به نظر من شما یکی از پرسنل فروش شرکت هدی سیستم هستی، حالا نمی دونم پزشکها تو واحد فروش چیکار می کنند!؟!
    من خودم چند تا عکس 300 دی پی آی از کتاب و روزنامه اسکن کردم و به تمام شرکتهایی که در زیر اسمشونو میارم یا خودم یا از طریق دوستم آرمان دادم تا دقت OCR هاشونو مقایسه کنم :

    شرکت هوش مصنوعی رایور – نرم افزار واژه شناس نسخه 2- http://www.aisoft.ir
    شرکت مدیانیک – نرم افزار روژاوه – http://www.medianik.com
    شرکت پرشیا نگار – نویسه خوان فارسی نسخه 1 – http://www.persianreader.com
    بنیاد پژوهشی و رباتیک سپنتا – OCR فارسی سپنتا – http://www.srrf.net/plpl/Products/OCR
    شرکت هدی سیستم – نرم افزار آراکس – http://www.hodasystems.com

    یکی از شرکتها که اسمشم نمی یارم گفت قیمت OCR نزدیک 7-8 میلیون هست حالا دقتشم همچین بالا نبود و نمی دونم واقعا چرا این قیمت را برای نرم افزارشون گذاشتن، من که کلا به خاطر قیمتش بی خیالش شدم.
    ولی وقتی یه جدول برای خودم کشیدم و قیمت و نتیجه و دقت OCR تقریبی بقیه را مقایسه کردم دیدم واژه شناس با اینکه در صورت آموزش فونت با آراکس فرقی نداره قیمتش خیلی مناسبتر هست، حالا آدمهایی مثل من که 320 هزار تومن را هم قسطی می دهند چطور بیان یک میلیون و اندی بدن پای آراکس.
    من نمی خوام از شرکت هوش مصنوعی یا کس دیگری حمایت کنم ولی قیمت آراکس به نسبت کارآیی اش خیلی زیاد هست.

    با تشکر
    مریم علوی گنجه ای

    1. حسین می گوید

      @مریم علوی گنجه ای,
      بنده مدیر سایت پرشیانگار، نویسه خوان فارسی هستم، طی دو ماه اخیر هیچ گونه تقاضایی اینچنینی نداشتیم. می‌خواهید واژ‌ه‌نشناس رایورز را تبلیغ کنید، درست تبلیغ کنید. هر آدمی که اندکی از OCR بداند، می‌داند که واژه‌نشناس همان Automatic Reader از شرکت صخر است که تنها منوهای آن فارسی شده است

      1. مریم علوی گنجه ای می گوید

        @حسین, متاسفم که من را هم ردیف خودتان قرار می دهید و حتی آمار افرادی که با شما تماس می گیرند را کامل ندارید لزوم ندارد که من در تماس با شما کامل خودم را معرفی کرده باشم کافیست کمی فکر کنید تا یادتان بیاید برای چه کسانی نرم افزارتان را تست کرده اید!
        من قصد بدگویی از هیچ شرکتی را ندارم و همه این شرکته در صورت زحمت کشیده اند و محصول ارائه داده اند حالا یا خارجی یا داخلی، برای من کارایی و قیمت مهم هست!؟!
        پس لزومی ندارد لو دهید کدام نرم افزار 7-8 میلیون هست….

  12. AminePouya می گوید
  13. Amin می گوید

    در رابطه با پکیج نرم افزار های ocr فارسی باید بگم که نرم افزارها تست شده و آخرین نسخه می باشد، نسخه DVD کلیه برنامه های موجود در دمو و کلیه نرم افزار های کمکی و مکمل (که در طی عملیات تبدیل زیاد به کار می رود)با قیمت 8000 تومان فقط برای دانشجویان و قیمت آزاد 10000 تومان می باشد این مجموعه همچنین حاوی آموزش فارسی نحوه راه اندازی برنامه ها و نحوه استفاده ازOCR فارسی می باشد.
    نرم افزارها تست شده و آخرین نسخه می باشد،
    توجه : هنوزهیچ برنامه OCR فارسی وجود ندارد که کارکتر های فارسی رو 100 % بدون غلط تبدیل کند(حتی نرم افزار های بسیار گران قیمت ساخت داخل کشور هم هنوز نمی توانند بدون غلط عمل تبدیل را انجام بدهند) اما برنامه هایOCR این پکیج با دقت 90-80 % از بیست فونت مشهور فارسی پشتیبانی می کنند و اگر فایل PDF و یا عکس اسکن شده شما رزولیشن و درجه تفکیک 300 دی پی آی به بالا داشته باشد(که به صورت مجازی نیز با نرم افزارهای ارائه شده می توان این کار را انجام داد) فایل متنِ خروجی، صحت مناسب و قابل قبولی دارد و با یک ویرایش دستی ساده کامل می شود که در مقابل هزینه پرینت و تایپ یک عکس اسکن شده یا فایل PDF بسیار مقرون به صرفه تر خواهد بود.
    از دوستانی که این پک کامل ، جدیدو بسیار مفید و ارزان را می خواهند لطفاً فقط در وقت اداری تماس بگیرند.

    09132023815 aminepouya@yahoo.com

  14. محسن می گوید

    واقعا مسخره هست که یه شرکت آمریکایی هیولا رو با یه خرده شرکت مقایسه کنیم اگه واقعا زبان اونا بود که چیزایی می ساختن که باور نمی کردیم ولی فعلا به نظر میرسه که همین ورژن نهایی 12 Readiris خیلی از مشکلات رو حل کرده
    هیچ احمقی هزینه رو اینجوری به کاربر تحمیل نمیکنه با IRIS که مقایسه کنید میشه فهمید سطح درامد و قدرت خرید ما و قیمت این محصول ایرانی چقدر عادلانست (بلانسبت)

  15. ایشان می گوید

    من دیروز شاهد یک تماس تلفنی با شرکت هدی سیستم برای درخواست یک SDK از نرم افزار آراکس بودم. مبلغی که شرکت درخواست کرد واقعا عالی بود، 15 میلیون تومان 🙂

  16. pouya می گوید

    به نظر من همش تو ایران کلاه برداری هست

    یک مثال

    روزی که من دیدم نرم افزار مترجم پدیده و مترجم دیگه امدن تو بازار ایران که شرکت های خصوصی یعنی نوشته بودن اول این که قیمت از 450 هزار تومان تو چند سال پیش دلار ارزان بود قیمت این بود تا یک میلون نیم

    و کارایی هم نداشتند حالا گوگل رایگان داره ترجمه میکنه فقط اینترنت میخواد

    دومین مورد اینه که تا وب سایت ocr آنلاین رایگان هست نباید

    یک نرم افزار ocr از داخل ایران بخرید همش … هست بس

    وب سایت های زیر زبان عربی را پشتیبانی میکنه استفاده کنید به جای زبان فارسی

    http://www.i2ocr.com/

    http://www.ocr-extract.com/

  17. محمد هاشمی می گوید

    سلام من یه برنامه اوسیار کاملا فارسی میخوام که آگهی های روزنامه رو به متن تبدیل کنه کسی هست به من معرفی کنه
    خیلی خیلی خیلی ممنون میشم
    خیلی وقت دنبالشم کارمم گیره این برنامه اس

  18. هادی می گوید

    سلام
    برنامه نویسه خوان آراکس اصلاً توی اینترنت موجود نیست و خرید اینترنتی هم نداره ! پس چطور میشه اونو خرید ؟ لطفاً اگه جایی برای خرید این نرم افزار هست راهنمایی گنید . با تشکر

  19. هلیا می گوید

    بله، لطفا راهنمایی بفرمایید!

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.

••4 5