آراکس، OCR فارسی

21

OCR، مخفف Optical character recognition یا شناسایی نوری کاراکترهاست. به نرم‌افزاری که بتواند، صفحات اسکن‌ شده را به فرمت متنی تبدیل کند، نرم‌افزار OCR‌گفته می‌شود.

دانشجویی را تصور کنید که در حال نوشتن پایان‌نامه خودتان است و می‌خواهد مثلا در بخش مقدمه و مرور منابع، به متن‌های چند کتاب مرجع استناد کند، در عین حال وقت کمی دارد و فرصتی برای تایپ نوشته‌ها ندارد. در این زمان او حتما آرزو می‌کرد که نرم‌افزار معجره‌گری وجود داشت که به صورت خودکار، عکس نوشته‌ها را به متن تبدیل می‌کرد.

محققی را در نظر بگیرید که مجبور است در کتاب خود، به ده‌ها کتاب و نوشته استناد کند، وبلاگ‌نویسی را در نظر بگیرید که می‌خواهد مطلب جالبی را که در مجله‌ای خوانده برای خوانندگانش بنویسد، فردی را در نظر بگیرید که می‌خواهد کتابی را الکترونیک کند و در گوشی موبایل خود جای بدهد، اداره‌ و سازمانی را در نظر بگیرید که قصد دیجیتال کردن، استاد خود را دارد، … در همه این موارد نرم‌افزار OCR که تعریفش پیشتر آمد، می‌تواند یاری‌رسان باشد.

در دید کلان، OCR یک زمینه تحقیقی گسترده است که هوش مصنوعی، شناسایی طرح‌ها و دید ماشینی را در در برمی‌گیرد و قطعا در آینده کاربردهای بیشتری هم پیدا خواهد کرد.

شاید فکر کنید که تاریخچه OCR به بیش از یکی دو دهه پیش برنمی‌گردد ولی چنین تصوری درست نیست.

نخستین بار در سال 1929 یک آلمای به نام گوستاو توشک Gustav Tauschek، امتیاز OCR را ثبت کرد. پرواضح که OCR او یک نرم‌افزار نبود بلکه یک ماشین مکانیکی بود که مجهز به قالب‌های پیش‌فرض و یک وسیله تشخیص نور بود.

در سال 1950، دیوید شفارد David H. Shepard، یک متخصص برجسته کشف رمز نیروهای مسلح آمریکا، وسیله‌ای به نام Gismo ساخت که کارش تبدیل نوشته‌های چاپی به زبان ماشین بود. سپس او شرکتی به نام IMR بنا نهاد که نخستین OCR تجاری چندمنظوره را عرضه کرد. ریدر دایجست و شرکت نفتی استاندارد اویل نخستین خریداران این OCR‌ بودند.

شرکت‌های پست آمریکا و بریتانیا از سال 1965 برای سر و سامان دادن و مکانیزه کردن سامانه‌های خود از OCR استفاده می‌کردند.

اما صرف‌نظر از این پیشینه تاریخی، با وجود اینکه سالها بود نرم‌افزارهای بسیار کارای OCR به زبان انگلیسی و بعضی از زبان‌های دیگر در اختیار کاربران قرار داده شده بود، خبری از OCR فارسی نبود.

موانع زیادی بر سر نوشتن OCR فارسی و تکامل آن وجد دارد: عدم احترام به کپی رایت، پیچیدگی‌های زبان فارسی، نبود سرمایه‌گذار، کم بودن بازار خرید، عدم آشنایی شرکت‌های با OCR، استاندارد نبودن فونت‌های فارسی و …

شخصا از زمانی که چند سال پیش، یه دستگاه اسکنر خریدم، به کاربردهای OCR پی بردم و همواره منتظر بودم که بتوانم OCR خوبی در بازار پیدا کنم، اما OCRهای مشهور یا از زبان فارسی پشتیبانی نمی‌کردند و یا عملکردشان در مورد زبان فارسی آنقدر بد بود که کاربر مجبور به ویرایش اساسی متن تبدیلی می‌شد و از انجا که این OCRها برای عرب‌زبان‌ها نوشته می‌شدند، در مورد حروف پ چ گ ژ ، هم مشکل عمده داشتند.

چند هفته پیش از طریق یکی از دوستان وبلاگی با OCR یا نویسه‌خوان آراکس آشنا شدم، با لطف ایشان و مسئولین سیستم هدی سیستم، یک نسخه از این نرم‌افزار برای من ارسال شد و الان مدتی است که من این نرم‌افزار را روی سیستمم دارم.

arax (2).jpg

استفاده از نویسه‌خوان آراکس در حال حاضر به سبب قیمتش، بیشتر مناسب شرکت‌ها و کتابخانه‌ها و مؤسسات تحقیقاتی و اداره‌های دولتی است. امیدوارم که در آینده و با سیاست‌های حمایتی از نویسندگان نرم‌افزارهای دسترسی به این نرم‌افزار برای همگی میسر شود.

خوب! بیایید یک مقایسه سریع بین آراکس و یکی از مشهورترین OCRهای موجود در بازار یعنی ریدآیریس Readiris داشته باشیم و یک نوشته اسکن شده را به خورد این دو نرم‌افزار بدهیم تا ببینیم چه تفاوت‌ عملکردی با هم دارند.

در مورد هر دو نرم‌افزار باید متن چاپی را با وضوح خوبی مثلا 300 DPI، اسکن کنید.

چیزی که نخست در مورد آراکس جلب نظر می‌کند، رایط گرافیکی خوب آن است. خوب! حالا برای تست من یک صفحه از یکی از رمان‌ها را انتخاب می‌کنم و به هر دو نرم‌افزار می‌دهم، نتیجه کار را ببینید:

arax (3).gif

در کادر بزرگ نتیجه کار آراکس و در کادر برنامه نت پد، نتیجه کار ریدآیریس را می‌بینید و می‌بینید که آراکس بسیار کاراتر و بی‌اشتباه تر عمل کرده است.

اما آراکس ویژگی‌های جانبی دیگری هم دارد که آن را تا متمایز می‌کند، بعد از اسکن و خوانش و تبدیل اولیه متن اسکن‌شده، لازم است که برای کنترل درستی تبدیل، یک بار متن خوانده شود و با متن اصلی مقابله شود. آراکس چنین کاری را بسیار آسان می‌کند، چون یک غلط‌یاب خوب دارد، به علاوه وقتی در پنجره برنامه روی یک کلمه کلیک کنید، نسخه تصویری کلمه را خواهید دید، چنین چیزی ویرایش متن را بسیار ساده و سریع می‌کند:

arax (4).gif

خوب در همینجا تست دیگری می‌کنیم و برای دشوارتر کردن کار، این بار متنی رااز یک مجله اسکن می‌کنیم، مجله فونت ریزتری دارد و بنابراین انتظار داریم وضوح تصاویر اسکن‌شده پایین‌تر باشد، به علاوه رنگ پشت زمینه هم ممکن است تا حدی کار OCR را مختل کند. متن آبی نتیجه کار آراکس و متن با قلم مشکلی، نتیجه کار ریدآیریس است

arax (1).gif

حتما به سایت آراکس سر بزنید.


اگر خواننده جدید سایت «یک پزشک»  هستید!
شما در حال خواندن سایت یک پزشک (یک پزشک دات کام) به نشانی اینترنتی www.1pezeshk.com هستید. سایتی با 18 سال سابقه که برخلاف اسمش سرشار از مطالب متنوع است!
ما را رها نکنید. بسیار ممنون می‌شویم اگر:
- سایت یک پزشک رو در مرورگر خود بوک‌مارک کنید.
-مشترک فید یا RSS یک پزشک شوید.
- شبکه‌های اجتماعی ما را دنبال کنید: صفحه تلگرام - صفحه اینستاگرام ما
- برای سفارش تبلیغات ایمیل alirezamajidi در جی میل یا تلگرام تماس بگیرید.
و دیگر مطالب ما را بخوانید. مثلا:

محصولات باورنکردنی که اپل در آینده عرضه خواهد کرد (شوخی با اپل – گالری عکس)

رونمایی از اپل ویژن پرو با قیمت و پیچیدگی‌های خاص خودش باعث شد که دست طنزپردازان در شوخی با اپل بازتر شود.به راستی اگر اپل سال‌های بعد بخواهد در زمینه‌های متفاوت فعالیت کند آنها را چطور رونمایی خواهد کرد. چه توصیف‌هایی برای آنها ردیف…

اگر این سلبریتی‌ها تا به امروز زنده بودند …

عوامل مختلفی روی طول عمر انسان‌ها تاثیر می‌گذارد. سبک زندگی، تعذیه سالم، ورزش، پیشگیری از بیماری‌ها، پرهیز از مصرف مواد، خواب و آسایش کافی، ژنتیک، هشیاری برای پیشگیری از حوادث.اما به هر حال طول عمر برخی از انسان‌ها کوتاه‌تر از امید به…

کارخانه متروکی در پرتغال با ماشین‌های کلاسیک قدیمی در آن کشف شد و سوژه عکاسی شد

متروک بودن هم زیبایی خاص خودش را دارد. خانه و هتل و امارت متروک انگار یک تونل زمان است. یک موزه خاک گرفته دست نخورده.اما این بار کارخانه‌ای با ده‌ها ماشین کلاسیک رها شده در پرتغال با کوشش عکاسان سوژه شده.«داخل این ساختمان صنعتی دو…

این دانشجوی 18 ساله با هوش مصنوعی 19 شخصیت سیمپسون‌ها را به صورت شخصیت‌های واقعی درآورد!

برودی هالبروک دست به کار جالبی زده و جان تازه‌ای به شخصیت‌های محبوب سریال سیمپسون‌ها داده است. او در این مورد نوشته:«من از Midjourney برای تبدیل شخصیت‌های مورد علاقه‌‌ان از انیمیشن‌ها به قالب انسان استفاده کردم. البته برخی از اعضای…

حومه‌نشینی چرا شکل می‌گیرد و چه مشکلاتی ایجاد می‌کند؟ + گالری عکس‌هایی از زشتی‌های این پدیده

مناطق حومه شهر، جوامع مسکونی هستند که در حومه مناطق بزرگتر شهری قرار دارند. آن‌ها ویژگی‌های متمایزی دارند که آن‌ها را ازمحیط روستایی و شهری متمایز می‌کند. شکل‌گیری حومه‌ها و مشکلاتی که با آن‌ها مواجه هستند را می‌توان به عوامل متعددی نسبت…

مجموعه دیگری از عکس‌های تاریخی کمتر دیده شده را با هم مرور کنیم

هر چقدر عکس‌های تاریخی را با هم مرور کنیم، کم است. همان طور که قبلا هم نوشته بودم احتمالا بیشتر این عکس‌ها اگر در دوره خود در نشریه‌ای منتشر می‌شدند، خیلی عادی به نظر می‌رسیدند، اما حالا بعد از گذشت دهه‌ها یا حدود یک قرن، برای ما عجیب و…
آگهی متنی در همه صفحات
دکتر فارمو / موتور فن کویل / شیشه اتومبیل / نرم افزار حسابداری / خرید سیلوسایبین / هوش مصنوعی / قیمت وازلین ساج / مقاله بازار / شیشه اتومبیل / قیمت ایمپلنت دندان با بیمه /سپتیک تانک /بهترین دکتر لیپوماتیک در تهران /بهترین جراح بینی در تهران / آموزش تزریق ژل و بوتاکس / دوره های زیبایی برای مامایی / آموزش مزوتراپی، PRP و PRF /کاشت مو / مجتمع فنی تهران /قیمت روکش دندان /خدمات پرداخت ارزی نوین پرداخت / درمان طب / لیست قیمت تجهیزات پزشکی / دانلود آهنگ / سریال ایرانی کول دانلود / دانلود فیلم دوبله فارسی /داروخانه اینترنتی آرتان /اشتراك دايت /فروشگاه لوازم بهداشتی /داروخانه تینا /لیفت صورت در تهران /فروش‌ دوربین مداربسته هایک ویژن /سرور مجازی ایران /مرکز خدمات پزشکی و پرستاری در منزل درمان نو /توانی نو / ثبت برند /حمل بار دریایی از چین /سایت نوید /پزشک زنان سعادت آباد /کلاه کاسکت / لمینت متحرک دندان /فروشگاه اینترنتی زنبیل /ساعت تبلیغاتی /تجهیزات پزشکی /چاپ لیوان /خرید از آمازون /بهترین سریال های ایرانی /کاشت مو /قیمت ساک پارچه ای /تولید محتوا /دانلود نرم افزار /
21 نظرات
  1. reza می گوید

    با سلام
    این برنامه که شما معرفی کردین یک کمی گرونه.اما امروزه با خرید هر دستگاه چاپگری معمولاً
    برنامه مورده نظر هم به همراه چاپگر هست.
    یک برنامه خوب و مجانی هم موجود هست که من قبلاً استفاده میکردم و میتونم به
    بقیه پیشنهاد کنم:
    simpleOCR 3.5
    که میتونید از این جا دانلود کنید
    http://simpleocr.softonic.de/

  2. شیخ شهر می گوید

    به لیست مصارف ocr خواندن نام نامزدهای انتخاباتی از روی برگ رای ها را هم اضافه کنید چیزهای اندکی اینجا هست http://sheikheshahr.blogspot.com/2008/03/blog-post_6224.html
    اگر اینطور که شما می گویید باشد که باور نکردنی است.
    فعلا ذوق مرگ شده ام .می رویم تا بیابیم این نرم افزار گهربار را.

  3. کافه فلسفه می گوید

    دکتر جان تبلیغ هفته نامه شهروند امروز هم بودها…

  4. رضا می گوید

    با سلام
    نرم افزاری به نامه readiris این کار را انجام می دهد. به سایت زیر سری بزنید و با کرک دانلود کنید. http://www.tebyan.net

  5. شهسوار می گوید

    سلام .
    شما احتمالا با Readiris9 متن را تبدیل کردید . ورژن Readiris10 کم اشتباه تر و در ضمن رایگان است .

  6. حسین می گوید

    داداش، من Iris 11.0 رو هم تست کردم، چیز تحفه‏ای که نیست بماند، مفتش هم گرونه!

  7. سجاد می گوید

    به نظر منم که نرم افزار خیلی خوبیه ولی با توجه به قیمتی که داره مطمئنم به جز شرکت‌های خصوصی بزرگ و شرکت‌های دولتی، توان خریدش برای بقیه وجود نداره.

  8. يكي از همين آرش‌ها می گوید

    البته که این نرم‌افزار بسی بهتر از اون رید‌آیریس‌ها هست! حالا هر ورژنی اما دوهزار تومن کجا و یک میلیون و ششصد و خرده‌ای تومن کجا!!

    البته خوبه که اصولاً چنین نرم‌افزاری “هست” حالا به بودجهء ما خونگی‌ها نمی‌خوره به کار مثلاً کتابخونه‌ها که میاد. (البته اگه استفاده کنند)

    یادمه یه نرم‌افزار OCR (ایرانی) دیگه‌ای هم تو بازار بود، حدود دویست تومن،‌زیاد مطمئن نیستم، ولی این یکی خیلی خداست.

  9. رهگذر می گوید

    بله شما درست میگید.
    نرم افزار واژه شناس مال شرکت هوش مصنوعی رایورز که یه سرچ بزنید سایتش پیدا میشه.
    قیمتش هم مثل اینکه حدود 150 هزار تومان یا کمی بیشتر باشه.
    خیلی هم قوی تر از readiris 11 هست. اصلا این readiris که برای فارسی خیلی خطا داره. اگه حدودی بگم بالای 40 درصد خطا داره.

  10. علاقه مند OCR می گوید

    در مورد نظر دوستمون رهگذر، باید بگویم نرم افزار واژه شناس در واقع یک نرم افزار عربی به نام صخر است که توسط شرکت رایورز کرک شده و به صورت غیر قانونی عرضه می شود. در عین حال قابلیت و کارایی آن در مقایسه با آراکس بسیار پایین تر است.

  11. مریم علوی گنجه ای می گوید

    سلام،

    دکتر جان به نظر من شما یکی از پرسنل فروش شرکت هدی سیستم هستی، حالا نمی دونم پزشکها تو واحد فروش چیکار می کنند!؟!
    من خودم چند تا عکس 300 دی پی آی از کتاب و روزنامه اسکن کردم و به تمام شرکتهایی که در زیر اسمشونو میارم یا خودم یا از طریق دوستم آرمان دادم تا دقت OCR هاشونو مقایسه کنم :

    شرکت هوش مصنوعی رایور – نرم افزار واژه شناس نسخه 2- http://www.aisoft.ir
    شرکت مدیانیک – نرم افزار روژاوه – http://www.medianik.com
    شرکت پرشیا نگار – نویسه خوان فارسی نسخه 1 – http://www.persianreader.com
    بنیاد پژوهشی و رباتیک سپنتا – OCR فارسی سپنتا – http://www.srrf.net/plpl/Products/OCR
    شرکت هدی سیستم – نرم افزار آراکس – http://www.hodasystems.com

    یکی از شرکتها که اسمشم نمی یارم گفت قیمت OCR نزدیک 7-8 میلیون هست حالا دقتشم همچین بالا نبود و نمی دونم واقعا چرا این قیمت را برای نرم افزارشون گذاشتن، من که کلا به خاطر قیمتش بی خیالش شدم.
    ولی وقتی یه جدول برای خودم کشیدم و قیمت و نتیجه و دقت OCR تقریبی بقیه را مقایسه کردم دیدم واژه شناس با اینکه در صورت آموزش فونت با آراکس فرقی نداره قیمتش خیلی مناسبتر هست، حالا آدمهایی مثل من که 320 هزار تومن را هم قسطی می دهند چطور بیان یک میلیون و اندی بدن پای آراکس.
    من نمی خوام از شرکت هوش مصنوعی یا کس دیگری حمایت کنم ولی قیمت آراکس به نسبت کارآیی اش خیلی زیاد هست.

    با تشکر
    مریم علوی گنجه ای

    1. حسین می گوید

      @مریم علوی گنجه ای,
      بنده مدیر سایت پرشیانگار، نویسه خوان فارسی هستم، طی دو ماه اخیر هیچ گونه تقاضایی اینچنینی نداشتیم. می‌خواهید واژ‌ه‌نشناس رایورز را تبلیغ کنید، درست تبلیغ کنید. هر آدمی که اندکی از OCR بداند، می‌داند که واژه‌نشناس همان Automatic Reader از شرکت صخر است که تنها منوهای آن فارسی شده است

      1. مریم علوی گنجه ای می گوید

        @حسین, متاسفم که من را هم ردیف خودتان قرار می دهید و حتی آمار افرادی که با شما تماس می گیرند را کامل ندارید لزوم ندارد که من در تماس با شما کامل خودم را معرفی کرده باشم کافیست کمی فکر کنید تا یادتان بیاید برای چه کسانی نرم افزارتان را تست کرده اید!
        من قصد بدگویی از هیچ شرکتی را ندارم و همه این شرکته در صورت زحمت کشیده اند و محصول ارائه داده اند حالا یا خارجی یا داخلی، برای من کارایی و قیمت مهم هست!؟!
        پس لزومی ندارد لو دهید کدام نرم افزار 7-8 میلیون هست….

  12. AminePouya می گوید
  13. Amin می گوید

    در رابطه با پکیج نرم افزار های ocr فارسی باید بگم که نرم افزارها تست شده و آخرین نسخه می باشد، نسخه DVD کلیه برنامه های موجود در دمو و کلیه نرم افزار های کمکی و مکمل (که در طی عملیات تبدیل زیاد به کار می رود)با قیمت 8000 تومان فقط برای دانشجویان و قیمت آزاد 10000 تومان می باشد این مجموعه همچنین حاوی آموزش فارسی نحوه راه اندازی برنامه ها و نحوه استفاده ازOCR فارسی می باشد.
    نرم افزارها تست شده و آخرین نسخه می باشد،
    توجه : هنوزهیچ برنامه OCR فارسی وجود ندارد که کارکتر های فارسی رو 100 % بدون غلط تبدیل کند(حتی نرم افزار های بسیار گران قیمت ساخت داخل کشور هم هنوز نمی توانند بدون غلط عمل تبدیل را انجام بدهند) اما برنامه هایOCR این پکیج با دقت 90-80 % از بیست فونت مشهور فارسی پشتیبانی می کنند و اگر فایل PDF و یا عکس اسکن شده شما رزولیشن و درجه تفکیک 300 دی پی آی به بالا داشته باشد(که به صورت مجازی نیز با نرم افزارهای ارائه شده می توان این کار را انجام داد) فایل متنِ خروجی، صحت مناسب و قابل قبولی دارد و با یک ویرایش دستی ساده کامل می شود که در مقابل هزینه پرینت و تایپ یک عکس اسکن شده یا فایل PDF بسیار مقرون به صرفه تر خواهد بود.
    از دوستانی که این پک کامل ، جدیدو بسیار مفید و ارزان را می خواهند لطفاً فقط در وقت اداری تماس بگیرند.

    09132023815 aminepouya@yahoo.com

  14. محسن می گوید

    واقعا مسخره هست که یه شرکت آمریکایی هیولا رو با یه خرده شرکت مقایسه کنیم اگه واقعا زبان اونا بود که چیزایی می ساختن که باور نمی کردیم ولی فعلا به نظر میرسه که همین ورژن نهایی 12 Readiris خیلی از مشکلات رو حل کرده
    هیچ احمقی هزینه رو اینجوری به کاربر تحمیل نمیکنه با IRIS که مقایسه کنید میشه فهمید سطح درامد و قدرت خرید ما و قیمت این محصول ایرانی چقدر عادلانست (بلانسبت)

  15. ایشان می گوید

    من دیروز شاهد یک تماس تلفنی با شرکت هدی سیستم برای درخواست یک SDK از نرم افزار آراکس بودم. مبلغی که شرکت درخواست کرد واقعا عالی بود، 15 میلیون تومان 🙂

  16. pouya می گوید

    به نظر من همش تو ایران کلاه برداری هست

    یک مثال

    روزی که من دیدم نرم افزار مترجم پدیده و مترجم دیگه امدن تو بازار ایران که شرکت های خصوصی یعنی نوشته بودن اول این که قیمت از 450 هزار تومان تو چند سال پیش دلار ارزان بود قیمت این بود تا یک میلون نیم

    و کارایی هم نداشتند حالا گوگل رایگان داره ترجمه میکنه فقط اینترنت میخواد

    دومین مورد اینه که تا وب سایت ocr آنلاین رایگان هست نباید

    یک نرم افزار ocr از داخل ایران بخرید همش … هست بس

    وب سایت های زیر زبان عربی را پشتیبانی میکنه استفاده کنید به جای زبان فارسی

    http://www.i2ocr.com/

    http://www.ocr-extract.com/

  17. محمد هاشمی می گوید

    سلام من یه برنامه اوسیار کاملا فارسی میخوام که آگهی های روزنامه رو به متن تبدیل کنه کسی هست به من معرفی کنه
    خیلی خیلی خیلی ممنون میشم
    خیلی وقت دنبالشم کارمم گیره این برنامه اس

  18. هادی می گوید

    سلام
    برنامه نویسه خوان آراکس اصلاً توی اینترنت موجود نیست و خرید اینترنتی هم نداره ! پس چطور میشه اونو خرید ؟ لطفاً اگه جایی برای خرید این نرم افزار هست راهنمایی گنید . با تشکر

  19. هلیا می گوید

    بله، لطفا راهنمایی بفرمایید!

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.

••4 5