آراکس، OCR فارسی

21

OCR، مخفف Optical character recognition یا شناسایی نوری کاراکترهاست. به نرم‌افزاری که بتواند، صفحات اسکن‌ شده را به فرمت متنی تبدیل کند، نرم‌افزار OCR‌گفته می‌شود.

دانشجویی را تصور کنید که در حال نوشتن پایان‌نامه خودتان است و می‌خواهد مثلا در بخش مقدمه و مرور منابع، به متن‌های چند کتاب مرجع استناد کند، در عین حال وقت کمی دارد و فرصتی برای تایپ نوشته‌ها ندارد. در این زمان او حتما آرزو می‌کرد که نرم‌افزار معجره‌گری وجود داشت که به صورت خودکار، عکس نوشته‌ها را به متن تبدیل می‌کرد.

محققی را در نظر بگیرید که مجبور است در کتاب خود، به ده‌ها کتاب و نوشته استناد کند، وبلاگ‌نویسی را در نظر بگیرید که می‌خواهد مطلب جالبی را که در مجله‌ای خوانده برای خوانندگانش بنویسد، فردی را در نظر بگیرید که می‌خواهد کتابی را الکترونیک کند و در گوشی موبایل خود جای بدهد، اداره‌ و سازمانی را در نظر بگیرید که قصد دیجیتال کردن، استاد خود را دارد، … در همه این موارد نرم‌افزار OCR که تعریفش پیشتر آمد، می‌تواند یاری‌رسان باشد.

در دید کلان، OCR یک زمینه تحقیقی گسترده است که هوش مصنوعی، شناسایی طرح‌ها و دید ماشینی را در در برمی‌گیرد و قطعا در آینده کاربردهای بیشتری هم پیدا خواهد کرد.

شاید فکر کنید که تاریخچه OCR به بیش از یکی دو دهه پیش برنمی‌گردد ولی چنین تصوری درست نیست.

نخستین بار در سال 1929 یک آلمای به نام گوستاو توشک Gustav Tauschek، امتیاز OCR را ثبت کرد. پرواضح که OCR او یک نرم‌افزار نبود بلکه یک ماشین مکانیکی بود که مجهز به قالب‌های پیش‌فرض و یک وسیله تشخیص نور بود.

در سال 1950، دیوید شفارد David H. Shepard، یک متخصص برجسته کشف رمز نیروهای مسلح آمریکا، وسیله‌ای به نام Gismo ساخت که کارش تبدیل نوشته‌های چاپی به زبان ماشین بود. سپس او شرکتی به نام IMR بنا نهاد که نخستین OCR تجاری چندمنظوره را عرضه کرد. ریدر دایجست و شرکت نفتی استاندارد اویل نخستین خریداران این OCR‌ بودند.

شرکت‌های پست آمریکا و بریتانیا از سال 1965 برای سر و سامان دادن و مکانیزه کردن سامانه‌های خود از OCR استفاده می‌کردند.

اما صرف‌نظر از این پیشینه تاریخی، با وجود اینکه سالها بود نرم‌افزارهای بسیار کارای OCR به زبان انگلیسی و بعضی از زبان‌های دیگر در اختیار کاربران قرار داده شده بود، خبری از OCR فارسی نبود.

موانع زیادی بر سر نوشتن OCR فارسی و تکامل آن وجد دارد: عدم احترام به کپی رایت، پیچیدگی‌های زبان فارسی، نبود سرمایه‌گذار، کم بودن بازار خرید، عدم آشنایی شرکت‌های با OCR، استاندارد نبودن فونت‌های فارسی و …

شخصا از زمانی که چند سال پیش، یه دستگاه اسکنر خریدم، به کاربردهای OCR پی بردم و همواره منتظر بودم که بتوانم OCR خوبی در بازار پیدا کنم، اما OCRهای مشهور یا از زبان فارسی پشتیبانی نمی‌کردند و یا عملکردشان در مورد زبان فارسی آنقدر بد بود که کاربر مجبور به ویرایش اساسی متن تبدیلی می‌شد و از انجا که این OCRها برای عرب‌زبان‌ها نوشته می‌شدند، در مورد حروف پ چ گ ژ ، هم مشکل عمده داشتند.

چند هفته پیش از طریق یکی از دوستان وبلاگی با OCR یا نویسه‌خوان آراکس آشنا شدم، با لطف ایشان و مسئولین سیستم هدی سیستم، یک نسخه از این نرم‌افزار برای من ارسال شد و الان مدتی است که من این نرم‌افزار را روی سیستمم دارم.

arax (2).jpg

استفاده از نویسه‌خوان آراکس در حال حاضر به سبب قیمتش، بیشتر مناسب شرکت‌ها و کتابخانه‌ها و مؤسسات تحقیقاتی و اداره‌های دولتی است. امیدوارم که در آینده و با سیاست‌های حمایتی از نویسندگان نرم‌افزارهای دسترسی به این نرم‌افزار برای همگی میسر شود.

خوب! بیایید یک مقایسه سریع بین آراکس و یکی از مشهورترین OCRهای موجود در بازار یعنی ریدآیریس Readiris داشته باشیم و یک نوشته اسکن شده را به خورد این دو نرم‌افزار بدهیم تا ببینیم چه تفاوت‌ عملکردی با هم دارند.

در مورد هر دو نرم‌افزار باید متن چاپی را با وضوح خوبی مثلا 300 DPI، اسکن کنید.

چیزی که نخست در مورد آراکس جلب نظر می‌کند، رایط گرافیکی خوب آن است. خوب! حالا برای تست من یک صفحه از یکی از رمان‌ها را انتخاب می‌کنم و به هر دو نرم‌افزار می‌دهم، نتیجه کار را ببینید:

arax (3).gif

در کادر بزرگ نتیجه کار آراکس و در کادر برنامه نت پد، نتیجه کار ریدآیریس را می‌بینید و می‌بینید که آراکس بسیار کاراتر و بی‌اشتباه تر عمل کرده است.

اما آراکس ویژگی‌های جانبی دیگری هم دارد که آن را تا متمایز می‌کند، بعد از اسکن و خوانش و تبدیل اولیه متن اسکن‌شده، لازم است که برای کنترل درستی تبدیل، یک بار متن خوانده شود و با متن اصلی مقابله شود. آراکس چنین کاری را بسیار آسان می‌کند، چون یک غلط‌یاب خوب دارد، به علاوه وقتی در پنجره برنامه روی یک کلمه کلیک کنید، نسخه تصویری کلمه را خواهید دید، چنین چیزی ویرایش متن را بسیار ساده و سریع می‌کند:

arax (4).gif

خوب در همینجا تست دیگری می‌کنیم و برای دشوارتر کردن کار، این بار متنی رااز یک مجله اسکن می‌کنیم، مجله فونت ریزتری دارد و بنابراین انتظار داریم وضوح تصاویر اسکن‌شده پایین‌تر باشد، به علاوه رنگ پشت زمینه هم ممکن است تا حدی کار OCR را مختل کند. متن آبی نتیجه کار آراکس و متن با قلم مشکلی، نتیجه کار ریدآیریس است

arax (1).gif

حتما به سایت آراکس سر بزنید.


اگر خواننده جدید سایت «یک پزشک»  هستید!
شما در حال خواندن سایت یک پزشک (یک پزشک دات کام) به نشانی اینترنتی www.1pezeshk.com هستید. سایتی با 18 سال سابقه که برخلاف اسمش سرشار از مطالب متنوع است!
ما را رها نکنید. بسیار ممنون می‌شویم اگر:
- سایت یک پزشک رو در مرورگر خود بوک‌مارک کنید.
-مشترک فید یا RSS یک پزشک شوید.
- شبکه‌های اجتماعی ما را دنبال کنید: صفحه تلگرام - صفحه اینستاگرام ما
- برای سفارش تبلیغات ایمیل alirezamajidi در جی میل یا تلگرام تماس بگیرید.
و دیگر مطالب ما را بخوانید. مثلا:

نمونه‌هایی از وندالیسم – البته در شکل نسبتا خفیف آن

وندالیسم به عمل عمدی ایجاد خسارت، تخریب یا اسیب زدن به اموال، اغلب بدون هیچ دلیل یا توجیه قانونی اشاره دارد. این کار شامل اعمالی مانند رسم گرافیتی، برچسب زدن، خراشیدن، شکستن یا نقاشی روی سطوح، از جمله ساختمان‌ها، وسایل نقلیه، فضا‌های عمومی…

ایده‌های خوب و خلاقانه برای دکوراسیون و منظره‌سازی فضای بیرونی خانه‌های و مجتمع‌های مسکونی و اداری

آیا تا به حال به دنبال الهام گرفتن برای دکوراسیون و منظره‌سازی فضاهای بیرونی منزل خود بوده‌اید. آیا دوست داشته‌اید بتوانید به نوعی طبیعت را در فضاهای کوچک حیاط آپارتمان یا خانه ییلاقی خود ادغام کنید.در این صورت مجموعه این پست می‌تواند…

250 فیلم برتر imdb به همراه معرفی و خلاصه و بررسی آنها + 23 فیلمی که حیف بود در این فهرست نباشند

مسلم است که آرای IMDB به خصوص از دید فیلم‌بین‌های حرفه‌ای فقط چیزی نسبی برای پی بردن به محبوبیت نسبی فیلم‌ها هستند. چه بسیارند فیلم‌هایی که نمره بالای 7 دارند، اما ارزش واقعی‌شان خیلی کمتر است و چه بسیارند فیلم‌هایی که آدم درمی‌ماند چرا…

مجموعه باور نکردنی از عکس‌های تاریخی که توسط عکاسان آنها امضا و حاشیه‌نویسی شده

عکس بالا عکس اتاق موقعیت اضطراری است که توسط جو بایدن امضا شده است . لحظات پرتنش عملیات نپتون نیزه را نشان می‌دهد که نیرو‌های دریایی ایالات متحده به محوطه اسامه بن لادن یورش بردند. امضا کرد: ایمان را حفظ کن!مجموعه‌ای از عکس‌هایی که…

داستان پسر دو سر بنگال، آن هم به صورتی تقریبا دیده نشده!

در ماه مه 1783، در روستای کوچکی به نام Mundul Gaut، در بنگال هند، یک کودک عجیب به دنیا آمد. او دو سر داشت.مامایی که به زایمان کمک می کرد از ظاهر کودک چنان وحشت زده شد که سعی کرد با انداختن او به داخل آتش این هیولا را بکشد. خوشبختانه…

برای جبران خطرات سلامتی ناشی از نشستن در طول روز وجود باید تحرک متناوب انجام بدهید. اما هر چند دقیقه…

برای کاهش اثرات مضر نشستن بر سلامتی، هر نیم ساعت یکبار 5 دقیقه پیاده روی سبک داشته باشید. این یافته کلیدی مطالعه جدیدی است که در مجله Medicine & Science in Sports & Exercise منتشر شده است.محققان نوشته‌اند:«ما از 11 فرد سالم…
آگهی متنی در همه صفحات
دکتر فارمو /جراح تیروئید / پزشکا /تعمیر فن کویل / سریال ایرانی کول دانلود / مجتمع فنی تهران / دانلود فیلم دوبله فارسی /خرید دوچرخه برقی /خرید دستگاه تصفیه آب /موتور فن کویل / شیشه اتومبیل / نرم افزار حسابداری / خرید سیلوسایبین / هوش مصنوعی / مقاله بازار / شیشه اتومبیل / قیمت ایمپلنت دندان با بیمه /سپتیک تانک /بهترین دکتر لیپوماتیک در تهران /بهترین جراح بینی در تهران / آموزش تزریق ژل و بوتاکس / دوره های زیبایی برای مامایی / آموزش مزوتراپی، PRP و PRF /کاشت مو /قیمت روکش دندان /خدمات پرداخت ارزی نوین پرداخت / درمان طب / تجهیزات پزشکی / دانلود آهنگ /داروخانه اینترنتی آرتان /اشتراك دايت /فروشگاه لوازم بهداشتی /داروخانه تینا /لیفت صورت در تهران /فروش‌ دوربین مداربسته هایک ویژن /سرور مجازی ایران /مرکز خدمات پزشکی و پرستاری در منزل درمان نو / ثبت برند /حمل بار دریایی از چین /سایت نوید /پزشک زنان سعادت آباد /کلاه کاسکت / لمینت متحرک دندان /فروشگاه اینترنتی زنبیل /ساعت تبلیغاتی /تجهیزات پزشکی /چاپ لیوان /خرید از آمازون /بهترین سریال های ایرانی /کاشت مو /قیمت ساک پارچه ای /دانلود نرم افزار /
21 نظرات
  1. reza می گوید

    با سلام
    این برنامه که شما معرفی کردین یک کمی گرونه.اما امروزه با خرید هر دستگاه چاپگری معمولاً
    برنامه مورده نظر هم به همراه چاپگر هست.
    یک برنامه خوب و مجانی هم موجود هست که من قبلاً استفاده میکردم و میتونم به
    بقیه پیشنهاد کنم:
    simpleOCR 3.5
    که میتونید از این جا دانلود کنید
    http://simpleocr.softonic.de/

  2. شیخ شهر می گوید

    به لیست مصارف ocr خواندن نام نامزدهای انتخاباتی از روی برگ رای ها را هم اضافه کنید چیزهای اندکی اینجا هست http://sheikheshahr.blogspot.com/2008/03/blog-post_6224.html
    اگر اینطور که شما می گویید باشد که باور نکردنی است.
    فعلا ذوق مرگ شده ام .می رویم تا بیابیم این نرم افزار گهربار را.

  3. کافه فلسفه می گوید

    دکتر جان تبلیغ هفته نامه شهروند امروز هم بودها…

  4. رضا می گوید

    با سلام
    نرم افزاری به نامه readiris این کار را انجام می دهد. به سایت زیر سری بزنید و با کرک دانلود کنید. http://www.tebyan.net

  5. شهسوار می گوید

    سلام .
    شما احتمالا با Readiris9 متن را تبدیل کردید . ورژن Readiris10 کم اشتباه تر و در ضمن رایگان است .

  6. حسین می گوید

    داداش، من Iris 11.0 رو هم تست کردم، چیز تحفه‏ای که نیست بماند، مفتش هم گرونه!

  7. سجاد می گوید

    به نظر منم که نرم افزار خیلی خوبیه ولی با توجه به قیمتی که داره مطمئنم به جز شرکت‌های خصوصی بزرگ و شرکت‌های دولتی، توان خریدش برای بقیه وجود نداره.

  8. يكي از همين آرش‌ها می گوید

    البته که این نرم‌افزار بسی بهتر از اون رید‌آیریس‌ها هست! حالا هر ورژنی اما دوهزار تومن کجا و یک میلیون و ششصد و خرده‌ای تومن کجا!!

    البته خوبه که اصولاً چنین نرم‌افزاری “هست” حالا به بودجهء ما خونگی‌ها نمی‌خوره به کار مثلاً کتابخونه‌ها که میاد. (البته اگه استفاده کنند)

    یادمه یه نرم‌افزار OCR (ایرانی) دیگه‌ای هم تو بازار بود، حدود دویست تومن،‌زیاد مطمئن نیستم، ولی این یکی خیلی خداست.

  9. رهگذر می گوید

    بله شما درست میگید.
    نرم افزار واژه شناس مال شرکت هوش مصنوعی رایورز که یه سرچ بزنید سایتش پیدا میشه.
    قیمتش هم مثل اینکه حدود 150 هزار تومان یا کمی بیشتر باشه.
    خیلی هم قوی تر از readiris 11 هست. اصلا این readiris که برای فارسی خیلی خطا داره. اگه حدودی بگم بالای 40 درصد خطا داره.

  10. علاقه مند OCR می گوید

    در مورد نظر دوستمون رهگذر، باید بگویم نرم افزار واژه شناس در واقع یک نرم افزار عربی به نام صخر است که توسط شرکت رایورز کرک شده و به صورت غیر قانونی عرضه می شود. در عین حال قابلیت و کارایی آن در مقایسه با آراکس بسیار پایین تر است.

  11. مریم علوی گنجه ای می گوید

    سلام،

    دکتر جان به نظر من شما یکی از پرسنل فروش شرکت هدی سیستم هستی، حالا نمی دونم پزشکها تو واحد فروش چیکار می کنند!؟!
    من خودم چند تا عکس 300 دی پی آی از کتاب و روزنامه اسکن کردم و به تمام شرکتهایی که در زیر اسمشونو میارم یا خودم یا از طریق دوستم آرمان دادم تا دقت OCR هاشونو مقایسه کنم :

    شرکت هوش مصنوعی رایور – نرم افزار واژه شناس نسخه 2- http://www.aisoft.ir
    شرکت مدیانیک – نرم افزار روژاوه – http://www.medianik.com
    شرکت پرشیا نگار – نویسه خوان فارسی نسخه 1 – http://www.persianreader.com
    بنیاد پژوهشی و رباتیک سپنتا – OCR فارسی سپنتا – http://www.srrf.net/plpl/Products/OCR
    شرکت هدی سیستم – نرم افزار آراکس – http://www.hodasystems.com

    یکی از شرکتها که اسمشم نمی یارم گفت قیمت OCR نزدیک 7-8 میلیون هست حالا دقتشم همچین بالا نبود و نمی دونم واقعا چرا این قیمت را برای نرم افزارشون گذاشتن، من که کلا به خاطر قیمتش بی خیالش شدم.
    ولی وقتی یه جدول برای خودم کشیدم و قیمت و نتیجه و دقت OCR تقریبی بقیه را مقایسه کردم دیدم واژه شناس با اینکه در صورت آموزش فونت با آراکس فرقی نداره قیمتش خیلی مناسبتر هست، حالا آدمهایی مثل من که 320 هزار تومن را هم قسطی می دهند چطور بیان یک میلیون و اندی بدن پای آراکس.
    من نمی خوام از شرکت هوش مصنوعی یا کس دیگری حمایت کنم ولی قیمت آراکس به نسبت کارآیی اش خیلی زیاد هست.

    با تشکر
    مریم علوی گنجه ای

    1. حسین می گوید

      @مریم علوی گنجه ای,
      بنده مدیر سایت پرشیانگار، نویسه خوان فارسی هستم، طی دو ماه اخیر هیچ گونه تقاضایی اینچنینی نداشتیم. می‌خواهید واژ‌ه‌نشناس رایورز را تبلیغ کنید، درست تبلیغ کنید. هر آدمی که اندکی از OCR بداند، می‌داند که واژه‌نشناس همان Automatic Reader از شرکت صخر است که تنها منوهای آن فارسی شده است

      1. مریم علوی گنجه ای می گوید

        @حسین, متاسفم که من را هم ردیف خودتان قرار می دهید و حتی آمار افرادی که با شما تماس می گیرند را کامل ندارید لزوم ندارد که من در تماس با شما کامل خودم را معرفی کرده باشم کافیست کمی فکر کنید تا یادتان بیاید برای چه کسانی نرم افزارتان را تست کرده اید!
        من قصد بدگویی از هیچ شرکتی را ندارم و همه این شرکته در صورت زحمت کشیده اند و محصول ارائه داده اند حالا یا خارجی یا داخلی، برای من کارایی و قیمت مهم هست!؟!
        پس لزومی ندارد لو دهید کدام نرم افزار 7-8 میلیون هست….

  12. AminePouya می گوید
  13. Amin می گوید

    در رابطه با پکیج نرم افزار های ocr فارسی باید بگم که نرم افزارها تست شده و آخرین نسخه می باشد، نسخه DVD کلیه برنامه های موجود در دمو و کلیه نرم افزار های کمکی و مکمل (که در طی عملیات تبدیل زیاد به کار می رود)با قیمت 8000 تومان فقط برای دانشجویان و قیمت آزاد 10000 تومان می باشد این مجموعه همچنین حاوی آموزش فارسی نحوه راه اندازی برنامه ها و نحوه استفاده ازOCR فارسی می باشد.
    نرم افزارها تست شده و آخرین نسخه می باشد،
    توجه : هنوزهیچ برنامه OCR فارسی وجود ندارد که کارکتر های فارسی رو 100 % بدون غلط تبدیل کند(حتی نرم افزار های بسیار گران قیمت ساخت داخل کشور هم هنوز نمی توانند بدون غلط عمل تبدیل را انجام بدهند) اما برنامه هایOCR این پکیج با دقت 90-80 % از بیست فونت مشهور فارسی پشتیبانی می کنند و اگر فایل PDF و یا عکس اسکن شده شما رزولیشن و درجه تفکیک 300 دی پی آی به بالا داشته باشد(که به صورت مجازی نیز با نرم افزارهای ارائه شده می توان این کار را انجام داد) فایل متنِ خروجی، صحت مناسب و قابل قبولی دارد و با یک ویرایش دستی ساده کامل می شود که در مقابل هزینه پرینت و تایپ یک عکس اسکن شده یا فایل PDF بسیار مقرون به صرفه تر خواهد بود.
    از دوستانی که این پک کامل ، جدیدو بسیار مفید و ارزان را می خواهند لطفاً فقط در وقت اداری تماس بگیرند.

    09132023815 aminepouya@yahoo.com

  14. محسن می گوید

    واقعا مسخره هست که یه شرکت آمریکایی هیولا رو با یه خرده شرکت مقایسه کنیم اگه واقعا زبان اونا بود که چیزایی می ساختن که باور نمی کردیم ولی فعلا به نظر میرسه که همین ورژن نهایی 12 Readiris خیلی از مشکلات رو حل کرده
    هیچ احمقی هزینه رو اینجوری به کاربر تحمیل نمیکنه با IRIS که مقایسه کنید میشه فهمید سطح درامد و قدرت خرید ما و قیمت این محصول ایرانی چقدر عادلانست (بلانسبت)

  15. ایشان می گوید

    من دیروز شاهد یک تماس تلفنی با شرکت هدی سیستم برای درخواست یک SDK از نرم افزار آراکس بودم. مبلغی که شرکت درخواست کرد واقعا عالی بود، 15 میلیون تومان 🙂

  16. pouya می گوید

    به نظر من همش تو ایران کلاه برداری هست

    یک مثال

    روزی که من دیدم نرم افزار مترجم پدیده و مترجم دیگه امدن تو بازار ایران که شرکت های خصوصی یعنی نوشته بودن اول این که قیمت از 450 هزار تومان تو چند سال پیش دلار ارزان بود قیمت این بود تا یک میلون نیم

    و کارایی هم نداشتند حالا گوگل رایگان داره ترجمه میکنه فقط اینترنت میخواد

    دومین مورد اینه که تا وب سایت ocr آنلاین رایگان هست نباید

    یک نرم افزار ocr از داخل ایران بخرید همش … هست بس

    وب سایت های زیر زبان عربی را پشتیبانی میکنه استفاده کنید به جای زبان فارسی

    http://www.i2ocr.com/

    http://www.ocr-extract.com/

  17. محمد هاشمی می گوید

    سلام من یه برنامه اوسیار کاملا فارسی میخوام که آگهی های روزنامه رو به متن تبدیل کنه کسی هست به من معرفی کنه
    خیلی خیلی خیلی ممنون میشم
    خیلی وقت دنبالشم کارمم گیره این برنامه اس

  18. هادی می گوید

    سلام
    برنامه نویسه خوان آراکس اصلاً توی اینترنت موجود نیست و خرید اینترنتی هم نداره ! پس چطور میشه اونو خرید ؟ لطفاً اگه جایی برای خرید این نرم افزار هست راهنمایی گنید . با تشکر

  19. هلیا می گوید

    بله، لطفا راهنمایی بفرمایید!

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.