آراکس، OCR فارسی

21

OCR، مخفف Optical character recognition یا شناسایی نوری کاراکترهاست. به نرم‌افزاری که بتواند، صفحات اسکن‌ شده را به فرمت متنی تبدیل کند، نرم‌افزار OCR‌گفته می‌شود.

دانشجویی را تصور کنید که در حال نوشتن پایان‌نامه خودتان است و می‌خواهد مثلا در بخش مقدمه و مرور منابع، به متن‌های چند کتاب مرجع استناد کند، در عین حال وقت کمی دارد و فرصتی برای تایپ نوشته‌ها ندارد. در این زمان او حتما آرزو می‌کرد که نرم‌افزار معجره‌گری وجود داشت که به صورت خودکار، عکس نوشته‌ها را به متن تبدیل می‌کرد.

محققی را در نظر بگیرید که مجبور است در کتاب خود، به ده‌ها کتاب و نوشته استناد کند، وبلاگ‌نویسی را در نظر بگیرید که می‌خواهد مطلب جالبی را که در مجله‌ای خوانده برای خوانندگانش بنویسد، فردی را در نظر بگیرید که می‌خواهد کتابی را الکترونیک کند و در گوشی موبایل خود جای بدهد، اداره‌ و سازمانی را در نظر بگیرید که قصد دیجیتال کردن، استاد خود را دارد، … در همه این موارد نرم‌افزار OCR که تعریفش پیشتر آمد، می‌تواند یاری‌رسان باشد.

در دید کلان، OCR یک زمینه تحقیقی گسترده است که هوش مصنوعی، شناسایی طرح‌ها و دید ماشینی را در در برمی‌گیرد و قطعا در آینده کاربردهای بیشتری هم پیدا خواهد کرد.

شاید فکر کنید که تاریخچه OCR به بیش از یکی دو دهه پیش برنمی‌گردد ولی چنین تصوری درست نیست.

نخستین بار در سال 1929 یک آلمای به نام گوستاو توشک Gustav Tauschek، امتیاز OCR را ثبت کرد. پرواضح که OCR او یک نرم‌افزار نبود بلکه یک ماشین مکانیکی بود که مجهز به قالب‌های پیش‌فرض و یک وسیله تشخیص نور بود.

در سال 1950، دیوید شفارد David H. Shepard، یک متخصص برجسته کشف رمز نیروهای مسلح آمریکا، وسیله‌ای به نام Gismo ساخت که کارش تبدیل نوشته‌های چاپی به زبان ماشین بود. سپس او شرکتی به نام IMR بنا نهاد که نخستین OCR تجاری چندمنظوره را عرضه کرد. ریدر دایجست و شرکت نفتی استاندارد اویل نخستین خریداران این OCR‌ بودند.

شرکت‌های پست آمریکا و بریتانیا از سال 1965 برای سر و سامان دادن و مکانیزه کردن سامانه‌های خود از OCR استفاده می‌کردند.

اما صرف‌نظر از این پیشینه تاریخی، با وجود اینکه سالها بود نرم‌افزارهای بسیار کارای OCR به زبان انگلیسی و بعضی از زبان‌های دیگر در اختیار کاربران قرار داده شده بود، خبری از OCR فارسی نبود.

موانع زیادی بر سر نوشتن OCR فارسی و تکامل آن وجد دارد: عدم احترام به کپی رایت، پیچیدگی‌های زبان فارسی، نبود سرمایه‌گذار، کم بودن بازار خرید، عدم آشنایی شرکت‌های با OCR، استاندارد نبودن فونت‌های فارسی و …

شخصا از زمانی که چند سال پیش، یه دستگاه اسکنر خریدم، به کاربردهای OCR پی بردم و همواره منتظر بودم که بتوانم OCR خوبی در بازار پیدا کنم، اما OCRهای مشهور یا از زبان فارسی پشتیبانی نمی‌کردند و یا عملکردشان در مورد زبان فارسی آنقدر بد بود که کاربر مجبور به ویرایش اساسی متن تبدیلی می‌شد و از انجا که این OCRها برای عرب‌زبان‌ها نوشته می‌شدند، در مورد حروف پ چ گ ژ ، هم مشکل عمده داشتند.

چند هفته پیش از طریق یکی از دوستان وبلاگی با OCR یا نویسه‌خوان آراکس آشنا شدم، با لطف ایشان و مسئولین سیستم هدی سیستم، یک نسخه از این نرم‌افزار برای من ارسال شد و الان مدتی است که من این نرم‌افزار را روی سیستمم دارم.

arax (2).jpg

استفاده از نویسه‌خوان آراکس در حال حاضر به سبب قیمتش، بیشتر مناسب شرکت‌ها و کتابخانه‌ها و مؤسسات تحقیقاتی و اداره‌های دولتی است. امیدوارم که در آینده و با سیاست‌های حمایتی از نویسندگان نرم‌افزارهای دسترسی به این نرم‌افزار برای همگی میسر شود.

خوب! بیایید یک مقایسه سریع بین آراکس و یکی از مشهورترین OCRهای موجود در بازار یعنی ریدآیریس Readiris داشته باشیم و یک نوشته اسکن شده را به خورد این دو نرم‌افزار بدهیم تا ببینیم چه تفاوت‌ عملکردی با هم دارند.

در مورد هر دو نرم‌افزار باید متن چاپی را با وضوح خوبی مثلا 300 DPI، اسکن کنید.

چیزی که نخست در مورد آراکس جلب نظر می‌کند، رایط گرافیکی خوب آن است. خوب! حالا برای تست من یک صفحه از یکی از رمان‌ها را انتخاب می‌کنم و به هر دو نرم‌افزار می‌دهم، نتیجه کار را ببینید:

arax (3).gif

در کادر بزرگ نتیجه کار آراکس و در کادر برنامه نت پد، نتیجه کار ریدآیریس را می‌بینید و می‌بینید که آراکس بسیار کاراتر و بی‌اشتباه تر عمل کرده است.

اما آراکس ویژگی‌های جانبی دیگری هم دارد که آن را تا متمایز می‌کند، بعد از اسکن و خوانش و تبدیل اولیه متن اسکن‌شده، لازم است که برای کنترل درستی تبدیل، یک بار متن خوانده شود و با متن اصلی مقابله شود. آراکس چنین کاری را بسیار آسان می‌کند، چون یک غلط‌یاب خوب دارد، به علاوه وقتی در پنجره برنامه روی یک کلمه کلیک کنید، نسخه تصویری کلمه را خواهید دید، چنین چیزی ویرایش متن را بسیار ساده و سریع می‌کند:

arax (4).gif

خوب در همینجا تست دیگری می‌کنیم و برای دشوارتر کردن کار، این بار متنی رااز یک مجله اسکن می‌کنیم، مجله فونت ریزتری دارد و بنابراین انتظار داریم وضوح تصاویر اسکن‌شده پایین‌تر باشد، به علاوه رنگ پشت زمینه هم ممکن است تا حدی کار OCR را مختل کند. متن آبی نتیجه کار آراکس و متن با قلم مشکلی، نتیجه کار ریدآیریس است

arax (1).gif

حتما به سایت آراکس سر بزنید.


اگر خواننده جدید سایت «یک پزشک»  هستید!
شما در حال خواندن سایت یک پزشک (یک پزشک دات کام) به نشانی اینترنتی www.1pezeshk.com هستید. سایتی با 18 سال سابقه که برخلاف اسمش سرشار از مطالب متنوع است!
ما را رها نکنید. بسیار ممنون می‌شویم اگر:
- سایت یک پزشک رو در مرورگر خود بوک‌مارک کنید.
-مشترک فید یا RSS یک پزشک شوید.
- شبکه‌های اجتماعی ما را دنبال کنید: صفحه تلگرام - صفحه اینستاگرام ما
- برای سفارش تبلیغات ایمیل alirezamajidi در جی میل یا تلگرام تماس بگیرید.
و دیگر مطالب ما را بخوانید. مثلا:

بهترین سایت‌ها برای پیدا کردن کتاب‌هایی که با سلیقه شما جور هستند

آیا می‌خواهید از مطالعه کتاب لذت ببرید؟ در اینجا سایت‌هایی را به شما معرفی می‌کنیم که کتاب‌هایی خوبی بر مبنای مطالعات لذت‌بخش قبلی به شما توصیه می‌کنند.هیچ چیز دلهره آورتر از رفتن به یک کتابفروشی بدون فهرست خرید نیست. شما کلی وقت…

اگر این سلبریتی‌ها به همان سبک و سیاق و بزرگسالی کوچک می‌شدند

البته سلبریتی‌ها مسلما عکس‌های اصلی دوران کودکی دارند. هر چند در مورد برخی ممکن است این عکس‌های کودکی اندک یا کم‌کیفیت باشند.اما تصور کنید برای بازتاب دادن وجود همان عوالم بزرگسالانه در دنیای کودکی یا همان اجزای مهم چهره، چهره بزرگسالان…

چرا هنگامی که می‌خواهند عکسی از ما بگیرند، ناخودآگاه سرمان را کج می‌کنیم؟

وقتی در فیس بوک، اینستاگرام یا سایر سایت‌های رسانه اجتماعی پر از عکس هستیم، احتمالاً متوجه یک روند در زبان بدن کاربران خواهیم شد. هنگام عکس گرفتن و مواجهه با دوربین، برخی افراد به طور خودکار سر خود را به یک طرف خم می‌کنند. به نظر می‌رسد که…

ایده‌های خوب و خلاقانه برای دکوراسیون و منظره‌سازی فضای بیرونی خانه‌های و مجتمع‌های مسکونی و اداری

آیا تا به حال به دنبال الهام گرفتن برای دکوراسیون و منظره‌سازی فضاهای بیرونی منزل خود بوده‌اید. آیا دوست داشته‌اید بتوانید به نوعی طبیعت را در فضاهای کوچک حیاط آپارتمان یا خانه ییلاقی خود ادغام کنید.در این صورت مجموعه این پست می‌تواند…

عکس‌های بی‌نظیر از آبشارهای رنگارنگ دریاچه‌های پلیتویس در کرواسی و مقایسه آنها با فصل یخ‌زده

نوشته: تاماس دومبورا توثمن چهار سال پیش در فصل زمستان از دریاچه‌های پلیتویس بازدید کردم و از دنیای زیبا و یخ زده آنها با آبشارهای یخی و مناظر سفید عکس گرفتم.اخیراً دوباره به این دریاچه‌ها بازگشته‌ام تا از همان منظره خیره‌کننده عکس…

اگر قرار بود در طراحی بدنه و اجزای داخلی خودروها، فرهنگ و هنر هر کشور در نظر گرفته می‌شد

طراحی خودرو فرآیند پیچیده ای است که شامل عوامل مختلفی است تا اطمینان حاصل شود که محصول نهایی& ایمن، کارآمد , زیباست و نیازها و خواسته های مصرف کنندگان را برآورده می کند. فاکتورهای زیر برای مثال موثرند:ایمنی: ایمنی در طراحی خودرو از…
آگهی متنی در همه صفحات
دکتر فارمو / شیشه اتومبیل / نرم افزار حسابداری / خرید سیلوسایبین / هوش مصنوعی / قیمت وازلین ساج / مقاله بازار / شیشه اتومبیل / قیمت ایمپلنت دندان با بیمه /سپتیک تانک /بهترین دکتر لیپوماتیک در تهران /بهترین جراح بینی در تهران / آموزش تزریق ژل و بوتاکس / دوره های زیبایی برای مامایی / آموزش مزوتراپی، PRP و PRF /کاشت مو / مجتمع فنی تهران /قیمت روکش دندان /خدمات پرداخت ارزی نوین پرداخت / درمان طب / لیست قیمت تجهیزات پزشکی / دانلود آهنگ / سریال ایرانی کول دانلود / دانلود فیلم دوبله فارسی /داروخانه اینترنتی آرتان /اشتراك دايت /فروشگاه لوازم بهداشتی /داروخانه تینا /لیفت صورت در تهران /فروش‌ دوربین مداربسته هایک ویژن /سرور مجازی ایران /مرکز خدمات پزشکی و پرستاری در منزل درمان نو /توانی نو / ثبت برند /حمل بار دریایی از چین /سایت نوید /پزشک زنان سعادت آباد /کلاه کاسکت / لمینت متحرک دندان /فروشگاه اینترنتی زنبیل /ساعت تبلیغاتی /تجهیزات پزشکی /چاپ لیوان /خرید از آمازون /بهترین سریال های ایرانی /کاشت مو /قیمت ساک پارچه ای /تولید محتوا /دانلود نرم افزار /
21 نظرات
  1. reza می گوید

    با سلام
    این برنامه که شما معرفی کردین یک کمی گرونه.اما امروزه با خرید هر دستگاه چاپگری معمولاً
    برنامه مورده نظر هم به همراه چاپگر هست.
    یک برنامه خوب و مجانی هم موجود هست که من قبلاً استفاده میکردم و میتونم به
    بقیه پیشنهاد کنم:
    simpleOCR 3.5
    که میتونید از این جا دانلود کنید
    http://simpleocr.softonic.de/

  2. شیخ شهر می گوید

    به لیست مصارف ocr خواندن نام نامزدهای انتخاباتی از روی برگ رای ها را هم اضافه کنید چیزهای اندکی اینجا هست http://sheikheshahr.blogspot.com/2008/03/blog-post_6224.html
    اگر اینطور که شما می گویید باشد که باور نکردنی است.
    فعلا ذوق مرگ شده ام .می رویم تا بیابیم این نرم افزار گهربار را.

  3. کافه فلسفه می گوید

    دکتر جان تبلیغ هفته نامه شهروند امروز هم بودها…

  4. رضا می گوید

    با سلام
    نرم افزاری به نامه readiris این کار را انجام می دهد. به سایت زیر سری بزنید و با کرک دانلود کنید. http://www.tebyan.net

  5. شهسوار می گوید

    سلام .
    شما احتمالا با Readiris9 متن را تبدیل کردید . ورژن Readiris10 کم اشتباه تر و در ضمن رایگان است .

  6. حسین می گوید

    داداش، من Iris 11.0 رو هم تست کردم، چیز تحفه‏ای که نیست بماند، مفتش هم گرونه!

  7. سجاد می گوید

    به نظر منم که نرم افزار خیلی خوبیه ولی با توجه به قیمتی که داره مطمئنم به جز شرکت‌های خصوصی بزرگ و شرکت‌های دولتی، توان خریدش برای بقیه وجود نداره.

  8. يكي از همين آرش‌ها می گوید

    البته که این نرم‌افزار بسی بهتر از اون رید‌آیریس‌ها هست! حالا هر ورژنی اما دوهزار تومن کجا و یک میلیون و ششصد و خرده‌ای تومن کجا!!

    البته خوبه که اصولاً چنین نرم‌افزاری “هست” حالا به بودجهء ما خونگی‌ها نمی‌خوره به کار مثلاً کتابخونه‌ها که میاد. (البته اگه استفاده کنند)

    یادمه یه نرم‌افزار OCR (ایرانی) دیگه‌ای هم تو بازار بود، حدود دویست تومن،‌زیاد مطمئن نیستم، ولی این یکی خیلی خداست.

  9. رهگذر می گوید

    بله شما درست میگید.
    نرم افزار واژه شناس مال شرکت هوش مصنوعی رایورز که یه سرچ بزنید سایتش پیدا میشه.
    قیمتش هم مثل اینکه حدود 150 هزار تومان یا کمی بیشتر باشه.
    خیلی هم قوی تر از readiris 11 هست. اصلا این readiris که برای فارسی خیلی خطا داره. اگه حدودی بگم بالای 40 درصد خطا داره.

  10. علاقه مند OCR می گوید

    در مورد نظر دوستمون رهگذر، باید بگویم نرم افزار واژه شناس در واقع یک نرم افزار عربی به نام صخر است که توسط شرکت رایورز کرک شده و به صورت غیر قانونی عرضه می شود. در عین حال قابلیت و کارایی آن در مقایسه با آراکس بسیار پایین تر است.

  11. مریم علوی گنجه ای می گوید

    سلام،

    دکتر جان به نظر من شما یکی از پرسنل فروش شرکت هدی سیستم هستی، حالا نمی دونم پزشکها تو واحد فروش چیکار می کنند!؟!
    من خودم چند تا عکس 300 دی پی آی از کتاب و روزنامه اسکن کردم و به تمام شرکتهایی که در زیر اسمشونو میارم یا خودم یا از طریق دوستم آرمان دادم تا دقت OCR هاشونو مقایسه کنم :

    شرکت هوش مصنوعی رایور – نرم افزار واژه شناس نسخه 2- http://www.aisoft.ir
    شرکت مدیانیک – نرم افزار روژاوه – http://www.medianik.com
    شرکت پرشیا نگار – نویسه خوان فارسی نسخه 1 – http://www.persianreader.com
    بنیاد پژوهشی و رباتیک سپنتا – OCR فارسی سپنتا – http://www.srrf.net/plpl/Products/OCR
    شرکت هدی سیستم – نرم افزار آراکس – http://www.hodasystems.com

    یکی از شرکتها که اسمشم نمی یارم گفت قیمت OCR نزدیک 7-8 میلیون هست حالا دقتشم همچین بالا نبود و نمی دونم واقعا چرا این قیمت را برای نرم افزارشون گذاشتن، من که کلا به خاطر قیمتش بی خیالش شدم.
    ولی وقتی یه جدول برای خودم کشیدم و قیمت و نتیجه و دقت OCR تقریبی بقیه را مقایسه کردم دیدم واژه شناس با اینکه در صورت آموزش فونت با آراکس فرقی نداره قیمتش خیلی مناسبتر هست، حالا آدمهایی مثل من که 320 هزار تومن را هم قسطی می دهند چطور بیان یک میلیون و اندی بدن پای آراکس.
    من نمی خوام از شرکت هوش مصنوعی یا کس دیگری حمایت کنم ولی قیمت آراکس به نسبت کارآیی اش خیلی زیاد هست.

    با تشکر
    مریم علوی گنجه ای

    1. حسین می گوید

      @مریم علوی گنجه ای,
      بنده مدیر سایت پرشیانگار، نویسه خوان فارسی هستم، طی دو ماه اخیر هیچ گونه تقاضایی اینچنینی نداشتیم. می‌خواهید واژ‌ه‌نشناس رایورز را تبلیغ کنید، درست تبلیغ کنید. هر آدمی که اندکی از OCR بداند، می‌داند که واژه‌نشناس همان Automatic Reader از شرکت صخر است که تنها منوهای آن فارسی شده است

      1. مریم علوی گنجه ای می گوید

        @حسین, متاسفم که من را هم ردیف خودتان قرار می دهید و حتی آمار افرادی که با شما تماس می گیرند را کامل ندارید لزوم ندارد که من در تماس با شما کامل خودم را معرفی کرده باشم کافیست کمی فکر کنید تا یادتان بیاید برای چه کسانی نرم افزارتان را تست کرده اید!
        من قصد بدگویی از هیچ شرکتی را ندارم و همه این شرکته در صورت زحمت کشیده اند و محصول ارائه داده اند حالا یا خارجی یا داخلی، برای من کارایی و قیمت مهم هست!؟!
        پس لزومی ندارد لو دهید کدام نرم افزار 7-8 میلیون هست….

  12. AminePouya می گوید
  13. Amin می گوید

    در رابطه با پکیج نرم افزار های ocr فارسی باید بگم که نرم افزارها تست شده و آخرین نسخه می باشد، نسخه DVD کلیه برنامه های موجود در دمو و کلیه نرم افزار های کمکی و مکمل (که در طی عملیات تبدیل زیاد به کار می رود)با قیمت 8000 تومان فقط برای دانشجویان و قیمت آزاد 10000 تومان می باشد این مجموعه همچنین حاوی آموزش فارسی نحوه راه اندازی برنامه ها و نحوه استفاده ازOCR فارسی می باشد.
    نرم افزارها تست شده و آخرین نسخه می باشد،
    توجه : هنوزهیچ برنامه OCR فارسی وجود ندارد که کارکتر های فارسی رو 100 % بدون غلط تبدیل کند(حتی نرم افزار های بسیار گران قیمت ساخت داخل کشور هم هنوز نمی توانند بدون غلط عمل تبدیل را انجام بدهند) اما برنامه هایOCR این پکیج با دقت 90-80 % از بیست فونت مشهور فارسی پشتیبانی می کنند و اگر فایل PDF و یا عکس اسکن شده شما رزولیشن و درجه تفکیک 300 دی پی آی به بالا داشته باشد(که به صورت مجازی نیز با نرم افزارهای ارائه شده می توان این کار را انجام داد) فایل متنِ خروجی، صحت مناسب و قابل قبولی دارد و با یک ویرایش دستی ساده کامل می شود که در مقابل هزینه پرینت و تایپ یک عکس اسکن شده یا فایل PDF بسیار مقرون به صرفه تر خواهد بود.
    از دوستانی که این پک کامل ، جدیدو بسیار مفید و ارزان را می خواهند لطفاً فقط در وقت اداری تماس بگیرند.

    09132023815 aminepouya@yahoo.com

  14. محسن می گوید

    واقعا مسخره هست که یه شرکت آمریکایی هیولا رو با یه خرده شرکت مقایسه کنیم اگه واقعا زبان اونا بود که چیزایی می ساختن که باور نمی کردیم ولی فعلا به نظر میرسه که همین ورژن نهایی 12 Readiris خیلی از مشکلات رو حل کرده
    هیچ احمقی هزینه رو اینجوری به کاربر تحمیل نمیکنه با IRIS که مقایسه کنید میشه فهمید سطح درامد و قدرت خرید ما و قیمت این محصول ایرانی چقدر عادلانست (بلانسبت)

  15. ایشان می گوید

    من دیروز شاهد یک تماس تلفنی با شرکت هدی سیستم برای درخواست یک SDK از نرم افزار آراکس بودم. مبلغی که شرکت درخواست کرد واقعا عالی بود، 15 میلیون تومان 🙂

  16. pouya می گوید

    به نظر من همش تو ایران کلاه برداری هست

    یک مثال

    روزی که من دیدم نرم افزار مترجم پدیده و مترجم دیگه امدن تو بازار ایران که شرکت های خصوصی یعنی نوشته بودن اول این که قیمت از 450 هزار تومان تو چند سال پیش دلار ارزان بود قیمت این بود تا یک میلون نیم

    و کارایی هم نداشتند حالا گوگل رایگان داره ترجمه میکنه فقط اینترنت میخواد

    دومین مورد اینه که تا وب سایت ocr آنلاین رایگان هست نباید

    یک نرم افزار ocr از داخل ایران بخرید همش … هست بس

    وب سایت های زیر زبان عربی را پشتیبانی میکنه استفاده کنید به جای زبان فارسی

    http://www.i2ocr.com/

    http://www.ocr-extract.com/

  17. محمد هاشمی می گوید

    سلام من یه برنامه اوسیار کاملا فارسی میخوام که آگهی های روزنامه رو به متن تبدیل کنه کسی هست به من معرفی کنه
    خیلی خیلی خیلی ممنون میشم
    خیلی وقت دنبالشم کارمم گیره این برنامه اس

  18. هادی می گوید

    سلام
    برنامه نویسه خوان آراکس اصلاً توی اینترنت موجود نیست و خرید اینترنتی هم نداره ! پس چطور میشه اونو خرید ؟ لطفاً اگه جایی برای خرید این نرم افزار هست راهنمایی گنید . با تشکر

  19. هلیا می گوید

    بله، لطفا راهنمایی بفرمایید!

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.

••4 5