آراکس، OCR فارسی
OCR، مخفف Optical character recognition یا شناسایی نوری کاراکترهاست. به نرمافزاری که بتواند، صفحات اسکن شده را به فرمت متنی تبدیل کند، نرمافزار OCRگفته میشود.
دانشجویی را تصور کنید که در حال نوشتن پایاننامه خودتان است و میخواهد مثلا در بخش مقدمه و مرور منابع، به متنهای چند کتاب مرجع استناد کند، در عین حال وقت کمی دارد و فرصتی برای تایپ نوشتهها ندارد. در این زمان او حتما آرزو میکرد که نرمافزار معجرهگری وجود داشت که به صورت خودکار، عکس نوشتهها را به متن تبدیل میکرد.
محققی را در نظر بگیرید که مجبور است در کتاب خود، به دهها کتاب و نوشته استناد کند، وبلاگنویسی را در نظر بگیرید که میخواهد مطلب جالبی را که در مجلهای خوانده برای خوانندگانش بنویسد، فردی را در نظر بگیرید که میخواهد کتابی را الکترونیک کند و در گوشی موبایل خود جای بدهد، اداره و سازمانی را در نظر بگیرید که قصد دیجیتال کردن، استاد خود را دارد، … در همه این موارد نرمافزار OCR که تعریفش پیشتر آمد، میتواند یاریرسان باشد.
در دید کلان، OCR یک زمینه تحقیقی گسترده است که هوش مصنوعی، شناسایی طرحها و دید ماشینی را در در برمیگیرد و قطعا در آینده کاربردهای بیشتری هم پیدا خواهد کرد.
شاید فکر کنید که تاریخچه OCR به بیش از یکی دو دهه پیش برنمیگردد ولی چنین تصوری درست نیست.
نخستین بار در سال 1929 یک آلمای به نام گوستاو توشک Gustav Tauschek، امتیاز OCR را ثبت کرد. پرواضح که OCR او یک نرمافزار نبود بلکه یک ماشین مکانیکی بود که مجهز به قالبهای پیشفرض و یک وسیله تشخیص نور بود.
در سال 1950، دیوید شفارد David H. Shepard، یک متخصص برجسته کشف رمز نیروهای مسلح آمریکا، وسیلهای به نام Gismo ساخت که کارش تبدیل نوشتههای چاپی به زبان ماشین بود. سپس او شرکتی به نام IMR بنا نهاد که نخستین OCR تجاری چندمنظوره را عرضه کرد. ریدر دایجست و شرکت نفتی استاندارد اویل نخستین خریداران این OCR بودند.
شرکتهای پست آمریکا و بریتانیا از سال 1965 برای سر و سامان دادن و مکانیزه کردن سامانههای خود از OCR استفاده میکردند.
اما صرفنظر از این پیشینه تاریخی، با وجود اینکه سالها بود نرمافزارهای بسیار کارای OCR به زبان انگلیسی و بعضی از زبانهای دیگر در اختیار کاربران قرار داده شده بود، خبری از OCR فارسی نبود.
موانع زیادی بر سر نوشتن OCR فارسی و تکامل آن وجد دارد: عدم احترام به کپی رایت، پیچیدگیهای زبان فارسی، نبود سرمایهگذار، کم بودن بازار خرید، عدم آشنایی شرکتهای با OCR، استاندارد نبودن فونتهای فارسی و …
شخصا از زمانی که چند سال پیش، یه دستگاه اسکنر خریدم، به کاربردهای OCR پی بردم و همواره منتظر بودم که بتوانم OCR خوبی در بازار پیدا کنم، اما OCRهای مشهور یا از زبان فارسی پشتیبانی نمیکردند و یا عملکردشان در مورد زبان فارسی آنقدر بد بود که کاربر مجبور به ویرایش اساسی متن تبدیلی میشد و از انجا که این OCRها برای عربزبانها نوشته میشدند، در مورد حروف پ چ گ ژ ، هم مشکل عمده داشتند.
چند هفته پیش از طریق یکی از دوستان وبلاگی با OCR یا نویسهخوان آراکس آشنا شدم، با لطف ایشان و مسئولین سیستم هدی سیستم، یک نسخه از این نرمافزار برای من ارسال شد و الان مدتی است که من این نرمافزار را روی سیستمم دارم.
استفاده از نویسهخوان آراکس در حال حاضر به سبب قیمتش، بیشتر مناسب شرکتها و کتابخانهها و مؤسسات تحقیقاتی و ادارههای دولتی است. امیدوارم که در آینده و با سیاستهای حمایتی از نویسندگان نرمافزارهای دسترسی به این نرمافزار برای همگی میسر شود.
خوب! بیایید یک مقایسه سریع بین آراکس و یکی از مشهورترین OCRهای موجود در بازار یعنی ریدآیریس Readiris داشته باشیم و یک نوشته اسکن شده را به خورد این دو نرمافزار بدهیم تا ببینیم چه تفاوت عملکردی با هم دارند.
در مورد هر دو نرمافزار باید متن چاپی را با وضوح خوبی مثلا 300 DPI، اسکن کنید.
چیزی که نخست در مورد آراکس جلب نظر میکند، رایط گرافیکی خوب آن است. خوب! حالا برای تست من یک صفحه از یکی از رمانها را انتخاب میکنم و به هر دو نرمافزار میدهم، نتیجه کار را ببینید:
در کادر بزرگ نتیجه کار آراکس و در کادر برنامه نت پد، نتیجه کار ریدآیریس را میبینید و میبینید که آراکس بسیار کاراتر و بیاشتباه تر عمل کرده است.
اما آراکس ویژگیهای جانبی دیگری هم دارد که آن را تا متمایز میکند، بعد از اسکن و خوانش و تبدیل اولیه متن اسکنشده، لازم است که برای کنترل درستی تبدیل، یک بار متن خوانده شود و با متن اصلی مقابله شود. آراکس چنین کاری را بسیار آسان میکند، چون یک غلطیاب خوب دارد، به علاوه وقتی در پنجره برنامه روی یک کلمه کلیک کنید، نسخه تصویری کلمه را خواهید دید، چنین چیزی ویرایش متن را بسیار ساده و سریع میکند:
خوب در همینجا تست دیگری میکنیم و برای دشوارتر کردن کار، این بار متنی رااز یک مجله اسکن میکنیم، مجله فونت ریزتری دارد و بنابراین انتظار داریم وضوح تصاویر اسکنشده پایینتر باشد، به علاوه رنگ پشت زمینه هم ممکن است تا حدی کار OCR را مختل کند. متن آبی نتیجه کار آراکس و متن با قلم مشکلی، نتیجه کار ریدآیریس است
حتما به سایت آراکس سر بزنید.
با سلام
این برنامه که شما معرفی کردین یک کمی گرونه.اما امروزه با خرید هر دستگاه چاپگری معمولاً
برنامه مورده نظر هم به همراه چاپگر هست.
یک برنامه خوب و مجانی هم موجود هست که من قبلاً استفاده میکردم و میتونم به
بقیه پیشنهاد کنم:
simpleOCR 3.5
که میتونید از این جا دانلود کنید
http://simpleocr.softonic.de/
به لیست مصارف ocr خواندن نام نامزدهای انتخاباتی از روی برگ رای ها را هم اضافه کنید چیزهای اندکی اینجا هست http://sheikheshahr.blogspot.com/2008/03/blog-post_6224.html
اگر اینطور که شما می گویید باشد که باور نکردنی است.
فعلا ذوق مرگ شده ام .می رویم تا بیابیم این نرم افزار گهربار را.
دکتر جان تبلیغ هفته نامه شهروند امروز هم بودها…
با سلام
نرم افزاری به نامه readiris این کار را انجام می دهد. به سایت زیر سری بزنید و با کرک دانلود کنید. http://www.tebyan.net
سلام .
شما احتمالا با Readiris9 متن را تبدیل کردید . ورژن Readiris10 کم اشتباه تر و در ضمن رایگان است .
داداش، من Iris 11.0 رو هم تست کردم، چیز تحفهای که نیست بماند، مفتش هم گرونه!
به نظر منم که نرم افزار خیلی خوبیه ولی با توجه به قیمتی که داره مطمئنم به جز شرکتهای خصوصی بزرگ و شرکتهای دولتی، توان خریدش برای بقیه وجود نداره.
البته که این نرمافزار بسی بهتر از اون ریدآیریسها هست! حالا هر ورژنی اما دوهزار تومن کجا و یک میلیون و ششصد و خردهای تومن کجا!!
البته خوبه که اصولاً چنین نرمافزاری “هست” حالا به بودجهء ما خونگیها نمیخوره به کار مثلاً کتابخونهها که میاد. (البته اگه استفاده کنند)
یادمه یه نرمافزار OCR (ایرانی) دیگهای هم تو بازار بود، حدود دویست تومن،زیاد مطمئن نیستم، ولی این یکی خیلی خداست.
بله شما درست میگید.
نرم افزار واژه شناس مال شرکت هوش مصنوعی رایورز که یه سرچ بزنید سایتش پیدا میشه.
قیمتش هم مثل اینکه حدود 150 هزار تومان یا کمی بیشتر باشه.
خیلی هم قوی تر از readiris 11 هست. اصلا این readiris که برای فارسی خیلی خطا داره. اگه حدودی بگم بالای 40 درصد خطا داره.
در مورد نظر دوستمون رهگذر، باید بگویم نرم افزار واژه شناس در واقع یک نرم افزار عربی به نام صخر است که توسط شرکت رایورز کرک شده و به صورت غیر قانونی عرضه می شود. در عین حال قابلیت و کارایی آن در مقایسه با آراکس بسیار پایین تر است.
سلام،
دکتر جان به نظر من شما یکی از پرسنل فروش شرکت هدی سیستم هستی، حالا نمی دونم پزشکها تو واحد فروش چیکار می کنند!؟!
من خودم چند تا عکس 300 دی پی آی از کتاب و روزنامه اسکن کردم و به تمام شرکتهایی که در زیر اسمشونو میارم یا خودم یا از طریق دوستم آرمان دادم تا دقت OCR هاشونو مقایسه کنم :
شرکت هوش مصنوعی رایور – نرم افزار واژه شناس نسخه 2- http://www.aisoft.ir
شرکت مدیانیک – نرم افزار روژاوه – http://www.medianik.com
شرکت پرشیا نگار – نویسه خوان فارسی نسخه 1 – http://www.persianreader.com
بنیاد پژوهشی و رباتیک سپنتا – OCR فارسی سپنتا – http://www.srrf.net/plpl/Products/OCR
شرکت هدی سیستم – نرم افزار آراکس – http://www.hodasystems.com
یکی از شرکتها که اسمشم نمی یارم گفت قیمت OCR نزدیک 7-8 میلیون هست حالا دقتشم همچین بالا نبود و نمی دونم واقعا چرا این قیمت را برای نرم افزارشون گذاشتن، من که کلا به خاطر قیمتش بی خیالش شدم.
ولی وقتی یه جدول برای خودم کشیدم و قیمت و نتیجه و دقت OCR تقریبی بقیه را مقایسه کردم دیدم واژه شناس با اینکه در صورت آموزش فونت با آراکس فرقی نداره قیمتش خیلی مناسبتر هست، حالا آدمهایی مثل من که 320 هزار تومن را هم قسطی می دهند چطور بیان یک میلیون و اندی بدن پای آراکس.
من نمی خوام از شرکت هوش مصنوعی یا کس دیگری حمایت کنم ولی قیمت آراکس به نسبت کارآیی اش خیلی زیاد هست.
با تشکر
مریم علوی گنجه ای
@مریم علوی گنجه ای,
بنده مدیر سایت پرشیانگار، نویسه خوان فارسی هستم، طی دو ماه اخیر هیچ گونه تقاضایی اینچنینی نداشتیم. میخواهید واژهنشناس رایورز را تبلیغ کنید، درست تبلیغ کنید. هر آدمی که اندکی از OCR بداند، میداند که واژهنشناس همان Automatic Reader از شرکت صخر است که تنها منوهای آن فارسی شده است
@حسین, متاسفم که من را هم ردیف خودتان قرار می دهید و حتی آمار افرادی که با شما تماس می گیرند را کامل ندارید لزوم ندارد که من در تماس با شما کامل خودم را معرفی کرده باشم کافیست کمی فکر کنید تا یادتان بیاید برای چه کسانی نرم افزارتان را تست کرده اید!
من قصد بدگویی از هیچ شرکتی را ندارم و همه این شرکته در صورت زحمت کشیده اند و محصول ارائه داده اند حالا یا خارجی یا داخلی، برای من کارایی و قیمت مهم هست!؟!
پس لزومی ندارد لو دهید کدام نرم افزار 7-8 میلیون هست….
لینک دانلود دموی پکیج نرم افزار های Farsi OCR :
http://www.4shared.com/file/83664706/89a0b107/Farsi_OCR_DVD_Package_version_10.html
تصاویری از محیط مجموعه:
http://www.upload2world.com/pic109/upload2world_f4303.jpg
http://www.upload2world.com/pic109/upload2world_6c347.jpg
در رابطه با پکیج نرم افزار های ocr فارسی باید بگم که نرم افزارها تست شده و آخرین نسخه می باشد، نسخه DVD کلیه برنامه های موجود در دمو و کلیه نرم افزار های کمکی و مکمل (که در طی عملیات تبدیل زیاد به کار می رود)با قیمت 8000 تومان فقط برای دانشجویان و قیمت آزاد 10000 تومان می باشد این مجموعه همچنین حاوی آموزش فارسی نحوه راه اندازی برنامه ها و نحوه استفاده ازOCR فارسی می باشد.
نرم افزارها تست شده و آخرین نسخه می باشد،
توجه : هنوزهیچ برنامه OCR فارسی وجود ندارد که کارکتر های فارسی رو 100 % بدون غلط تبدیل کند(حتی نرم افزار های بسیار گران قیمت ساخت داخل کشور هم هنوز نمی توانند بدون غلط عمل تبدیل را انجام بدهند) اما برنامه هایOCR این پکیج با دقت 90-80 % از بیست فونت مشهور فارسی پشتیبانی می کنند و اگر فایل PDF و یا عکس اسکن شده شما رزولیشن و درجه تفکیک 300 دی پی آی به بالا داشته باشد(که به صورت مجازی نیز با نرم افزارهای ارائه شده می توان این کار را انجام داد) فایل متنِ خروجی، صحت مناسب و قابل قبولی دارد و با یک ویرایش دستی ساده کامل می شود که در مقابل هزینه پرینت و تایپ یک عکس اسکن شده یا فایل PDF بسیار مقرون به صرفه تر خواهد بود.
از دوستانی که این پک کامل ، جدیدو بسیار مفید و ارزان را می خواهند لطفاً فقط در وقت اداری تماس بگیرند.
09132023815 aminepouya@yahoo.com
واقعا مسخره هست که یه شرکت آمریکایی هیولا رو با یه خرده شرکت مقایسه کنیم اگه واقعا زبان اونا بود که چیزایی می ساختن که باور نمی کردیم ولی فعلا به نظر میرسه که همین ورژن نهایی 12 Readiris خیلی از مشکلات رو حل کرده
هیچ احمقی هزینه رو اینجوری به کاربر تحمیل نمیکنه با IRIS که مقایسه کنید میشه فهمید سطح درامد و قدرت خرید ما و قیمت این محصول ایرانی چقدر عادلانست (بلانسبت)
من دیروز شاهد یک تماس تلفنی با شرکت هدی سیستم برای درخواست یک SDK از نرم افزار آراکس بودم. مبلغی که شرکت درخواست کرد واقعا عالی بود، 15 میلیون تومان 🙂
به نظر من همش تو ایران کلاه برداری هست
یک مثال
روزی که من دیدم نرم افزار مترجم پدیده و مترجم دیگه امدن تو بازار ایران که شرکت های خصوصی یعنی نوشته بودن اول این که قیمت از 450 هزار تومان تو چند سال پیش دلار ارزان بود قیمت این بود تا یک میلون نیم
و کارایی هم نداشتند حالا گوگل رایگان داره ترجمه میکنه فقط اینترنت میخواد
دومین مورد اینه که تا وب سایت ocr آنلاین رایگان هست نباید
یک نرم افزار ocr از داخل ایران بخرید همش … هست بس
وب سایت های زیر زبان عربی را پشتیبانی میکنه استفاده کنید به جای زبان فارسی
http://www.i2ocr.com/
http://www.ocr-extract.com/
سلام من یه برنامه اوسیار کاملا فارسی میخوام که آگهی های روزنامه رو به متن تبدیل کنه کسی هست به من معرفی کنه
خیلی خیلی خیلی ممنون میشم
خیلی وقت دنبالشم کارمم گیره این برنامه اس
سلام
برنامه نویسه خوان آراکس اصلاً توی اینترنت موجود نیست و خرید اینترنتی هم نداره ! پس چطور میشه اونو خرید ؟ لطفاً اگه جایی برای خرید این نرم افزار هست راهنمایی گنید . با تشکر
بله، لطفا راهنمایی بفرمایید!