کپچافا: برای خلق لذت پارسی دیجیتال

هنگام کامنت گذاشتن در سایتها و وبلاگها یا ورود به سایتهای مختلف داخلی یا خارجی، شما حتما به کپچا CAPTCHA برخوردهاید. «کپچا»ها همان عبارات متنیای هستند که برنامههای کامپیوتری قادر به تشخیص آنها نیستند و فقط یک کاربر انسان میتواند، عین عبارات را وارد کند، این ترتیب سایت از گزند حملههای خرابکارانه رباتهای اینترنتی در امان میماند.
علیرغم هدف اصلی کپچاها که استفاده از آنها را توسط صاحبان سایتها ناگزیر میکند، خیلی از کاربران از کپچاها بیزار هستند، تصور کنید که میخواهید وارد حساب بانکی خود شوید یا یک کامنت بگذارید و بعد مجبور باشید، تعداد زیادی کاراکتر را با دقت وارد کنید. گاهی هم این کپچاها آنقدر محو و ناخوانا هستند که کاربر با وجود تمرکز نسبی، آنها را غلط وارد میکند و ناخشنود میشود، چیز آزاردهنده این است که مجبور هستیم، همه عبارات را به لاتین وارد کنیم.
اما امروز خبر خوبی شنیدم: کپچافا راه افتاده است، سیستمی که به کلی این روند را تغییر خواهد داد، با استفاده از کپچافا صاحبان سایتهای میتوانند از عبارات پارسی به جای عبارات لاتین استفاده کنند، به این ترتیب کاربران بسیار راحتتر هستند.
یک مزیت عمده کپچافا، نسبت به کپچاهای روتین، این است که از لغات بیمعنی در آن استفاده نمیشود. سایه تهدید رباتهای هوشمند مجهز به دیکشنری همیشه کپچاها را تهدید میکند، طوری که راه چارهای جز گنجاندن عبارات بیمعنی در کپچاها باقی نمیماند، اما در مورد کپچافا خوشبختانه فعلا چنین تهدید امنیتی وجود ندارد.
مزیت دیگر استفاده از کپچافا، واضح است، ما پارسیزبان هستیم، پس چرا از عبارات پارسی استفاده نکنیم؟
با رفتن به اینجا میتوانید با شیوه نصب کپچافا آشنا شوید.
کپچافا ظاهرا با همکاری دانشکده فنی تهران و انستیتو تکنولوژی ایلینویز شکل گرفته است.
در پایان دو پیشنهاد برای تیم فنی کپچافا داریم:
۱- ترتیبی داده شود که کسانی که مهارت فنی کمتری دارند با استفاده از پلاگینهایی مثلا برای وردپرس و دیگر سیستمهای انتشا رمحتوا، راحتتر بتوانند کپچافا را نصب کنند.
۲- اما پیشنهاد دوم من شاید در صورت عملی شدن بتواند تحولی در زمینه دیجیتال کردن فرهنگ ایرانی ایجاد کند:
طبق آماری که لوییس وونآن -یکی از ایجادکنندههای سیستم کپچا- ارائه داده است، روزانه ۲۰۰ میلیون کپچا توسط مردم دنیا تایپ میشود و به طور متوسط برای تایپ هر کپچا ۱۰ ثانیه زمان استفاده میشود، حالا محاسبه کنید، زمان کل را! پس چرا از این انرژی به شیوه مطلوبی استفاده نکنیم؟!
شاید بدانید که یکی از کاربردهای جانبی کپچاها، دیجیتال کردن متون ناخوانای انگلیسی است، بعضی از کلمات موجود در کتابها از سوی OCRها ناخوانا تشخیص داده میشوند، میتوان این کلمات را به عنوان کپچا به کاربران داد تا آنها کلمات را شناسایی و به طور صحیح وارد کنند. برای حصول اطمینان از اینکه جواب وارد شده صحیح است و فرد کلمه را اشتباه تشخیص نداده، دو کلمه به کاربر داده می شود، یکی از کلمات، کلمه کلیدی است که سیستم آن را میداند و دیگری کلمه ی مبهم مورد نظر است. اگر کاربر کلمه کلیدی را درست وارد کند، به احتمال زیاد کلمه نامعلوم دیگر را هم صحیح وارد کرده است.
میتوان همین کار را در زمینه کپچافا هم انجام داد. انبوهی از اسناد، کتابها، مجلهها و متون ارزشمندی که به زبان فارسی هستند، هنوز دیجیتال نشدهاند، و در شرایطی که OCRهای فارسی هم هنوز دقت بالایی ندارند، این کار بسیار ارزشمند خواهد بود.
مدتهاست که سایت گنجور به صورت هوشمندانهای متون ادبی زیادی را به فرمت متنی تبدیل میکند. حمیدرضا محمدی، پایهگذار این سایت ترتیبی داده که کتابها نخست اسکن شوند، OCRها یک متنیسازی اولیه روی آنها انجام بدهند، بعد کاربران داوطلب، این متنها را بازبینی و ویرایش کنند. (قسمت بازبینی OCR گنجور را ببینید.)
حالا با پیوند دادن سیستم گنجور (یا یک سیستم با کاربرد مشابه) با کپچافا میشود، از نیروی دهها هزار کاربر اینترنتی استفاده کرد و دیجیتال کردن کتابها را سرعت بیشتری داد.
البته در گام اول باید استفاده از کپچافا همهگیر شود، تا بتوان به عملی شدن این آرزو، امید بست.
شاید تا همین چند وقت دیگر، ماها هنگام کامنت گذاشتن یا وارد شدن به حسابهای کاربری خود، دیگر با عذاب تایپ عبارات بیمعنی لاتین روبرو نشویم و در دل، از اینکه با هر تایپ کچافا، کلمه و عبارتی از فرهنگمان را هم دیجیتال کردهایم، به خشنودی کامل برسیم.
در مورد پیوند دادن کپچافا به گنجور فکر نمیکنم راهحل خوبی باشد. این نوع کپچا تنها نوعی است که تا کنون نتوانستهاند دیکدش کنند اما تصاویر گنجور خیلی راحت توسط OCR تشخیص داده میشوند و حتی بیشتر گزینههایی که سایت برای تایید از کاربر میپرسد را OCR درست تشخیص داده است.
دقت کنید که مطابق توضیحاتی که دادم هر کپچا دو جزء داره، یک بخش که از اون برای تمایز کاربر انسان و رباتها و برنامهها استفاده میشه و جزء دوم که عبارت اسکن شده از کتاب هست. البته می دونم که عملا این روند دشواریهایی داره، اما خوب به نظرم چیزی شدنی است.
راه حل داره. همون ریکپچا رو شما اگر نگاه کنید، واژهای که از قبل میشناسه، بسیار کج و معوج و دستکاری شده هست و در واقع اونه که برای شناسایی شما استفاده میشه. واژهی دیگر که خیلی تمیز تر هست، اونه که اسکن شده است.
در ضمن، دیتابیس گنجور هم پس از پالایش توسط کاربرا طوری میشه که تقریباً جملههاش درسته. اگر یکی از جملههای تازه اسکن شدهاش به تورت بخوره، میبینی که چه افتضاحیه! (یه زمانی بیکار بودم مینشستم به گنجور کمک میکردم 😀 )
واقعا عالیه.پیشنهاداتتون هم عالی بودن
اینکه یه reCAPTCHA فارسی داشته باشیم واقعا خیلی خوبه. ولی در گام اول باید الگوریتم صحیحی پشتش باشه و در ضمن پیاده سازی صحیحی داشته باشه. از هر مدل کتابی هم میشه استفاده کرد. حتی اگه خیلی ناخوانا هم باشه یعد از یه مدت مشخص میشه و تصمیم دیگه ای برای اون کلمات گرفته خواهد شد.
الگوریتم مناسبی لازم داره که فکر می کنم همین سایت گنجور فعلا بهترین پیاده کننده این الگوریتم در داخل کشوره.
البته برای الفبای فارسی مشکلاتی هم وجود دارد. مثلا اینکه توی ویندوز کیبوردها بجای فارسی، عربی هستند و دو تا حرف «ی» (ی و ی) رو داریم و یا دو تا حرف «ک» (ک و ک) که این ها باید بهش توجه بشه. چون بعضی از متون قدیمی ما اصولا عربی هستند. و یا کشیدگی حروف یا استفاده از حمزه و … همگی باید مورد توجه قرار بگیره.
و در ضمن تشکر از یک پزشک دوست داشتنی. این همه این موارد جلوی چشممون بودن یکبار فکر نکردیم اینها رو میشه با هم ترکیب کرد و یه چیز بدرد بخور ساخت. هر چند ایده از جایی گرفته شده، ولی اینکه دغدغه زبان و ادبیات فارسی رو داشته باشید واقعا قابل تحسینه…
دکتر جان
یکی از مشکلات اساسی زبان فارسی در اینترنت نا هماهنگی هست که قبلا در فونتهای فارسی ویندوزهای قدیمی بوده و کماکان در حروفی مثل ک و ی این مشکل خودنمایی میکنه.
خیلی شده که در ویندوز ویستا با گوگل چیزی رو جستجو کردم و مطلب فارسی رو پیدا نکردم ولی بعدا متوجه شدم که گوگل بین ک و ی عربی که اون سایت فارسی با ویندوز قدیمی اش استفاده کرده و تایپ کرده با ک و ی فارسی که ویندوز ویستا داره فرق میذاره.
الان که این پروژه کسی رو در شیکاگو داره و به نظر میرسه که خبره هم هست، ای کاش گوگل رو مجبور کنن که حداقل بین ک و ی عربی و فارسی فرقی نذاره و وقتی با استفاده از یکی از اینها چیزی رو جستجو میکنیم نتیجه رو برای دیگری هم نشون بده. البته در ویندوز این مشکل فکر کنم همیشگی ماندگار خواهد بود و اگه بخواهیم یک متن تایپ شده قدیمی رو در ورد که ک و ی عربی داره با ک و ی فارسی جستجو کنیم به مشکل بر خواهیم خورد.
در همین سایت کپچا هم فکر کنم اگه کسی با ویندوز قدیمی بخواد کلمه ک و ی دار بنویسه ارور بده چون با ک و ی فارسی که اینها استفاده میکنن فرق فوکوله!!
پیشنهاد:
برای تصحیح یک متن قدیمی، هرچند که سادهترین راه، find و جایگزین کردن ک (فارسی) با ک (عربی) و ی (فارسی) با ی (عربی) است (مثلن توی word) ولی راه بهتر دیگهای هم هست که پیشنهاد میکنم استفاده کنید:
virastyar.ir
پلاگینی برای word که خیلی از ویرایشهارو میشه باهاش بهراحتی انجام داد.
آقای مجیدی، شما که لطف میکنید و چیزهای خوبو معرفی میکنید، ازتون خواهش میکنم که این پروژه رو هم معرفی کنید که هم به درد دیگران میخوره و هم شاید برخی از معترضان شما رو (در مورد تایپ و…) بتونه راضی کنه و این مسأله هم تا حد زیادی حل شه؛ و البته که به همهی ایرانیها توی تایپ کردنشون کمک میکنه.
از سایت ویراستیار:
«از قابلیتهای ویراستیار میتوان به اصلاح خطاهای املایی، اشتباهات ویرایشی و نشانهگذاری، و نیز استانداردسازی متون فارسی اشاره کرد.»
سپاسگزارم
خسته نباشد
الان دوساله که من دارم از کپچای فارسی واسه کنترل پنل فروشگاهم استفاده می کنم
حالا اینا (دانشکده فنی تهران و انستیتو تکنولوژی ایلینویز ) با هم دارن این کارو انجام میدن؟
خسته نباشن
سلام
فکر نمی کنید اینطور برخورد ها دیگه مربوط به کل کل های برنامه نویس های دوران هنرستانه؟ قطعا اکثر برنامه نویس های وب می تونن چهار تا کلمه رو روی یه canvas بنویسن ولی کپچافا این سرویس رو (که قطعا هزینه هایی مثل سرور و پشتیبانی داره) بطور رایگان در اختیار همه قرار داره. احتمالا زیرساخت های مناسبی هم برای ایده هایی که برای اسکن نسخه های خطی میشه داره. کارشون عالیه
میشه سایتت رو معرفی کنی ببینیم؟
خیلی برام جالبه که وب فارسی اینقدر داره قوی میشه.
میشه دو کلمه مورد استفاده در کپچافا رو برای آموزش کلمات جدید پارسی استفاده کرد. مثلا یکیش کلمه وارد شده از زبان بیگانه و دومیش معادل فارسیش در فرهنگستان پارسی
متخصص های ما فقط بلدند تقلید کنند
بابا یک چیز نو از خودتون بسازید!!
دقت کنید که حتی شکل ظاهری این کپچای فارسی هم کاملا دزدی است
البته این موضوع ( دزدی ایده سایتهای انگلیسی و ارائه نسخه فارسی اون) متاسفانه زیاد شده است.
خنده دار اینجاست که بازهم از این ایده های دزدی توسط سایتهای دیگه دزدی مجدد صورت میگیرد
مثل سایت ایستگاه
کار این دوستان هم مثال یک کپی کاری تمام عیار و بدون خلاقیت هست. فاقد ارزش زیادی است.
در یک پزشک از دوستان درخواست کردهام که در کاربرد لغات و اصطلاحات در بخش کامنت دقت کنند، از دید من کلون کردن هم خودش یک هنر است. در ضمن مشکلات مهندسان ما هم اصلا کم نیست. به عنوان یک وبلاگنویس ساده من با پارهای از این مشکلات آشنا هستم.
چنین امکانی برای زبان لاتین بوده در حالیکه برای زبان پارسی وجود نداشته، پس فکر نمیکنم که بشه خیلی راحت زحمات کسانی که دغدغه ایجاد این سرویس به زبان پارسی رو داشته اند به همین راحتی فاقد ارزش نامید. مخصوصاً اگر بتوانند به کمک کپچافا به دیجیتال کردن کتابهای فارسی بپردازند. اگر به وبسایتشون مراجعه کرده باشید متوجه میشید که آنها به طور مشخص به اینکه ایده بر اساس کپچا انگلیسی هست اشاره کردند و اتفاقا استفاده از شکل ظاهری مشابه خودش پایبند بودن و به اصالت شناختن کار کپچا انگلیسی هست. در حالیکه خیلی راحت میتوانستند یک باکس با ظاهر متفاوت طراحی کنند.
این پیشنهاد دومی که شما دادی چیز تازه ای نیست و گوگل مدتی است برای دیجیتال کردن کتابها از اون استفاده میکنه.
من هم ننوشتم پیشنهادم تازه است، پیشنهاد استفاده از این مطلب رو در مورد متنهای فارسی دادم.
پیشنهاد دوم فوقالعادهست
ببخشید بعد وقتی ما دیجیال شده صحیحی از اون شعر نداریم چجوری باید کپچا تشخیص بده طرف متن را درست وارد کرده یا نه؟
اگه هم داریم پس کمک خواصی نشده چون قبلا اون متن را داشتیم!؟؟
اگه به همین پروژه کپچای گوگل توجه کردی باشی همیشه دوتا کلمه برای تایپ قرار میده. یکی از این کلمات جزء اون کلماتی هست که به طور قطعی معادل متنی اون مشخص شده و دومی هم احتمالا یه حدسی در مورد اون داره. کلمه اول رو باید دقیق وارد کنی و کلمه دوم رو هم چند نفر مثل شما یک چیزی وارد میکنند. بعد با یک کار آماری یک معادل متنی قطعی برای کلمه دوم تعیین میشه
دکتر جان، این پروژه رو برای ASP.NET هم آماده کردم و در آدرس http://dotnettips.info/Post/981/captchafa قرار دادم.
ممنون بهروز جان. پیشنهاد می کنم کدت رو برای خود سایت کپچافا هم بفرستی تا در سایتشون قرار بدن. بهتر بود سایت کپچافا راهنمای مربوط به api اش رو قرار می داد تا کار دوستانی که می خواهند کد آن را برای تکنولوژیهای مختلف بنویسند راحت تر شود.
محسن جان، همین کار رو انجام دادم.
بهروز جان ضمن تشکر، آیا اطلاعات شخصیتون رو هم برای ما ارسال کردید تا بتونیم کدتون رو تحت نام خودتون منتشر کنیم؟ چون در آدرس شیکاگو ما رایانامه ای از شما دریافت نکردیم. لطفا به اون آدرس ارسال بفرمایید.
دکتر جان من به حرف شما گوش کردم، دارم پلاگین وردپرسش رو ایجاد می کنم.
این هم از لینک دانلود افزونه
labs.iehsan.ir/wp
دوستان عزیز سلام،
من از بنیان گذاران کپچافا هستم. ضمن تشکر مجدد از ۱ پزشک به عنوان اولین رسانه ای که کپچافا را معرفی کرد از تمامی دوستانی که کد استفاده از کپچافا را برای تکنولوژیها و بسترهای مختلف مینویسند پیشاپیش تشکر کرده و دعوت میکند تا کدهای خود را پس از مرتب سازی و اصلاح به همراه اطلاعات کامل شخصی خود به یکی از آدرسهای رایانامه ارائه شده در وبسایت کپچافا فرستاده تا با حفظ حقوق مولف و تحت نام خود ایشان در آنجا قرار دهیم.
با تشکر فراوان
تیم فنی کپچافا
میتونه وقتی دو تا کلمه استفاده میکنه . … دومی اش مترادف و معنی اولی باشه که دایره لغات افراد هم گسترده باشه
به نظر من تایپ کردن چندین کلمهی فارسی به عنوان کپچا، برای یک کاربر ایرانی؛ سختتر نباشه، آسانتر از تایپ کردن چند تا حرف و عدد انگلیسی نیست. با این حال از این ایده استقبال میکنم.
با سلام و خسته نباشد یک سوال داشتم آقای مجیدی برای مثال روند سایته گنجور به این صورته که با توجه به بیشترین انتخاب نوشته توسط کاربران از عکسی که برای ترجمه به دیجیتال داده، اون گزینه رو که بیشتر انتخاب شده باشه به عنوان گزینه اصلی پیدا میکنه
حالا شما گفتید که با توجه به این کپچاها دارن متون غیره دیجیتال رو به دیجیتال توسط کاربران تبدیل میکنند حالا سوال من اینجاست به عنوان مثال از کجا میدونن که این عکسی که گذاشتن زمانی که کاربر بخواد تایپ کنه چی میشه (درست تایپ کرده یا نه) مگر این از قبل خودشون اون رو نوشته باشن که مثلا این عکس یعنی این نوشته و اگر چیزی به غیر از اون تایپ بشه غلطه، خوب پس وقتی که خودشون از قبل معادل عکس رو تایپ کرده باشن دیگه چه دیجیتال کردنی توسط کاربر؟
یا این که بخش مهم که برای شناسایی غیر روبوت بودن کاربر هست تنها همون کلمه اول از دو کلمه هست و عکس دوم رو شما هر چی بنویسید فرقی نمیکنه و فقط مهمه که کلمه اول رو درست نوشته باشد؟
ممنون میشم جواب بدید
با سپاس
[…] ظرف زیبا (وبلاگ رادمان) (واسه بچه های نرم افزاری ) کپچافا: برای خلق لذت پارسی دیجیتال (یک پزشک) هفت دقیقه وحشت (یک پزشک) (درباره مریخ نورد […]
با سلام،
سعی کردیم در طی یک و نیم هفته گذشته عمده سوالات دوستان را جمع آوری کرده و پاسخ بدهیم.شما میتوانید برای مشاهده این پاسخها به بخش پرسشهای متداول در http://www.captchafa.com که به تازگی راهاندازی شده مراجعه کنید.
من جزو معدود افرادی هستم که از سایت گنجور وارد سایت یک پزشک شدم در حالی که عمدتا از یک پزشک وارد گنجور شدند
قبل از معرفی حدودا نیم ساعت ocr رو انجام دادم و شعرهای عمدتا جذاب و جالبی پیدا کردم.
وای که اگه این ایده ی دومی که دادید عملی بشه چه تحولی توی تولید محتوای وب فارسی صورت می گیره
دوباره پس از مدت ها از خوندن یک متن یک پزشک لذت بردم هر چند نوشتن متن پس از پرداخت هزینه، ناخودآگاه حس نبوغ را کور می کند
من از دموهای سایت استفاده کردم، بیشتر کلماتی که ارایه شدن عربی بودن! این کجاش پارسیه؟!
اگه قرار باشه این حرکت در جهت کنار گذاشتن یک زبان بیگانه باشه، تنها انگلیسی زبان بیگانه نیست، عربی هم زبان بیگانست!
پلاگین کپچافا برای جوملا:
http://extensions.joomla.org/extensions/access-a-security/site-security/captcha/24543
سایته کپچافا قابل دسترس نیست!
پروژه رفت رو هوا؟
متاسفانه چند وقتیه در دکان کپچافا تخته شده. افزونه هایی که برای سیستم های مدیریت محتوا هم ایجاد کرده بودن دیگه کار نمیکنه. خبری ندارید آیا این تعطیلی موقته یا دائمی؟
خیلی ابزار مفیدی بود