بایگانی برچسب: ادبیات

به گنجور کمک کنید که خروجی OCRش رو تایید کنه

به قول جادی وب فارسی جاییه که ما باید از همدیگه حمایت کنیم و با این‌کار هم پیش‌رفت می‌کنیم.

احتمالا خیلی‌هاتون می‌دونید که گنجور چیه: شرکت/گروه/افرادی هستند که می‌خوان دسترسی آزاد به ادبیات فارسی رو در اختیار همه قرار بدن. برای ویندوز و اندروید (آی‌او‌اس رو مطمئن نیستم) نرم‌افزار رسمی دارن و برای ویندوزفون هم مهدی گنجینه رو نوشته (خیر سرش قرار بوده معرفیش کنه تو دو برنامه‌نویس :|)‌ که از دیتابیس گنجور استفاده می‌کنه.

فرآیند دیجیتالی کردن محتوا هم به این شکله که کتاب‌ها رو اسکن می‌کنه و با یک نرم‌افزار OCR اون‌ها رو به متن تبدیل می‌کنه. برای تایید نهایی خروجی OCR اما نیاز به نیروی انسانی هست (چون کامپیوترها ۱۰۰درصد قابل اطمینان نیستن در این زمینه‌ها) و برای این‌کار هم گنجور توی یکی از زیردامنه‌هاش، صفحه‌ای رو درست کرده که توی اون کاربرا خروجی OCR رو با متن تطبیق می‌دن یا ویرایشش می‌کنن و احتمالا برای جلوگیری از کرم ریختن بعضیا، یک خروجی رو به چند نفر می‌ده که بررسی کنن.

حالا شما هم می‌تونید توی این کار به گنجور کمک کنید. کافیه هر روز چند دقیقه وقت بذارید، برید توی این سایت و خروجی‌ها رو بررسی کنید.

غیر از دسترسی رایگان و آزاد به ادبیات فارسی یه کاربرد دیگه هم به ذهنم رسید: یه دیتابیس از کلمات فارسی و کلی کار آماری که می‌شه روی اون انجام داد. مثلا این‌که توی قرن پنجم از چه کلماتی بیش‌تر استفاده می‌شده و یا مثلا (با یک‌سری کار پیچیده‌تر) بفهمیم که ساختار افعال چجوری بوده اون زمان.

دیتابیس کلمات فارسی هم که خودمون می‌دونیم که کلی کاربرد داره توی برنامه‌های تصحیح و ویرایشگرها و توی کیبوردهای گوشی‌های هوشمند.