Skip to main content

What is التعرف الضوئي على الحروف (OCR) لملفات PDF?

التعرف الضوئي على الحروف (OCR) يحول النص الموجود داخل صورة — مثل ملف PDF ممسوح ضوئياً — إلى نص يمكن للآلة قراءته. بالنسبة لنماذج PDF، تكتشف مسارات عمل OCR الحديثة أيضاً حدود الحقول ومربعات الاختيار ومناطق التوقيع، وبذلك يصبح ملف PDF الممسوح ضوئياً المسطح قابلاً للتعبئة.

لماذا يعتبر OCR مهماً للنماذج

نصف ملفات PDF التي تصل في مسارات العمل الفعلية تكون عبارة عن مستندات ممسوحة ضوئياً مسطحة — نماذج مطبوعة قام شخص ما بمسحها ضوئياً وإرسالها بالبريد الإلكتروني. بدون OCR، لا يمكن للأداة رؤية سوى وحدات البكسل. باستخدام OCR، يمكن للأداة قراءة تسميات الحقول (مثل "الاسم"، "تاريخ الميلاد"، "رقم جواز السفر")، والعثور على المربعات الفارغة بجانبها، والتعامل مع المستند الممسوح ضوئياً كنموذج قابل للتعبئة.

ما يمكن لتقنية OCR الحديثة فعله بخلاف التعرف على النصوص

كانت تقنية OCR القديمة تقتصر على النصوص فقط. تجمع مسارات العمل الحديثة بين التعرف على الحروف ونماذج الرؤية الحاسوبية المدركة للتخطيط والتي تصنف مناطق الصفحة: هذه المنطقة حقل نصي، وهذا مربع اختيار، وهذا سطر توقيع. هذا الذكاء في فهم التخطيط هو ما يحول OCR من أداة نسخ إلى أداة لتعبئة النماذج.

مواطن قصور تقنية OCR

الجودة عامل أساسي. يعمل المسح الضوئي الواضح بدقة 300dpi بشكل شبه مثالي، بينما لا تعمل صورة الهاتف الملتقطة بزاوية في إضاءة خافتة بالكفاءة نفسها. تشكل تسميات الحقول المكتوبة بخط اليد، والمسح الضوئي بجودة الفاكس، والنماذج التي تخلط لغات متعددة في صفحة واحدة تحديات صعبة. الحل يكون متعدد المستويات — تقنية OCR أفضل للحالات السهلة، ونماذج رؤية حاسوبية مدربة على لغات متعددة للحالات الصعبة، وخطوة مراجعة بشرية للحالات الاستثنائية.

كيف يستخدم FillWizard تقنية OCR

عندما تُسقط ملف PDF مسطحاً، يُشغّل FillWizard تقنية OCR ونموذجاً مدركاً للتخطيط يكتشف الحقول بخمس لغات، بما في ذلك النماذج العربية التي تُكتب من اليمين إلى اليسار. تتم مطابقة الحقول المكتشفة مع ملفك التعريفي. قبل التصدير، تظهر لك خطوة مراجعة حيث يتم تمييز أي حقول ذات ثقة منخفضة حتى تتمكن من تصحيحها — يتم وضع القيم فوق المستند الممسوح ضوئياً الأصلي وتُصدّر كملف PDF مسطح.

Related terms