كيف تحوِّل أي PDF ممسوح ضوئيًّا إلى نموذج قابل للتعبئة

ملف PDF الممسوح ضوئيًّا صورةٌ لنموذج. يبدو كالأصل، لكن لا يقبل أي حقلٍ إدخالًا لأنه لا توجد بِنية حقول داخل الملف. الصفحة في جوهرها صورة. اضغط على الصناديق طوال اليوم ولن يحدث شيء.
تحويل تلك الصورة إلى شيءٍ قابلٍ للتعبئة عمليَّةٌ من خمس خطوات. تغيَّرت التقنية وراء ذلك كثيرًا في العامَين الماضيَين، ولا تزال أغلب الأدوات القديمة تُخطئ فيها. هذه هي النسخة التي تعمل، مع حالات اللغات المتعدِّدة التي تُؤذي الفرق التي تتجاهلها.
ما PDF "المسطَّح" الممسوح حقًّا
حين تمسح نموذجًا ورقيًّا، يُنتج الماسحُ ملفَ PDF يحوي صورةً واحدةً أو أكثر بحجم الصفحة. لا يوجد مفهومٌ للحقل. التسميات بكسلات. الصناديق مستطيلاتٌ مرسومة فوق الصورة. لا شيء قابلٌ للاستعلام.
هذا يختلف عن AcroForm الذي يضمِّن كائنات حقولٍ بأسماءٍ وأنواعٍ ومواقع. AcroForm قابلٌ للتعبئة بالتصميم. للمزيد من السياق حول الفرق، اقرأ AcroForm مقابل PDF المسطَّح.
إن أردت أن يتصرَّف PDF الممسوح كـ AcroForm، فعليك أنت اكتشاف الحقول.
لماذا لا يكفي OCR وحده
OCR هو التقنية التي تحوِّل صور الصفحات إلى نصٍّ تقرأه الآلة. أمرِّر PDF مسطَّحًا عبر Tesseract أو أي محرِّك OCR حديث، وستحصل على قائمة كلماتٍ مع صناديقها المحيطة.
ذلك مفيد، لكنه لا يحلُّ المشكلة. يقول لك OCR ما تقوله الصفحة. لا يقول لك أيُّ مستطيلٍ فارغٍ إلى جوار "تاريخ الميلاد" هو الحقل، ولا أن المربَّع الصغير إلى جوار "أوافق" هو مربَّع اختيار، ولا أن الخطَّ الأفقي في الأسفل سطر توقيع.
من أجل ذلك تحتاج نموذج رؤيةٍ يعي التخطيط. تجمع المنظومات الحديثة بين OCR ونموذجٍ مدرَّبٍ على تخطيطات النماذج. يصنِّف كل منطقةٍ إلى إدخال نصٍّ أو مربَّع اختيار أو خيار أو توقيع، ويربطها بالتسمية الأقرب. هذا المزج هو ما يجعل الاكتشاف صالحًا.
العملية من خمس خطوات
هذا سير العمل العملي الذي نتَّبعه.
١. احصل على مسحٍ نظيفٍ بدقَّة ٣٠٠ dpi
امسح بشكلٍ مسطَّح. الماسح المسطَّح أفضل خيار. تطبيق ماسحٍ على الهاتف مقبولٌ إن صحَّح المنظور حتى تخرج الصفحة مستطيلة. صور الهاتف المائلة تفشل لأن نموذج التخطيط لا يستطيع أن يميِّز بين مستطيلٍ هو حقل وبين هندسة صفحةٍ مشوَّهة.
٢. شغِّل OCR مع اكتشاف التخطيط
الناتج تمثيلٌ منظَّمٌ للصفحة: كل كتلة نصٍّ بصندوقها المحيط، وكل حقلٍ مكتشَفٍ بنوعه وارتباطه بتسميةٍ مجاورة. هذه الخطوة تحلُّ محلَّ العشر دقائق من النقر اليدوي على كل حقلٍ التي طلبتها الأدوات القديمة.
٣. راجع الحقول منخفضة الثقة
الاكتشاف ليس سحرًا. يُعلِّم النموذجُ الحقولَ التي يشكُّ فيها: تسمياتٌ مزدحمة، حقولٌ بجوار شعارات، حقولٌ في أقسامٍ كثيفةٍ متعدِّدة الأعمدة. راجعها قبل التعبئة. خمس ثوانٍ من المراجعة هنا توفِّر عشر دقائق من التتبُّع لاحقًا.
٤. ضع القيم على طبقةٍ مستقلَّة
حين تُربط الحقول بقيم ملفِّك الشخصي، ترسم الأداةُ النصَّ على طبقةٍ شفَّافة فوق صورة الصفحة الأصلية. تبقى الصفحة دون مساس. الحبر الأصلي، بما فيه التواقيع الموجودة في المسح، يبقى في موضعه تمامًا.
٥. سطِّح وصدِّر
يدمج التسطيحُ الطبقةَ مع الصفحة في صورةٍ ساكنةٍ واحدة. يُفتح الناتج بالشكل نفسه في Adobe Acrobat وPreview على macOS وعارض PDF في Chrome وأي مشغِّل طابعات. لا يستطيع أحدٌ في الطرف المستلِم أن يعود ويعدِّل القيم، وهذا هو الوضع النهائي الوحيد المقبول للإرسالات المهمَّة.
الجانب متعدِّد اللغات
إن كانت نماذجك بلغةٍ واحدةٍ وهذه اللغة الإنجليزية، فأي محرِّك OCR حديث يكفي. إن لم تكن كذلك، فعند خطوة OCR تبدأ الأمور تصير مثيرة.
تُقرأ النماذج العربية من اليمين إلى اليسار. على محرِّك OCR أن يدرك ذلك حتى يخرج ترتيب الكلمات واتِّجاه الحقول صحيحًا. تستعمل الفرنسية والإسبانية والألمانية الحرف اللاتيني، لكنها تحمل علاماتٍ وارتباطاتٍ تُسقطها بعض المحرِّكات القديمة بصمت. النماذج ذات الكتابات المختلطة، الشائعة في معاملات التأشيرات، تضع تعليماتٍ إنجليزيةً إلى جانب حقول أسماءٍ عربية، وتحتاج محرِّكًا يعالج الاثنَين في مرَّةٍ واحدة.
تسميات الحقول تحتاج أيضًا مطابقةً دلالية. حقلٌ مكتوبٌ عليه Nationalité بالفرنسية أو Staatsangehörigkeit بالألمانية يجب أن يُسقَط على الحقل نفسه الذي يستقبل Nationality في ملفِّك. المطابقة الدلالية الحديثة تفعل هذا لك. الأدوات القديمة كانت تطلب قاموس ترجمةٍ لكل لغة.
أين يقع هذا في منظومتك
إن كان فريقك يعالج حجمًا منتظمًا من النماذج الممسوحة، سواء كانت مناقصاتٍ حكوميةً أو ملفَّات تأشيرات أو مطالبات تأمينٍ أو ملفَّات توظيف، فبناء هذه القناة بنفسك مشروع شهور. تشحنه FillWizard كسير عملٍ واحد: أنزل الـ PDF، استلم نسخةً قابلةً للتعبئة، عبِّئها، ثم صدِّرها مسطَّحة. لمعرفة كيفية ارتباط القطع، اقرأ الدليل النهائي للتعبئة التلقائية لـ PDF بالذكاء الاصطناعي.
ما يستحقُّ التجربة هذا الأسبوع
اختر ثلاثة نماذج ممسوحةً من عبء عملك الفعلي. أمرِّرها عبر أداةٍ تجمع OCR واكتشاف التخطيط. وقِّت ذلك مقابل سير العمل اليدوي الحالي. الفجوة بين "تحويل PDF ممسوحٍ في ساعة" و"تحويله في أقلَّ من دقيقة" هي تمامًا الفجوة بين أدوات الأمس ونماذج الرؤية الحالية.
قائمة مراجعة
- امسح بشكل مسطَّح بدقَّة ٣٠٠ dpi على الأقل، لا تستخدم صور الهاتف بزاوية.
- شغِّل OCR مع نموذج تخطيط يكتشف صناديق النصِّ ومربَّعات الاختيار وأسطر التوقيع.
- راجع الحقول المُعلَّمة كمنخفضة الثقة قبل ملء أي شيء.
- ضع القيم على طبقة منفصلة حتى تبقى الصفحة الأصلية كما هي.
- سطِّح الملف وصدِّره ليُفتح بالشكل نفسه في كل قارئ.
مقالات ذات صلة
Multilingual Workflowsالنماذج العربية والذكاء الاصطناعي: أسماء بكتابتين، تواريخ هجرية، وتخطيط من اليمين إلى اليسار يعمل فعلاً
معظم الأدوات تترجم البطاقة وتتوقف. العمل الفعلي على النماذج العربية يطلب اسماً بكتابتين، تواريخ هجرية، وطبقة مراجعة تتدفق من الاتجاه الصحيح.
9 دقائق للقراءةاقرأ المزيد
Visa Workflowsكيف يعبّئ الذكاء الاصطناعي نموذج DS-160 لتأشيرة أمريكا في 4 دقائق (وما لا يستطيع فعله)
DS-160 يحتاج 90 دقيقة في المرة الأولى و60 في الثانية. الذكاء الاصطناعي يعبّئ معظمه في 4 دقائق. أما المقابلة فتبقى لك وللموظف القنصلي.
8 دقائق للقراءةاقرأ المزيد
سير العمل الضريبيالإقرار الضريبي الألماني بالذكاء الاصطناعي: دليل عملي لـ Elster و Anlage N و KAP و S
Elster إلزامي لمعظم الإقرارات، لكن واجهته متعبة. هنا شرح حقيقي لكيفية عمل Anlage N و KAP و S، وكيف يعبئها الذكاء الاصطناعي من الإيصالات وقسائم الراتب قبل التقديم عبر Elster.
8 دقائق للقراءةاقرأ المزيد