pdf - معالجة - ما هي أفضل طريقة لاستيراد/قراءة البيانات من ملفات بدف؟



كيفية التعديل على ملف pdf بدون برامج (3)

نحصل على كمية كبيرة من البيانات من عملائنا في ملفات بدف في أشكال مختلفة [تخطيط الحكمة]، وعادة ما تكون هذه الملفات تقرير الإخراج، وعادة ما مشروح بشكل صحيح [أنها لا تحتاج عادة أوكر]، ولكن لم يتم تنسيقها بشكل كاف أن ببساطة نسخ عدة مئات من صفحات النص من البهلوانية لن تعمل.

أفضل طريقة وجدت حتى الآن هي كتابة نص برمجي لتحليل مخرجات شمل تقريبا (التعليقات غير صالحة والعديد من الشخصيات هربا بطرق مختلفة، é يصبح [[[e9]]] é، $ يصبح \ $،٪ يصبح \٪ ...) من أداة بدفويب سطر الأوامر (لتحويل ملفات بدف لبرنامج يسمى إيب )، والذي يعطيني عناصر النص مع مواقفهم في كل صفحة [انظر النموذج أدناه]، والذي يعمل بشكل جيد بما فيه الكفاية بالنسبة إلى التقارير التي تكون فيها نفس القيم في نفس المكان في كل صفحة أهتم بها، ولكنها تتطلب بذل المزيد من الجهد البرمجي لاستيراد ملفات بدف لمصفوفة [كروس-تاب]. بدفويب ليست على الإطلاق المقصود لهذا، وفي أحسن الأحوال يمكن تجميعها يدويا باستخدام سيغوين للنوافذ.

هل هناك مكتبات تجعل من السهل من بعض لغة البرمجة يمكنني أن أتسامح؟ وهناك أداة رسومية تكون رهيبة جدا. ومهر.

بدفتوب إخراج هذه العينة يشبه هذا:

<ipe creator="pdftoipe 2006/10/09"><info media="0 0 612 792"/>
<-- Page: 1 1 -->
<page gridsize="8">
<path fill="1 1 1" fillrule="wind">
64.8 144 m
486 144 l
486 727.2 l
64.8 727.2 l
64.8 144 l
h
</path>
<path fill="1 1 1" fillrule="wind">
64.8 144 m
486 144 l
486 727.2 l
64.8 727.2 l
64.8 144 l
h
</path>
<path fill="1 1 1" fillrule="wind">
64.8 144 m
486 144 l
486 727.2 l
64.8 727.2 l
64.8 144 l
h
</path>
<text stroke="1 0 0" pos="0 0" size="18" transformable="yes" matrix="1 0 0 1 181.8 707.88">This is a sample PDF fil</text>
<text stroke="1 0 0" pos="0 0" size="18" transformable="yes" matrix="1 0 0 1 356.28 707.88">e.</text>
<text stroke="1 0 0" pos="0 0" size="18" transformable="yes" matrix="1 0 0 1 368.76 707.88"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 692.4"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 677.88"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 663.36"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 648.84"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 634.32"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 619.8"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 605.28"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 590.76"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 576.24"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 561.72"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 547.2"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 532.68"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 518.16"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 503.64"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 489.12"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 474.6"> </text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 67.32 456.24">If you can read this</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 214.92 456.24">,</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 219.48 456.24"> you already have A</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 370.8 456.24">dobe Acrobat </text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 67.32 437.64">Reader i</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 131.28 437.64">n</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 141.12 437.64">stalled on your computer.</text>
<text stroke="0 0 0" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 337.92 437.64"> </text>
<text stroke="0 0.502 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 342.48 437.64"> </text>
<image width="800" height="600" rect="-92.04 800.64 374.4 449.76" ColorSpace="DeviceRGB" BitsPerComponent="8" Filter="DCTDecode" length="369925">
feedcafebabe...
</image>
</page>
</ipe>

Answer #1

نحن نستخدم زبدف في واحدة من التطبيقات لدينا. لها مكتبة c ++ التي تستخدم في المقام الأول لعرض قوات الدفاع الشعبي، على الرغم من أنه يحتوي على مستخرج النص التي يمكن أن تكون مفيدة لهذا المشروع.


Answer #2

هل نظرت في أسوس؟ نحن استخدامه لتطبيق ASP.net ولقد رأيت بعض الأمثلة من فسكريبت استخدامه كذلك. انها ليست مكلفة بشكل خاص إما.

http://www.aspose.com/


Answer #3

بدفتوتمل -xml

على الرغم من بدفويب يبدو أكثر تفصيلا !!





import