Daten aus PDF Datei automatisch auslesen

sir_quickly · 14. November 2019 um 06:37

Hallo, folgende Situation:

PDF Datei mit z.B. 1000 Seiten, jede Seite ist eine Rechnung. Aus diesem PDF sollen je Rechnung automatisch die Felder Rechnungsnummer, Datum, Betrag ausgelesen und in eine Tabelle (Excel) mit 1000 Zeilen übernommen werden. Geht so etwas? Evtl. auch mit kommerzieller Software.

Grüsse
Sir_Quickly

IchSchwarzAlles · 14. November 2019 um 06:37

Hallo Sir Quickly,
die Schwierigkeit des Projektes wird von mehreren Faktoren abhängen.

Da ist zum Beispiel relevant, ob die Rechnungen direkt als PDF erzeugt wurden oder das Ergebnis aus einem Scan sind. Ebenso ist relevant ob alle Rechnungen ein genau einheitliches Format aufweisen und wie ggf. die Scan-Qualität ausfällt.

Kommerzielle Produkte gibt es für die Stichworte „OCR“ und „Belegerfassung“. Einige von denen dürften sicherlich auch PDF direkt verarbeiten können andere kommen mit Bilddateien zurecht die man aus PDF-Dateien z.B. per Adobe Acrobat Professional erzeugen kann.

Ich habe selbst keine Erfahrungen mit den Systemen gesammelt. Das hier könnte z.B. interessant sein:
http://www.abbyy.de/flexicapture/

PDF-Dateien in einheitlichem Format, die nicht per Scanner erzeugt wurden kann man ggf. per eigenen Tools verarbeiten. Eine Möglichkeit zu Vorverarbeitung ist z.B. das Tool pdf2html (http://pdftohtml.sourceforge.net/) welches PDF-Dateien in HTML oder XML-Dateien umwandelt. Dann können per nachgelagerten selbst programmierten (!) Scripten die HTML/XML Dateien ausgewertet werden.

Ebenso kann man natürlich auch mit reinen OCR-Programmen/PDF-Konvertern (z.B. auch unter obigem ABBYY-Link) das Quelldokument in ein Textdokument wandeln und dieses mit selbst programmierten Makros durchsuchen.

Viele Grüße von IchSchwarzAlles

Anonym_b2ed1990adef · 14. November 2019 um 06:37

Ja das geht grundsätzlich.
Für einen Test bräuchte ich Testdaten.
Mit freundlichen Grüßen
Wolfgang Berto

Thomas_Ramel · 14. November 2019 um 06:37

Grüezi Sir_Quickly

Suche mal nach PDF2Word oder PDF2 Excel - damit lassen sich gewisse Dateien in ein ‚lesbareres‘ Format zurück umwandeln.

Allerdings ist das keine Garantie - besser wäre es, wenn Du direkt an die Quelldaten für das PDF heran kommen könntest.

Mit freundlichen Grüssen

Thomas Ramel

MVP für MS-Excel -

Axel_Balko_Fieberg · 14. November 2019 um 06:37

Hallo sir_quickly,
leider bin ich kein Experte, was das Auslesen von PDF-Inhalten betrifft. In der Fa. setzen wir eine m. W. recht teure kommerzielle SW-Lösung ein (kenne im Moment den Namen nicht).
Mit etwas Recherche im web und Tipps anderer kommst Du sicher weiter. Vielfach lese ich den Hinweis „pdftotext benutzen …“ - u. a. hier: http://www.office-loesung.de/ftopic289410_0_0_asc.php