Daten aus PDF Datei automatisch auslesen

Hallo, folgende Situation:

PDF Datei mit z.B. 1000 Seiten, jede Seite ist eine Rechnung. Aus diesem PDF sollen je Rechnung automatisch die Felder Rechnungsnummer, Datum, Betrag ausgelesen und in eine Tabelle (Excel) mit 1000 Zeilen übernommen werden. Geht so etwas? Evtl. auch mit kommerzieller Software.

Grüsse
Sir_Quickly

Hallo Sir Quickly,
die Schwierigkeit des Projektes wird von mehreren Faktoren abhängen.

Da ist zum Beispiel relevant, ob die Rechnungen direkt als PDF erzeugt wurden oder das Ergebnis aus einem Scan sind. Ebenso ist relevant ob alle Rechnungen ein genau einheitliches Format aufweisen und wie ggf. die Scan-Qualität ausfällt.

Kommerzielle Produkte gibt es für die Stichworte „OCR“ und „Belegerfassung“. Einige von denen dürften sicherlich auch PDF direkt verarbeiten können andere kommen mit Bilddateien zurecht die man aus PDF-Dateien z.B. per Adobe Acrobat Professional erzeugen kann.

Ich habe selbst keine Erfahrungen mit den Systemen gesammelt. Das hier könnte z.B. interessant sein:
http://www.abbyy.de/flexicapture/

PDF-Dateien in einheitlichem Format, die nicht per Scanner erzeugt wurden kann man ggf. per eigenen Tools verarbeiten. Eine Möglichkeit zu Vorverarbeitung ist z.B. das Tool pdf2html (http://pdftohtml.sourceforge.net/) welches PDF-Dateien in HTML oder XML-Dateien umwandelt. Dann können per nachgelagerten selbst programmierten (!) Scripten die HTML/XML Dateien ausgewertet werden.

Ebenso kann man natürlich auch mit reinen OCR-Programmen/PDF-Konvertern (z.B. auch unter obigem ABBYY-Link) das Quelldokument in ein Textdokument wandeln und dieses mit selbst programmierten Makros durchsuchen.

Viele Grüße von IchSchwarzAlles

Ja das geht grundsätzlich.
Für einen Test bräuchte ich Testdaten.
Mit freundlichen Grüßen
Wolfgang Berto

Grüezi Sir_Quickly

Suche mal nach PDF2Word oder PDF2 Excel - damit lassen sich gewisse Dateien in ein ‚lesbareres‘ Format zurück umwandeln.

Allerdings ist das keine Garantie - besser wäre es, wenn Du direkt an die Quelldaten für das PDF heran kommen könntest.

Mit freundlichen Grüssen

Thomas Ramel

  • MVP für MS-Excel -

Hallo sir_quickly,
leider bin ich kein Experte, was das Auslesen von PDF-Inhalten betrifft. In der Fa. setzen wir eine m. W. recht teure kommerzielle SW-Lösung ein (kenne im Moment den Namen nicht).
Mit etwas Recherche im web und Tipps anderer kommst Du sicher weiter. Vielfach lese ich den Hinweis „pdftotext benutzen …“ - u. a. hier: http://www.office-loesung.de/ftopic289410_0_0_asc.php