Hallo Sir Quickly,
die Schwierigkeit des Projektes wird von mehreren Faktoren abhängen.
Da ist zum Beispiel relevant, ob die Rechnungen direkt als PDF erzeugt wurden oder das Ergebnis aus einem Scan sind. Ebenso ist relevant ob alle Rechnungen ein genau einheitliches Format aufweisen und wie ggf. die Scan-Qualität ausfällt.
Kommerzielle Produkte gibt es für die Stichworte „OCR“ und „Belegerfassung“. Einige von denen dürften sicherlich auch PDF direkt verarbeiten können andere kommen mit Bilddateien zurecht die man aus PDF-Dateien z.B. per Adobe Acrobat Professional erzeugen kann.
Ich habe selbst keine Erfahrungen mit den Systemen gesammelt. Das hier könnte z.B. interessant sein:
http://www.abbyy.de/flexicapture/
PDF-Dateien in einheitlichem Format, die nicht per Scanner erzeugt wurden kann man ggf. per eigenen Tools verarbeiten. Eine Möglichkeit zu Vorverarbeitung ist z.B. das Tool pdf2html (http://pdftohtml.sourceforge.net/) welches PDF-Dateien in HTML oder XML-Dateien umwandelt. Dann können per nachgelagerten selbst programmierten (!) Scripten die HTML/XML Dateien ausgewertet werden.
Ebenso kann man natürlich auch mit reinen OCR-Programmen/PDF-Konvertern (z.B. auch unter obigem ABBYY-Link) das Quelldokument in ein Textdokument wandeln und dieses mit selbst programmierten Makros durchsuchen.
Viele Grüße von IchSchwarzAlles