Automatischer pdf-pdf Vergleich?

mike_river · 10. November 2019 um 08:33

Hallöchen,

ich weiß nicht mal welches das richtige Brett für diese Frage ist, notfalls verschieben.

Problemstellung:
Eine große Menge von PDF-Dateien müssen miteinander verglichen werden.
Also zB. Verzeichnis 1: 1000 Dateien, Verzeichnis 2: 1000 Dateien.

Nullhypothese (was zu beweisen wäre), dass es keine Unterschiede der Dateien in den beiden Verzeichnissen gibt.
Wenn es doch Unterschiede gibt, wo sind sie und was sind sie.
Als Unterschied zu bewerten ist ein falsch plaziertes oder fehlendes Image, ein anderer Text oder eine geänderte Reihenfolge.

Für eine Datei aus V1 mit einer Datei aus V2 kann man das problemlos über Adobe Acrobat Reader bewältigen. Für 1000 geht das nicht mehr.

Die konkrete Frage: Kennt jemand Tools, die einen solchen Vergleich entweder selbst vollautomatisch durchführen können oder über irgendeine Form der Kommandozeilenparametrisierung so angesteuert werden können, dass für den Vergleich selbst keine manuellen Aufwände entstehen?

D.h. ich suche etwas, das mindestens so gut ist, dass ein Vergleich nicht mehr Aufwand bedeutet als

VergleicheMeinePDFs -sourceDocument 1.pdf -targetDocument 2.pdf |
 UnterschiedAuswertung

Ich gehe nicht davon aus, dass es eine Dreizeiler-Lösung gibt, wenn man dazu eine kostenpflichtige SW anschaffen muss, hilft mir auch schon weiter.

Danke,
Michael

Felix_W_9c131d · 10. November 2019 um 08:33

Hallo Michael,

Problemstellung:
Eine große Menge von PDF-Dateien müssen miteinander verglichen
werden.
Also zB. Verzeichnis 1: 1000 Dateien, Verzeichnis 2: 1000
Dateien.

Nullhypothese (was zu beweisen wäre), dass es keine
Unterschiede der Dateien in den beiden Verzeichnissen gibt.

Es gibt etliche Programme, die nach Duplikaten suchen. Damit könntest du deine Verzeichnisse durchsuchen und alle Duplikate aus z.B. Verzeichnis 2 verschieben. Wenn da dann noch etwas übrig bleibt, geht die Vergleicherei los. Wenn du Glück hast, gibt es keinen Rest

Cheers, Felix

Marvin_c530f3 · 10. November 2019 um 08:33

Hallo Mike,

Problemstellung:
Eine große Menge von PDF-Dateien müssen miteinander verglichen
werden.
Also zB. Verzeichnis 1: 1000 Dateien, Verzeichnis 2: 1000
Dateien.

Nullhypothese (was zu beweisen wäre), dass es keine
Unterschiede der Dateien in den beiden Verzeichnissen gibt.
Wenn es doch Unterschiede gibt, wo sind sie
und was sind sie.
Als Unterschied zu bewerten ist ein falsch plaziertes oder
fehlendes Image, ein anderer Text oder eine geänderte
Reihenfolge.

Die konkrete Frage: Kennt jemand Tools, die einen solchen
Vergleich entweder selbst vollautomatisch durchführen können
oder über irgendeine Form der Kommandozeilenparametrisierung
so angesteuert werden können, dass für den Vergleich selbst
keine manuellen Aufwände entstehen?

zsCompare könnte dir weiterhelfen:
http://www.zizasoft.com/products/zsCompare/index.shtml
Es ist in der Lage pdf-Dateien miteinander zu vergleichen und dann die Unterschiede auszugeben:
Da es auch Kommandozeilen-gesteuert läuft, kannst Du eine Batchdatei schreiben, die deine Aufgabe erledigt:
http://www.zizasoft.com/products/zsCompare/webHelp/c…

Ähnliche Möglichkeiten soll auch Compare Suite bieten:
http://www.comparesuite.com/
ebenfalls von der Kommandozeile aus startbar:
http://www.comparesuite.com/on-line_manual/de/runnin…

Beide Programme kosten etwas und ich kenne sie nicht aus der praktischen Erfahrung, kann also nichts dazu sagen, ob sie halten, was sie versprechen.

Viele Grüße
Marvin

mike_river · 10. November 2019 um 08:34

Hallöchen,

Es gibt etliche Programme, die nach Duplikaten suchen.

Exakte Doubletten sind ja nicht das Problem, das kriege ich auch selbst mit einem Binärvergleich hin.
Hintergrund:
Ein pdf-Formatter wird ersetzt.
Laut Anforderung müssen die Outputs von Formatter1 exakt identisch mit denen von Formatter2 sein.

Da jedoch die Übersetzung selbst im entsprechenden Formatter konfiguriert ist und nichtmal abgesichert ist dass die Formatter 100% fehlerfrei sind, kann es durchaus passieren, daß da mal Fehler unterlaufen: hier das Logo drei Pixel zu klein, da die Textzeile 2 Pixel zu hoch.

Weil es nicht nur um eins, sondern um Dutzende Layouts mit jeweils zig Nebenbedingungen geht, ist davon auszugehen, dass in erster Instanz sehr viele Dateien keine Doubletten sein werden und dann möchte ich halt nicht „suchen was“, sondern "wissen wo.

pumpkin_1768a9 · 10. November 2019 um 08:34

Moien

Ein pdf-Formatter wird ersetzt.
Laut Anforderung müssen die Outputs von Formatter1 exakt
identisch mit denen von Formatter2 sein.

Durck das Zeug als bmp aus (pdf2ps, dann convert um auf bmp zu kommen) und vergleich die Bilder.

cu

softwareschmied · 10. November 2019 um 08:35

Hallo.
Bei der in der Frage angegebenen Größenordnung von jeweils 1000 PDFs in zwei Ordnern wirst du Probleme mir der Laufzeit deines Programms haben. Dauert der Vergleich zweier PDFs miteinander nur eine Sekunde so kommt man schlimmstenfalls (d.h. wenn kein PDF aus dem ersten Ordner mit einem aus dem zweiten übereinstimmt) auf 1000*1000 Sekunden (gute 11 Tage), da ja das erste PDF aus dem ersten Ordner mit 1000 aus dem zweiten Ordner verglichen werden muss, dann das zweite wieder mit den 1000, usw. 1000 mal.
Ich weiß zwar nicht in wiefern meine Annahme, dass ein Vergleich 1 Sekunde benötigt, haltbar ist, aber ich denke dass dies ein halbwegs realistisches Szenario ist.
Sollte ich mich irren so danke ich für Korrekturen.
Liebe Grüße.
Alex

mike_river · 10. November 2019 um 08:36

Grüßi,

Danke für Deine Erläuterungen.
Vorab:
ich will nicht 1000² Vergleiche machen, sondern 1000.
Die Struktur ist so:

Ordner1 : Ordner2
Datei\_alt\_1 : Datei\_neu\_1 
Datei\_alt\_2 : Datei\_neu\_2
...

Hierbei sollen alle „Alt“ Dateien exakt ihrem „Neu“ Pendant entsprechen.

Natürlich kann man „definitiv unterschiedliche“ Dateien schon allein über ein „ls | diff“ rausfinden, aber so offensichtlich werden die Unterschiede nicht sein. Die Unterschiede, mit denen ich rechne sind fehlplazierte Tags, falsche Farbcodes etc.

Ich weiß zwar nicht in wiefern meine Annahme, dass ein Vergleich 1 Sekunde benötigt, haltbar ist, aber ich denke dass dies ein halbwegs realistisches Szenario ist.

Ich habe eine (wenig) brauchbare Software gefunden, die benötigt rund 3 Sekunden für einen Dateivergleich meiner Größenordnung.
Es geht also um rund 1 Stunde Laufzeit plus Overhead, was durchaus tolerabel ist.

Das Dumme ist halt, dass ich die Identität (und bei Abweichungen: die Ursachen) für alle Fälle brauche, und die Alternative ist (arghs!) Handarbeit, so dass selbst das langsamste Tool noch eine massive Beschleunigung ist.

softwareschmied · 10. November 2019 um 08:36

Servus.
Hast du schon „Compare Suite“ ausprobiert. Informationen und eine 30-Tage Testversion findest du unter http://www.comparesuite.com/.
Ich bin mir aber nicht sicher ob dieses Programm nicht nur den Text vergleicht. Am besten du probierst mal die Demo aus.
Liebe Grüße.
Alex

mike_river · 10. November 2019 um 08:37

BMP?
Hallo,

Durck das Zeug als bmp aus (pdf2ps, dann convert um auf bmp zu kommen) und vergleich die Bilder.

Nicht mal verkehrt die Idee, ist halt leider eine immense Datenmenge - und die Genauigkeit des Vergleichs auf die Auflösung beschränkt

mike_river · 10. November 2019 um 08:37

Hallöchen,

Hast du schon „Compare Suite“ ausprobiert.

Ja, der Link wurde mir schon genannt.
Leider scheint das Programm nicht in der Lage zu sein, Formate und Reihenfolgen zu erkennen. Zumindest habe ich’s nicht hinbekommen

Danke trotzdem,
Michael

pumpkin_1768a9 · 10. November 2019 um 08:37

Moien

Nicht mal verkehrt die Idee, ist halt leider eine immense
Datenmenge

Du vergleichst doch eh nur 1000 x 2 Stück. Also müssen immer nur 2 Bilder vorhanden sein.

und die Genauigkeit des Vergleichs auf die Auflösung beschränkt

Wenn die pdf komplett als Vektorgraphen gespeichert ist kann man die Bilder beliebig aufblasen. Und in dem anderen Fall ist es egal: hochskalieren von Rasterdaten bringt keinen Informationsgewinn. Ausserdem: wenn man jede Seite auf ~1000x2000 Pixel bringt und dann noch kein Unterschied sichtbar ist fällt den Endanwendern auch nix auf.

cu

anon67740076 · 10. November 2019 um 08:37

Problemstellung:
Eine große Menge von PDF-Dateien müssen miteinander verglichen
werden.
Also zB. Verzeichnis 1: 1000 Dateien, Verzeichnis 2: 1000
Dateien.

Nullhypothese (was zu beweisen wäre), dass es keine
Unterschiede der Dateien in den beiden Verzeichnissen gibt.

fuer den test „sieht die datei a aus wie die datei b“ koennte man imagemagick evaluieren:
http://www.imagemagick.org/script/command-line-optio…

Wenn es doch Unterschiede gibt, wo sind sie
und was sind sie.

suchst du also ein ergebnis wie „auf seite 99 ist das bild rechts oben um 2mm zuweit rechts?“

Als Unterschied zu bewerten ist ein falsch plaziertes oder
fehlendes Image, ein anderer Text oder eine geänderte
Reihenfolge.

was ist eine geaenderte reihenfolge?