PDFs downloaden

BerndThomas · 24. Juli 2023 um 11:36

Hallo,

ich muss von einer Webseite mehrere 1000 Dokumente (PDF) herunterladen, weil diese als Belege gespeichert/ archiviert werden sollen. Diese Dokumente sind als Link in einer chronologischen Liste auf der Webseite verfügbar.

Unterscheiden tun sich die Links in der fünfstelligen Nummer, diese ist aber nicht immer anschließend, sondern mit unterschiedlichen Lücken, etwa so:

https://www.xyz.de/pdf?id=12345
https://www.xyz.de/pdf?id=12348
https://www.xyz.de/pdf?id=12349
https://www.xyz.de/pdf?id=12355
https://www.xyz.de/pdf?id=12362

Leider bietet diese Webseite nur die Möglichkeit, das jeweilige Dokument anzuklicken, dann öffnet das Dokument im Browser, dann kann ich auf Speichern klicken.

Das ist natürlich nicht praktikabel.

Der Webseitenbetreiber ist leider auch nicht kooperativ und bietet mir keine andere Möglichkeit an.

Kann ich das irgendwie automatisieren?

Ich habe schon nachgedacht, ein Excel/VBA-Makro zu nutzen, aber leider reichen dafür meine Programmierkenntnisse nicht aus.

Für Tipps wäre ich dankbar!

Gruß, Bernd

Axurit · 24. Juli 2023 um 11:40

Sowas macht man mit einem Skript und wget oder curl.

BerndThomas · 24. Juli 2023 um 11:48

Hallo und Danke,

kann ich als (nicht völlig computerdoofer, aber manchmal etwas begriffsstutziger) Normalsterblicher so etwas machen? Was brauche ich dafür? Gibt es mit vertretbarem Aufwand nutzbare günstige Software oder Freeware (oder ist das schon im Bordgepäck von Windows) einschließlich einem Handbuch/Webseite „wget und curl für Dummies“?

Gruß

Axurit · 24. Juli 2023 um 11:57

Ich kenne mich mit Windows nicht aus, habe aber gelesen, dass curl in Windows 10 enthalten ist und es wget als separate Anwendung gibt. Da kommen hier sicher noch Tipps von Windows -Experten.

Als erstes würde ich eine Konsole aufmachen und versuchen eine einzelne Datei herunterzuladen:

curl.exe --output datei12345.pdf --url https://www.xyz.de/pdf?id=12345

Woodpecker · 24. Juli 2023 um 11:57

Das könnte evtl. mit JDOWNLOADER klappen. Der kann Webseiten nach Downloadlinks durchsuchen und herunterladen

https://jdownloader.org/de/download/index

anon76087543 · 24. Juli 2023 um 12:57

Ich benutze für sowas das Addon „DownThemAll“ für Firefox. Benutzung ist selbsterklärend…
Gruß
frager

BerndThomas · 24. Juli 2023 um 15:25

@Axurit @Woodpecker @anon76087543

Hallo und Danke für die Hinweise!

Ich habe es jetzt lösen können, dabei waren mir eure Hinweise sehr hilfreich.

Ich habe chrome als Standardbrowser installiert, da ich bei chrome einstellen kann, dass .pdf nicht im Browserfenster geöffnet werden, sondern gedownloadet werden (leider chrome, obwohl mich die Datenhungrigkeit von google stört, aber edge oder opera bieten diese Einstellungsmöglichkeit anscheind nicht).
Ich habe die Liste mit den Links erst in eine Textdatei kopiert mit start als Zeilenanfang und als .bat abgespeichert:

start https://www.xyz.de/pdf?id=12345
start https://www.xyz.de/pdf?id=12348
start https://www.xyz.de/pdf?id=12349
start https://www.xyz.de/pdf?id=12355
start https://www.xyz.de/pdf?id=12362
…

(2.900 Zeilen)

Ich habe die .bat im Kommandozeilenmodus (cmd) aufgerufen.

Jetzt habe ich 2.900 pdfs im Downloadordner-

Ich habe chrome wieder runtergeschmissen…

Danke für die Hinweise!

Christa · 24. Juli 2023 um 14:45

Hi,

nur so für die Zukunft, da es für diesmal erledigt ist.[quote=„BerndThomas, post:7, topic:9515188“]
(leider chrome, obwohl mich die Datenhungrigkeit von google stört, aber edge oder opera bieten diese Einstellungsmöglichkeit anscheind nicht)
[/quote]

Jeder Browser bietet das an, auch Firefox neben den erwähnten, man muss sich nur die Einstellungen anschauen und die entsprechend anpassen.

Gruß
Christa

system · 24. August 2023 um 00:45

Dieses Thema wurde automatisch 30 Tage nach der letzten Antwort geschlossen. Es sind keine neuen Nachrichten mehr erlaubt.