Hallo,
Konkret sprich wenn www.testseite.de/001 bis
www.testseite.de/1000 immer eine andere überschrift haben
möchte ich eine Tabelle haben in der jeweils die Überschrift
der einzelnen Seiten stehen. Mit Überschrift meine ich den
Header der Seite, welche auch im Browser in der Titelleiste zu
lesen ist.
Wie kann ich das am besten machen, bzw. gibt es vielleicht
sowas schon irgendwo
Wie Mettmann schon schrieb, in Java geht das, ist aber
etwas länglich. Wenn man Perl oder Python hat, braucht
man gar kein Programm dazu.
Bei wget muß man das Resultat außerdem noch extrahieren.
In Perl (Linux) wäre es dagegen:
perl -MLWP::Simple -e ‚for(1…1000){$s=$ARGV[0].sprintf("%03d",$_);print"$s\t$1\n" if get($s)=~/(.+?)/}‘ http://www.testseite.de/ > tabelle.txt
Unter Windows (cmd-shell) muß man die Stringzeichen ändern:
perl -MLWP::Simple -e „for (1…1000){$s=$ARGV[0].sprintf(qq{%%03d},$_);print qq{$s\t$1\n} if get($s)=~/(.+?)/}“ http://www.testseite.de/ > tabelle.txt
Wie Du siehst, kann man so etwas durch die „Eingabe einer Kommandozeile“
in einer Skriptsprache erreichen.
In Java gänge das wohl mit
...
URL u = new URL("http://www.testseite.de/" + nubber);
DataInputStream HTML = new DataInputStream(u.openStream());
while ((line = HTML.readLine()) != null) {
System.out.println(line);
}
...
Aber da frägst Du besser im Java-Forum.
Grüße
CMБ