Hallo,
Für eine Hausarbeit möchte ich automatisch Informationen aus einer Homepage auslesen (dem Oxford English Dictionary Online - www.oed.com - nur für Mitglieder nutzbar). Und zwar habe ich eine Liste von Wörtern in einer Textdatei und möchte dazu alle Einträge im OED herausfinden um dann darin weiter nach speziellen Informationen zu suchen, was genau würde den Rahmen hier sprengen.
Nun meine Frage: Wie kann ich das am einfachsten erreichen? Mein Plan war, die Datei mit einem Programm einzulesen (ich studiere Informatik - welche Programmiersprache ist also relativ egal, z.B. Java), dann jedes Wort irgendwie in die OED-Homepage einzutragen und die Resultatshomepage automatisch auf meinen Rechner herunterzuladen, um dann weiter z.B. per regulären Ausdrücken nach Stichworten darin zu suchen. Aber wie genau schaffe ich es aus dem Programm heraus, die Homepages zu speichern?
Hat jemand eine Idee?
Auch hallo
Mit Perl und den Modulen Tie::File, WWW::Mechanize könnte man etwas erreichen, z.B. wie unter http://www.linux-magazin.de/Heft-Abo/Ausgaben/2004/0… gezeigt. Das Ergebnis der Rückgabe sollte man dann speichern.
mfg M.L.
Hallo!
Das .NET-Framework bietet für solche Sachen HTTP-Requests etc. an:
http://msdn.microsoft.com/de-de/library/system.web.h…
Nico
Hallo,
bevor ich so etwas tun würde, würde ich zunächst mal abklären, ob dies mit den Nutzungsbedingungen konform geht, oder ggf. Ärger mit sich bringen könnte. Dann würde ich außerdem mal auf der Seite nach Hinweisen suchen, ob solche Massenabfragen ggf. auch technisch behindert werden. Dann kannst Du Dir nämlich den Aufwand einer Programmierung ggf. sparen.
Ansonsten ist es technisch kein so großes Problem http-Kommunikation zu betreiben.
Gruß vom WIz
bevor ich so etwas tun würde, würde ich zunächst mal abklären,
ob dies mit den Nutzungsbedingungen konform geht, oder ggf.
Ärger mit sich bringen könnte. Dann würde ich außerdem mal auf
der Seite nach Hinweisen suchen, ob solche Massenabfragen ggf.
auch technisch behindert werden.
Hallo Wiz,
*hmmh*, ist denn nicht alles was im Internet frei zugänglich ist für den einzelnen Privatmann legal nutzbar?
D.h. wenn da Text ist oder ein Bild darf ich das lesen, anschauen, ausdrucken.
Was ich, je nach Nutzungsbedingungen ggfs. nicht darf, diese Dinge kommerziell zu „vertreiben“.
Ansonsten darf ich mir in meiner Bude die Wände mit Ausdrucken davon tapezieren.
Ist das so?
Vor Monaten habe ich mir mal ein Excel-Vba-Programm geschrieben, wo ich Suchwörter eingebe, daraufhin fragt das Programm deshalb bei google.de an und liest alle Treffer aus.
Dann habe ich alle Treffer lokal in Excel und kann sie viel feiner filtern als mit Google-Mitteln.
Ist das illegal?
Oder wird das erst illegal wenn auch andere mein Programm benutzen?
Spielts da eine Rolle ob ich hypothetisch das Programm an andere verkauft hätte oder sehr eher wahrscheinlich einfach zur Verfügung gestellt hätte?
Brauchst natürlich nur zu antworten wenn du die Antworten schon kennst , recherchieren bzw. in den Rechtsbrettern nachfragen wäre dann mein Ding.
Gruß
Reinhard
Hi, ich denke auch, dass das ok ist, da ich das ja nur für private Zwecke nutze und in dem Sinne auch keine Massenanfrage sende, sondern die Wörter nach und nach abarbeiten würde, nur eben nicht per Hand.
Super, habe gerade den Artikel durchgelesen, das ist glaube ich genau das, was ich brauche. Werde ich mich gleich mal dran setzen, vielen Dank.
Wenn ich es geschafft habe, sage ich nochmal Bescheid, wie ich es hinbekommen habe…
Hi Nico, Danke, das klingt auch ganz gut, werde aber denke ich erstmal die PERL-Variante versuchen…
Wenn ich es geschafft habe, sage ich nochmal Bescheid, wie ich
es hinbekommen habe…
Die Bedenken von wg. erlaubtem Datensammeln sind übrigens nicht von der Hand zu weisen: http://www.thomas-fahle.de/talks/WWW-Mechanize.pdf (Seite 3)
mfg M.L.
Wenn ich es geschafft habe, sage ich nochmal Bescheid, wie ich
es hinbekommen habe…Die Bedenken von wg. erlaubtem Datensammeln sind übrigens
nicht von der Hand zu weisen:
http://www.thomas-fahle.de/talks/WWW-Mechanize.pdf (Seite 3)
Hallo M.L.,
um diese Information zu erhalten muß man eine Pdf runterladen?:
Bevor man Informationen von Webseiten Dritter
automatisch ermittelt und weiterverarbeitet,
sollte man prüfen, ob dies rechtlich überhaupt
zulässig ist oder ob der Betreiber der Website
damit einverstanden ist.
Mehr steht da nicht auf Seite 3.
Gruß
Reinhard
um diese Information zu erhalten muß man eine Pdf
runterladen?:
Nein, aber der Fragesteller könnte sich die pdf-Datei interessieren, da dort Beispiele für das Vorgehen zum Extrahieren aufgeführt werden.
mfg M.L.
um diese Information zu erhalten muß man eine Pdf
runterladen?:Nein, aber der Fragesteller könnte sich die pdf-Datei
interessieren, da dort Beispiele für das Vorgehen zum
Extrahieren aufgeführt werden.
Hallo M.L.,
Nein? Okay, nehm ich mal so zur Kenntnis.
Ich hab dann wohl deine Aussage:
„Die Bedenken von wg. erlaubtem Datensammeln sind übrigens nicht von der Hand zu weisen“
irgendwie falsch gedeutet.
Gruß
Reinhard
bevor ich so etwas tun würde, würde ich zunächst mal abklären,
ob dies mit den Nutzungsbedingungen konform geht, oder ggf.
Ärger mit sich bringen könnte.
im gennannten Falle
...
Under the licence signed by the Subscriber, <u>you may not</u>:
1. remove or alter the copyright notices or other means of
identification or disclaimers as they appear in OED Online;
2. <u>systematically make printed or electronic copies</u> of multiple
extracts of OED Online for any purpose;
...
und wenn er das nicht vorhat, dürfte das ok. sein.
Grüße
CMБ
Hallo,
was da in Punkt 2 steht, ist exakt das, was der gute Mann da vorhat. Und wenn da steht „for any purpose“ ist es auch egal, wenn er die Sachen nur privat nutzen will.
Und wenn es dann auch noch technische Sperren gibt, dies zu verhindern, hat die ganze Programmiererei ohnehin vermutlich keinen Sinn.
BTW: Es ist ein verbreiteter Irrtum, dass mit der Bereitstellung von Diensten/Daten im Web irgendwelche Rechte hieran aufgegeben würden/aufgegeben werden müssten. Jeder kann bestimmen inwieweit er anderen - vollkommen egal ob für geschäftlichen oder privaten Gebrauch - Rechte in welchem Umfang auch immer einräumt.
Gruß vom Wiz
Erstmal danke für die vielen Antworten.
Das scheint tatsächlich eher bedenklich zu sein was ich da vorhabe/vorhatte… Daher werde ich die Informationen nun wohl nicht von der OED-Homepage runterladen, sondern auf ein anderes Online-Dictionary zurückgreifen. Die Ausgabeformate des OED waren eh zu verworren um da automatisch mit weiterzumachen.
Um nochmal kurz auf die technische Seite einzugehen:
Ich habe eine JAVA-Anwendung geschrieben, die automatisch für eine Liste von Wörtern in einer Textdatei das Programm HTTRack aufruft, um die Anfrageergebnisse von der Homepage (alle einzeln nacheinandern mit Wartepause, um nicht für Chaos beim Server zu sorgen) zu speichern.
Danach habe ich dann alle Ergebnisse in einzelnen HTML-Dateien liegen (soweit bin ich jetzt schon). Diese parse ich nun einfach noch durch und erhalte so meine Informationen.