Suchmaschinen-Abfrage per CGI

Hallo,

kann mir jemand erklären, wie ich eine Suchmaschine wie AltaVista, Infoseek & co per CGI abfragen kann, und das so, dass ich die Ergebnisse selbst noch auswerten und anzeigen kann. Gibt es da eine spezielle Schnittstelle/Protokoll? Dann müsst ich nur Port & protokoll wissen…

Wie machen dies die Meta-Suchmaschinen oder Link-Checker?

Vielen Dank im Vorraus,
Udo

Wie machen dies die Meta-Suchmaschinen oder Link-Checker?

Sie machen ganz normale http-requests, und picken sich aus den html-daten die sie zurückbekommen die Suchergebnisse aus.
Die werden dann noch aufbereitet (duplkate raus usw.) und ausgegeben.

Dazu muß die Metasuchmaschine natürlich die aufzurufende seite genau kennen.

cu, holli

Wie machen dies die Meta-Suchmaschinen oder Link-Checker?

Sie machen ganz normale http-requests, und picken sich aus den
html-daten die sie zurückbekommen die Suchergebnisse aus.
Die werden dann noch aufbereitet (duplkate raus usw.) und
ausgegeben.

Whow, hätte ich nicht gedacht. Das muss doch extrem aufwändig sein, denn die Seiten-Analyse muss dann ja immer angepasst werden, sobald sich das Seitenlayout ändert…

Udo

Hi Udo,

kann mir jemand erklären, wie ich eine Suchmaschine wie
AltaVista, Infoseek & co per CGI abfragen kann, und das so,
dass ich die Ergebnisse selbst noch auswerten und anzeigen
kann. Gibt es da eine spezielle Schnittstelle/Protokoll? Dann
müsst ich nur Port & protokoll wissen…

Im CPAN findet sich ein Perlmodul als Wrapper der C-API des AltaVista Search software development kit: http://www.cpan.org/modules/by-module/AltaVista/Alta…

Ansonsten, wenn keine spezielle API verfügbar ist, kann
man die Formularfelder der Suchmaschine per CGI-Skript
ausfüllen und das Suchergebnis filtern. Ein Beipiel
zum Filtern der HTML-Seiten findet sich bei Michael
Schilli:

http://www.linux-magazin.de/ausgabe/1998/07/Clip/cli…

Gruss,
-Andreas.

Hi Udo,

kann mir jemand erklären, wie ich eine Suchmaschine wie
AltaVista, Infoseek & co per CGI abfragen kann, und das so,
dass ich die Ergebnisse selbst noch auswerten und anzeigen
kann. Gibt es da eine spezielle Schnittstelle/Protokoll? Dann
müsst ich nur Port & protokoll wissen…

Noch ein zwei interessante Sachen dazu gefunden:

CPAN-Modul WWW:Search als API zu den meisten exisitierenden
Websuchmaschinen:

http://www.cpan.org/modules/by-module/WWW/WWW-Search…

Und ein Beispiel für den Einsatz des Moduls bei Randal
Schwartz:

http://www.stonehenge.com/merlyn/WebTechniques/col44…