Suche Suchen-Script für Webseite +PDF +.doc

Steffi_47129e · 29. Februar 2008 um 14:33

Hallo,

ich bin auf der Suche nach einer Suchfunktion für eine Webseite, die auch PDFs und Word Dateien die
sich auf der Seite befinden durchsucht. Am liebsten auf PHP-Basis.

Es darf aber keine einfache Indexierung sein, die Suche muss live auf dem Server erfolgen, da sich die
Inhalte der Webseite häufig ändern.
Es sollte möglichst kein Windows Programm sein, da ich einen Mac habe (der Server ist kein Mac).
Und die Lösung muss auf meinem eigenen Server laufen, also kein externer Dienst.

Dafür darf es auch etwas kosten.

Kennt jemand zufällig so ein Script oder Programm?

Danke für´s Lesen!

Steffi

Georg_V · 1. März 2008 um 16:01

Hallo Steffi,

das ganze geht grundsätzlich, aber dazu müsstest Du etwas mehr über Deinen Server verraten, denn Du must wahrscheinlich Programme auf Deinem Server installieren.
Details zu PDF siehe z.B. http://www.issociate.de/board/post/405077/PDF_Dateie…. Eventuell hilft auch das Projekt Lucene (http://lucene.apache.org/java/docs/), grundsätzlich ist erstmal das Problem zu lösen, dass die binären Format von M$ und Adobe gelesen (bzw. in Plaintext umgewandelt) werden können.

Wenn also die Dateien erst auf dem Server erzeugt werden, ist es eventuell sogar besser, bei der Erzeugung die notwendigen Informationen parallel dazu zu erzeugen.

MfG Georg V.

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

Steffi_47129e · 3. März 2008 um 17:13

Hallo Georg,

vielen Dank für Deine Antwort! Ich werde in dieser Richtung mal weiterforschen. Das hat mir schon sehr
geholfen und mich auf gute Ideen gebracht

Viele Grüße

Steffi

Hallo Steffi,

das ganze geht grundsätzlich, aber dazu müsstest Du etwas mehr
über Deinen Server verraten, denn Du must wahrscheinlich
Programme auf Deinem Server installieren.
Details zu PDF siehe z.B.
http://www.issociate.de/board/post/405077/PDF_Dateie….
Eventuell hilft auch das Projekt Lucene
(http://lucene.apache.org/java/docs/), grundsätzlich ist
erstmal das Problem zu lösen, dass die binären Format von M$
und Adobe gelesen (bzw. in Plaintext umgewandelt) werden
können.

Wenn also die Dateien erst auf dem Server erzeugt werden, ist
es eventuell sogar besser, bei der Erzeugung die notwendigen
Informationen parallel dazu zu erzeugen.

MfG Georg V.

anon67740076 · 3. März 2008 um 17:54

Hallo Georg,

vielen Dank für Deine Antwort! Ich werde in dieser Richtung
mal weiterforschen. Das hat mir schon sehr
geholfen und mich auf gute Ideen gebracht

ergaenzend vielleicht noch:
zumindest fuer pdf ist das recht simpel ueber pdf2ascii zu loesen.

und vllt. noch zu deinem op: auf alle faelle unbedingt und ohne widerrede mit index - es koennte toedlich sein, wenn 2 user gelichzeitig auf 100 dateien eine live volltext-suche starten. man kann ja die dokumente direkt nach dem upload indexieren.

Steffi_47129e · 3. März 2008 um 17:59

ergaenzend vielleicht noch:
zumindest fuer pdf ist das recht simpel ueber pdf2ascii zu
loesen.

und vllt. noch zu deinem op: auf alle faelle unbedingt und
ohne widerrede mit index - es koennte toedlich sein, wenn 2
user gelichzeitig auf 100 dateien eine live volltext-suche
starten. man kann ja die dokumente direkt nach dem upload
indexieren.

OK, klingt schlüssig. Da hab eich jetzt noch einen Haufen Arbeit vor mir.

Nochmal Danke!