Html-code entfernen

Hallo ich muss aus Email den HTML-Code entfernen und bin auf der Suche nach einer einfachen Moeglichkeit.

Beim Googeln bin ich nur auf den HTML::stuck_out_tongue:arser gestossen, der aber sehr maechtig ist.

Da mein Programm staendig laeufen muss ist mir das einfach zu gross. Das muesste sich doch auch mit einem regulaeren Ausdruck machen lassen?
Also nur allen HTML-Code entfernen, so dass nur der Text ueberig bleibt.

Ich habe leider zu wenig Erfahrung mit regulaeren Ausdruecken, aber vielleicht gibt es da ja auch scho9n einen fertigen?

Ich bin jedenfalls nicht fuendig geworden. Kann mir jemand helfen?

Christian

Hallo,

Hallo ich muss aus Email den HTML-Code entfernen und bin auf
der Suche nach einer einfachen Moeglichkeit.

HTML::Strip z.B: http://search.cpan.org/perldoc?HTML::Strip
oder das hier: http://search.cpan.org/perldoc?HTML::FormatText::Wit…

Beim Googeln bin ich nur auf den HTML::stuck_out_tongue:arser gestossen, der
aber sehr maechtig ist.

Ich empfehle http://search.cpan.org/ als Suchmaschine für Perlmodule.

Da mein Programm staendig laeufen muss ist mir das einfach zu
gross. Das muesste sich doch auch mit einem regulaeren
Ausdruck machen lassen?
Also nur allen HTML-Code entfernen, so dass nur der Text
ueberig bleibt.

Nein. Regexes eignen sich überhaupt nicht dafür. Da muss im HTML nur ein > fehlen und schon fehlt der ganze Text aus der Ausgabe, und ähnliches.
Wer probiert, HTML mit Regexes zu bearbeiten wird irgendwann ziemlich auf die Schnauze fallen, vermutlich sogar ziemlich bald :wink:

Grüße,
Moritz

Hallo Moritz,

danke, das ist genau das richtige:

HTML::Strip z.B: http://search.cpan.org/perldoc?HTML::Strip