Hallo,
manchmal sin es Kleinigkeiten, wo man den Grashalm vor lauter Bäume nicht findet.
Es werden mehrere Websites eingelesen. Die Websites können verschieden Content Charset haben.
Beispiel:
Bei über 20 Websites funktioniert es wunderbar. Nur bei einer greift meine Fehlermeldung und auch meiner Datenbank schmeckt die Daten nicht.
Ich sehe nur 2 Möglichkeiten:
Der Grashalm in meinen Code wurde übersehen
oder
auf der Page wird ein falscher Charset angeben.
Hier meine HorrorQuellCode dazu:
preg\_match\_all('||ismU', $PAGE , $CharSet, PREG\_SET\_ORDER);
if(empty($CharSet[0][1]))
{
preg\_match\_all('||ismU', $PAGE , $CharSet, PREG\_SET\_ORDER);
}
if(empty($CharSet[0][1]))
{ echo "
.............. Char =".$CharSet[0][1]." von ".$URL; }
if(strtoupper($CharSet[0][1]) != "UTF-8")
{ $PAGE = utf8\_encode($PAGE);
von ".$URL;
}
In $PAGE steht die eingelesene Seite.
Grundprinzip: Jede eingelesene Site soll in UTF-8 umgewandelt werden.
Wo ist mein Grashalm?
gruss
detlef