Hallo zusammen.
Ich beschäftige mich zur Zeit mit dem Grundlegenenden von UTF-8.
Bei UTF-8 Kodierten Zeichenfolgen (wenn die denn durch mehr als ein Byte kodiert worden sind) sind die beiden hächstwertigen Bits ab dem zweiten Byte auf 10 gesetzt, kann man ja hier gut sehen:
2 Byte Kodierung: 110xxxxx 10xxxxxx
3 Byte Kodierung: 1110xxxx 10xxxxxx 10xxxxxx
Nur warum wurde das so gemacht? Damit diese Zeichenfolge auch als UTF8 identifiziert werden kann, hm, leuchtet mir aber auch nicht ein, warum wurde es nicht auf 11 festgelegt?
Vielleicht weiß ja jemand etwas dazu.
Schöne Grüße
Disap