utf8


Internationaler Standard zur Repräsentation von Zeichen.

Bücher zum Thema bei Amazon.de

Unicode ist ein internationaler Standard, der, wie z.B. ASCII, definiert, wie Bits (bzw. Bytes) in ein Zeichen am Bildschirm umgesetzt wird.

Bei der Darstellung von Sprache auf dem Bildschirm muss jedes einzelne Zeichen bzw. Buchstabe (groß und klein) intern repräsentiert werden.

Anfänglich wurden mit ASCII 128 Zeichen (=7 Bit) willkürlich zu einer jeweiligen Bit-Folge definiert. Dies war für die englische Sprache ausreichend, sowie für einige weitere Symbole und Satzzeichen.

Für internationale Sprachen war dies nicht ausreichend, zunächst wurden weitere Zeichensätze wie Latin-1 (=ISO8859-1) geschaffen, die für 8-Bit-Folgen andere Zeichen einer Sprache definiert wurden. 7-Bit lange zeichen waren 1:1 zu ASCII kompatibel.

Mit der Zeit bildeten sich weitere Zeichensätze, z.B. ISO8859-3 für griechische Zeichen. Problematisch hierbei war, dass gleiche 8-Bit-Folgen in verschiedenen Zeichensätze unterschiedliche Bedeutung hatten: der geeignete Zeichensatz musste zusätzlich gespeichert werden.

Für symbolreiche Sprachen, wie z.B. Chinesisch reichten die verfügbaren 8-Bit erst garnicht aus (256 Zeichen).

Unicode versucht diesem Problem begegnen und einen Zeichensatz für alle Sprachen dieser Welt zu definieren.

UTF-8 ist im Internet die gebräuchlichste Form von Unicode. Hierbei werden Zeichen von bis zu 4 Byte Länge unterstützt (insgesamt 1.114.112), was für die gängigesten Sprachen der Welt ausreicht.

Großer Vorteil von UTF-8 ist die Kompatibilität zu ASCII (die ersten 128 Zeichen sind gleich), sowie die variable Länge von Zeichen: so wird ein Zeichen aus dem Bereich von ASCII mit nur einem Byte dargestellt, das Euro-Zeichen € etwa mit 3 Bytes.

Die variable Länge ist zugleich auch ein Nachteil: Programme, die UTF-8 unterstützen, müssen damit zurecht kommen, dass die Byte-Länge nichts über die tatsächliche Länge des Texts aussagt.

UTF-16 und UTF-32 beziehen sich auf die Bit-Längen der einzelnen Zeichen, die Länge in Bytes ist nicht variabel. Dies erleichtert zwar die elektronische Verarbeitung, da bei "Computertext" jedoch zu großen Prozentsätzen aus ASCII besteht, wird hier jeweils 1 Byte "verschwendet" (=50%).
SUCHE



 
 



AKTIONEN

WERBUNG

NEUIGKEITEN
07.08-14.08.2018:
Neue Begriffe

13.6.2006:
Begriff-Schnellsuche: http://clexi.com/ram