Chinesische Charakter-Verschlüsselung

In der Computerwissenschaft kann chinesischer Charakter encodings verwendet werden, um Text zu vertreten, der auf den CJK Sprachen - Chinesisch, Japanisch, Koreaner - und (selten) veralteten Vietnamesen geschrieben ist, von denen alle chinesische Charaktere verwenden. Mehrerer Mehrzweckcharakter encodings passt chinesische Charaktere an, und einige von ihnen wurden spezifisch für Chinesisch entwickelt.

Der folgende ist allgemeine chinesische Charakter-Verschlüsselungssysteme:

  • Guobiao wird in Festland China und Singapur hauptsächlich verwendet. Alle Standards von Guobiao werden durch das GB vorbefestigt, die letzte Version ist GB18030, der ein ein, zwei oder vier Byte-Verschlüsselung ist.
  • Big5, der in Taiwan, Hongkong und Macau verwendet ist, ist eine eine oder zwei Byte-Verschlüsselung.
  • Unicode, mit dem Satz von CJK Vereinigte Begriffszeichen.

Anderes Verschlüsselungsschema, wie HZ wurden auch in frühen Tagen verwendet.

Guobiao wird gewöhnlich mit vereinfachten Charakteren gezeigt, und Big5 wird gewöhnlich mit traditionellen Charakteren gezeigt. Es gibt jedoch keine beauftragte Verbindung zwischen dem Verschlüsselungssystem, und die Schriftart hat gepflegt, die Charaktere zu zeigen; Schriftart und Verschlüsselung werden gewöhnlich zusammen aus praktischen Gründen gebunden.

Die Konvertierung zwischen traditionellem und vereinfachtem Chinesisch ist gewöhnlich problematisch, weil die Vereinfachung von einigen traditionellen Formen zwei oder mehr verschiedene Charaktere in eine vereinfachte Form verschmolzen hat. Das traditionelle zur vereinfachten (many-one) Konvertierung ist technisch einfach. Die entgegengesetzte Konvertierung läuft häufig auf einen Datenverlust hinaus, wenn sie sich zu frühen Formen der GB-Codierung (nämlich GB2312 80) umwandelt: Indem sie one-many kartografisch darstellen, wenn sie traditionellen glyphs dem vereinfachten glyphs zuteilen werden, werden einige Charaktere die falschen Wahlen in etwas vom Gebrauch unvermeidlich sein. So vereinfacht zur traditionellen Konvertierung verlangt häufig, dass Gebrauch-Zusammenhang oder allgemeine Ausdrücke Konflikte auflöst. Dieses Problem ist weniger von einem Problem mit neueren Standards wie GB18030 und Unicode, die getrennte Codepunkte sowohl für vereinfachte als auch für traditionelle Charaktere haben.

Ein anderes Problem ist, dass viele der Verschlüsselungssysteme Charaktere verpassen. Während die fehlenden Charaktere häufig literarisch und im gewöhnlichen Text nicht allgemein verwendet sind, wird das wirklich ein Problem, weil die Namen von Leuten häufig diese Charaktere enthalten. Ein Beispiel des Problems ist der Politiker von Taiwanese Wang Jian-Hsuan, dessen zweiter Vorname nicht in einigen Charakter-Systemen ist. Aber der neueste GB-Standard, GB18030 hat das ganze Charakter-Repertoire von Unicode 4.0, einschließlich der Erweiterungen von Unihan im Ergänzenden Ideographic Flugzeug.

Dessen Problem Verschlüsselung zu verwenden auch politische Implikationen haben kann, weil GB der offizielle Standard der Volksrepublik Chinas ist und Big5 ein De-Facto-Standard Taiwans ist.

Im Gegensatz zur Situation mit Japanisch hat es relativ wenig offene Opposition gegen Unicode gegeben, der viele der Probleme löst, die mit dem GB und Big5 beteiligt sind. Unicode wird als politisch neutral weit betrachtet, hat gute Unterstützung sowohl für vereinfachte als auch für traditionelle Charaktere, und kann zu und vom GB und Big5 leicht umgewandelt werden. Außerdem ist Unicode im Vorteil, nur auf Chinesisch nicht beschränkt zu werden, da es auch viele andere Codierungen zeigen kann.

Siehe auch

Links


Tisch / Saga von Egils
Impressum & Datenschutz