Big5

Große 5 oder Big5 sind eine chinesische Charakter-Verschlüsselungsmethode, die in Taiwan, Hongkong und Macau für Traditionelle chinesische Charaktere verwendet ist.

Festland China, das Vereinfachte chinesische Charaktere verwendet, verwendet das GB stattdessen.

Organisation

Die ursprüngliche Big5 Codierung wird zuerst durch die Gebrauch-Frequenz sortiert, von der Schlag-Zählung letzt von radikalem Kangxi zweit.

Die ursprüngliche Big5 Codierung hat an vielen allgemein verwendeten Charakteren Mangel gehabt. Um dieses Problem zu beheben, hat jeder Verkäufer seine eigene Erweiterung entwickelt. Die ETen Erweiterung ist ein Teil des Big5 aktuellen Standards durch die Beliebtheit geworden.

Die Struktur von Big5 passt sich dem ISO 2022-Standard nicht an, aber trägt eher eine bestimmte Ähnlichkeit zur Verschiebung JIS Verschlüsselung. Es ist eine Codierung des doppelten Bytes (DBCS) mit der folgenden Struktur:

(das Präfix 0x, hexadecimal Zahlen wichtig seiend).

Bestimmte Varianten der Big5 Codierung, zum Beispiel der HKSCS, verwenden eine ausgebreitete Reihe für das Leitungsbyte einschließlich Werte im 0x81 zur 0xA0-Reihe (ähnlich, um JIS Auszuwechseln).

Wenn das zweite Byte nicht in der richtigen Reihe ist, ist Verhalten unbestimmt (d. h., ändert sich vom System bis System).

Der numerische Wert individueller Big5-Codes wird oft als eine 4-stellige hexadecimal Zahl gegeben, die die zwei Bytes beschreibt, die den Big5-Code umfassen, als ob die zwei Bytes eine große endian Darstellung einer 16-Bit-Zahl waren. Zum Beispiel codieren die Big5 für einen Raum der vollen Breite, die die Bytes 0xa1 0x40 sind, wird gewöhnlich als 0xa140 oder gerade A140 geschrieben.

Genau genommen enthält die Big5-Verschlüsselung nur DBCS Charaktere. Jedoch, in der Praxis, werden die Big5-Codes immer zusammen mit einer unangegebenen, anlagenabhängigen Codierung des einzelnen Bytes verwendet (ASCII oder eine 8-Bit-Codierung wie Codeseite 437), so dass Sie eine Mischung von DBCS Charakteren und Charakteren des einzelnen Bytes im Big5-verschlüsselten Text finden werden.

Wie man

annimmt, sind Bytes in der Reihe 0x00 zu 0x7f, die nicht ein Teil eines Charakters des doppelten Bytes sind, Charaktere des einzelnen Bytes.

(Für eine detailliertere Beschreibung dieses Problems, sieh bitte die Diskussion über "Das Zusammenbringen von SBCS" unten.)

Die Bedeutung von non-ASCII einzelnen Bytes außerhalb der erlaubten Werte, die nicht ein Teil eines Charakters des doppelten Bytes sind, ändert sich vom System bis System.

In alten MS-DOS-BASIERTEN Systemen werden sie wahrscheinlich als 8-Bit-Charaktere gezeigt;

in modernen Systemen werden sie wahrscheinlich entweder unvorhersehbare Ergebnisse geben oder einen Fehler erzeugen.

Ein ausführlicherer Blick auf die Organisation

Im ursprünglichen Big5 wird die Verschlüsselung in verschiedene Zonen aufgeteilt:

Die "grafischen Charaktere" umfassen wirklich Satzzeichen, teilweise Satzzeichen (z.B, Hälfte einer Spur, Hälfte einer Ellipse; sieh unten), Fantasiezeichen, Auslandscharaktere und andere spezielle Charaktere (z.B, presentational "volle Breite" Formen, Ziffern für Ziffern von Suzhou, zhuyin fuhao, usw.)

In den meisten Verkäufer-Erweiterungen werden erweiterte Charaktere in die verschiedenen Zonen gelegt, die für benutzerbestimmte Charaktere vorbestellt sind, von denen jeder normalerweise, wie vereinigt, mit der vorhergehenden Zone betrachtet werden.

Zum Beispiel, wie man erwarten würde, wurden zusätzliche "grafische Charaktere" (z.B, Satzzeichen) in die 0xa3c0-0xa3fe-Reihe gelegt, und zusätzlicher logograms würde entweder in den 0xc6a1-0xc8fe oder in die 0xf9d6-0xfefe-Reihe gelegt.

Manchmal ist das wegen der Vielzahl von verlängerten Charakteren nicht möglich, hinzugefügt zu werden;

zum Beispiel sind Kyrillische Briefe und japanischer kana in die mit "oft verwendeten Charakteren vereinigte Zone" gelegt worden.

Welcher Big5-Code verschlüsselt wirklich

Ein individueller Big5-Code vertritt keine ganze semantische Einheit immer. Die Big5 Codes von logograms sind immer logograms, aber Codes in den "grafischen Charakteren" Abteilung sind nicht immer ganze "grafische Charaktere". Was Big5 verschlüsselt, sind besondere grafische Darstellungen von Charakteren oder ein Teil von Charakteren, die zufällig den von zwei ASCII Charakteren unter monodrogeneinfluss genommenen Raum einfügen. Das ist ein Eigentum von Codierungen des doppelten Bytes, wie normalerweise verwendet, in CJK (Chinesisch, Japanisch und Koreanisch) Computerwissenschaft, und ist nicht ein einzigartiges Problem von Big5.

(Der obengenannte könnte etwas Erklärung durch das Stellen davon in der historischen Perspektive brauchen, weil es theoretisch falsch ist: Zurück, als Textweise-Personalcomputerwissenschaft noch die Norm war, wurden Charaktere normalerweise als einzelne Bytes vertreten, und jeder Charakter nimmt eine Position auf dem Schirm. Es gab deshalb einen praktischen Grund darauf zu bestehen, dass Charaktere des doppelten Bytes zwei Positionen auf dem Schirm nämlich aufnehmen müssen, dass Standardsoftware amerikanischer Herstellung dann modifikationsfrei in einem DBCS-basierten System sein verwendbar würde. Wenn ein Charakter eine beliebige Zahl von Schirm-Positionen nehmen kann, würde Software, die annimmt, dass das ein Byte des Textes eine Schirm-Position nimmt, falsche Produktion erzeugen. Natürlich, wenn sich ein Computer nie mit dem Textschirm befassen müsste, würde der Hersteller diese künstliche Beschränkung nicht geltend machen; der Apple Macintosh ist ein Beispiel. Dennoch muss die Verschlüsselung von sich entworfen werden, so dass sie richtig an Schirm-basierten Systemen arbeitet.)

Um diesen Punkt zu illustrieren, denken Sie den Big5 Code 0xa14b (…). Zu englischen Sprechern sieht das wie eine Ellipse aus, und der Standard von Unicode identifiziert sie als solcher; jedoch, in Chinesisch, besteht die Ellipse aus sechs Punkten, die im Raum von zwei chinesischen Charakteren passen (… …), so tatsächlich gibt es Code Nr. Big5 für die chinesische Ellipse, und der Big5 Code 0xa14b vertritt gerade Hälfte einer chinesischen Ellipse. Es vertritt nur Hälfte einer Ellipse, weil die ganze Ellipse den Raum von zwei chinesischen Charakteren nehmen sollte, und in vielen DBCS Systemen ein DBCS Charakter genau den Raum eines chinesischen Charakters nehmen muss.

In Big5 verschlüsselte Charaktere vertreten Dinge nicht immer, die in Klartext-Dateien sogleich verwendet werden können; ein Beispiel ist "Zitat-Zeichen" (0xa1ca, ), der, verwendet, wenn, erforderlich ist, um Schriftsatz laut des Titels von literarischen Arbeiten zu sein. Ein anderes Beispiel ist die Ziffern von Suzhou, der eine Form der wissenschaftlichen Notation ist, die verlangt, dass die Zahl in einer 2. Form angelegt wird, die aus mindestens zwei Reihen besteht.

Das Zusammenbringen von SBCS

In der Praxis kann Big5 nicht ohne zusammenpassende Single Byte Character Set (SBCS) verwendet werden; das soll größtenteils mit einem Vereinbarkeitsgrund tun. Jedoch, als im Fall von anderem CJK DBCS Codierungen, ist der SBCS, um zu verwenden, nie angegeben worden. Big5 ist immer als ein DBCS definiert worden, obwohl, wenn verwendet, er mit einem passenden, unangegebenen SBCS paarweise angeordnet und deshalb als verwendet werden muss, was einige Menschen einen MBCS nennen; dennoch ist Big5 allein, wie definiert, ausschließlich ein DBCS.

Der SBCS, um zu verwenden, unangegeben zu sein, deutet an, dass sich der verwendete SBCS vom System bis System theoretisch ändern kann. Heutzutage ist ASCII der einzige mögliche SBCS, den man verwenden würde. Jedoch, in alten DOS-BASIERTEN Systemen, war Codeseite 437 — mit seinen speziellen Extrasymbolen im Kontrollcodegebiet einschließlich der Position 127 — viel üblicher. Und doch, auf einem System von Macintosh mit dem chinesischen Sprachbastelsatz, oder auf einem System von Unix, das den cxterm Endemulator führt, würde der mit Big5 paarweise angeordnete SBCS nicht Codeseite 437 sein.

Außerhalb der gültigen Reihe von Big5 würden die alten DOS-BASIERTEN Systeme Dinge gemäß dem SBCS alltäglich interpretieren, der mit Big5 auf diesem System paarweise angeordnet wird. In solchen Systemen wurden Charaktere 127 bis 160 sehr wahrscheinlich zum Beispiel nicht vermieden, weil sie ungültigen Big5, aber verwendet erzeugen würden, weil sie gültige Charaktere in der Codeseite 437 sein würden.

Die moderne Charakterisierung von Big5 als ein MBCS, der aus dem DBCS von Big5 plus der SBCS von ASCII besteht, ist deshalb historisch falsch und potenziell fehlerhaft, als die Wahl des Zusammenbringens war SBCS, und ist theoretisch noch, ziemlich unabhängig des Geschmacks nach Big5, der wird verwendet.

Geschichte

Die Unfähigkeit von ASCII, große Codierungen solcher, wie verwendet, für Chinesisch, Japanisch und Koreanisch zu unterstützen, hat zu Regierungen und Industrie geführt, um kreative Lösungen zu finden, ihren Sprachen zu ermöglichen, auf Computern gemacht zu werden. Eine Vielfalt ad hoc und gewöhnlich Eigentumseingangsmethoden hat zu Anstrengungen geführt, ein Standardsystem zu entwickeln. Infolgedessen wurde Big5 Verschlüsselung vom Institut für die Informationsindustrie Taiwans 1984 definiert. Der Name "Big5" ist in der Anerkennung, dass der Standard aus der Kollaboration von fünf Taiwans am größten ES Unternehmen erschienen ist: Acer ; MiTAC (); JiaJia (), NULL EINE Technologie ( oder 01tech); und, First International Computer (FIC) ().

Big5 wurde in Taiwan und weltweit unter dem Chinesen schnell verbreitet, der die traditionelle chinesische Codierung durch seine Adoption in mehreren kommerziellen Softwarepaketen, namentlich der E ZEHN chinesisches DOS-Eingangssystem (ETen chinesisches System) verwendet hat.

Die Regierung der Republik China hat Big5 als ihr Standard Mitte der 1980er Jahre erklärt, seitdem es, bis dahin, der De-Facto-Standard war, um traditionelle Chinesen auf Computern zu verwenden.

Erweiterungen

Die ursprünglichen Großen 5 schließen nur CJK logograms von (4808 ) und (6343 ), aber nicht Briefe von den Namen von Leuten, Ortsnamen, Dialekten, Chemie, Biologie, japanischem kana ein. Infolgedessen schließen viele Große 5 Unterstützen-Software Erweiterungen ein, um die Probleme zu richten.

Der Blutandrang von Schwankungen macht UTF-8 oder UTF-16 eine konsequentere Codeseite für den modernen Gebrauch.

Verkäufer-Erweiterungen

ETEN Erweiterungen

In ETEN () chinesisches Betriebssystem werden die folgenden Codepunkte hinzugefügt, um es entgegenkommend mit der IBM5550-Codeseite zu machen:

  • A3C0-A3E0: 33 Kontrollcharaktere.
  • C6A1-C875: Kreis 1-10, Klammer 1-10, römische Briefe 1-9 (i-ix), CJK radikaler glyphs, japanischer hiragana, japanischer katakana, Kyrillische Charaktere
  • F9D6-F9FE: '', '', '', '', '', '', '', und 34 Extrasymbole.

In einigen Versionen von Eten gibt es Extrabildzeichen und Vereinfachte chinesische Charaktere.

Codeseiten von Microsoft

Microsoft () hat seine eigene Version der Big5 Erweiterung als Codeseite 950 für den Gebrauch mit Windows von Microsoft geschaffen, das die Erweiterungen von ETEN, aber nur die F9D6-F9FE-Codepunkte unterstützt. Im Windows ME wurde das Eurowährungssymbol zum Großen 5 Codepunkt A3E1, aber nicht in späteren Versionen des Betriebssystems kartografisch dargestellt.

Nach der Installation des HKSCS-Flecks des Microsofts oben auf traditionellem chinesischem Windows (oder jede Version von Windows 2000 und oben mit dem richtigen Sprachsatz) verwenden Anwendungen mit der Codeseite 950 automatisch einen verborgenen Codetisch der Seite 951. Der Tisch unterstützt alle Codepunkte in HKSCS-2001 abgesehen von den durch den Standard angegebenen Vereinbarkeitscodepunkten.

Codeseite 950, die durch Windows 2000 und Windows XP verwendet ist, stellt hiragana und katakana Charaktere zu Unicode privater Gebrauch-Bereichsblock kartografisch dar, wenn sie zu Unicode, aber zum richtigen hiragana und den katakana Blöcken von Unicode in der Windows-Aussicht exportiert.

Schriftart von ChinaSea

Schriftarten von ChinaSea () sind Traditionelle chinesische von ChinaSea gemachte Schriftarten. Die Schriftarten werden getrennt selten verkauft, aber werden mit anderen Produkten wie die chinesische Version von Microsoft Office 97 gestopft. Die Schriftarten unterstützen japanischen kana, kokuji, und andere Charaktere, die in Großen 5 fehlen. Infolgedessen sind die Erweiterungen von ChinaSea populärer geworden als die regierungsunterstützten Erweiterungen. Das ein Hongkong BBSes hatte encodings in Schriftarten von ChinaSea vor der Einführung von HKSCS verwendet.

Schriftart 'von Sakura'

Die 'Sakura' Schriftart ( Sakura Version) wird in Hongkong entwickelt und wird entworfen, um mit HKSCS vereinbar zu sein. Es fügt Unterstützung für kokuji und Eigentumsfantasiezeichen (einschließlich Doraemon) nicht gefunden in HKSCS hinzu.

Unicode-on

Unicode-on , früher BIG5 Erweiterung, erweitert GROßE 5, indem er Codeseitentische verändert, aber verwendet die Erweiterungen von ChinaSea, die mit der Version 2 anfangen. Jedoch, mit dem Bankrott von ChinaSea, später Entwicklung und der zunehmenden Beliebtheit von HKSCS und Unicode (ist das Projekt mit HKSCS nicht vereinbar), wird der Erfolg dieser Erweiterung an am besten beschränkt.

Trotz der Probleme werden zum Unicode Privaten Gebrauch-Gebiet vorher kartografisch dargestellte Charaktere zu den standardisierten Entsprechungen kartografisch wiederdargestellt, wenn man Charaktere zum Format von Unicode exportiert.

OPG

Die Websites der östlichen Täglichen Nachrichten und Sonne Täglich, gehört Oriental Press Group Limited () in Hongkong, verwenden Sie eine herunterladbare Schriftart mit einem verschiedenen Großen 5 Erweiterungscodieren als der HKSCS.

Offizielle Erweiterungen

Bildungsministerium-Schriftart von Taiwan

Das Bildungsministerium von Taiwan hat seine eigene Schriftart, die Bildungsministerium-Schriftart von Taiwan () für den Gebrauch innerlich geliefert.

Rat von Taiwan der Landwirtschaft-Schriftart

Taiwans Rat der Landwirtschaft-Schriftart, Manager Yuan hat eine kundenspezifische Schriftart-Buchstaben 133, den Rat von Taiwan der Landwirtschaft-Schriftart () eingeführt, der 84 Charaktere vom 'Fisch' radikal und 7 vom radikalen 'Vogel' einschließt.

Big5 +

Das chinesische Fundament für die Digitization Technologie () hat Big5 + 1997 eingeführt, der mehr als 20000 Codepunkte verwendet hat, um den ganzen CJK logograms in Unicode 1.1 zu vereinigen. Jedoch haben die Extracodepunkte die ursprüngliche Große 5 Definition überschritten (Big5 + verwendet 81-FE und niedrige Byte-Werte von Werten des hohen Bytes 40-7E und 80-FE), es davon abhaltend, auf Windows von Microsoft installiert zu werden.

Groß-5E

Um Windows-Benutzern zu erlauben, kundenspezifische Schriftarten zu verwenden, hat das chinesische Fundament für die Digitization Technologie Groß-5E eingeführt, der 3954 Charaktere hinzugefügt hat (in drei Blöcken von Codepunkten: 8E40-A0FE, 8140-86DF, 86E0-875C) und entfernt der japanische kana von der ETEN Erweiterung. Verschieden von Großen 5 + erweitert Big5E Große 5 innerhalb seiner ursprünglichen Definition. Mac OS X 10.3 und spätere Unterstützungen, die in den Schriftarten LiHei Pro ( Pro.ttf) und LiSong Pro ( Pro.ttf) groß-5E sind.

Big5-2003

Das chinesische Fundament für die Digitization Technologie hat eine Big5 Definition gemacht und hat sie in CNS 11643 in der Zeichen-Form gestellt, sie einen Teil des offiziellen Standards in Taiwan machend.

Big5-2003 vereinigt alle Großen 5 Charaktere, die in den ETEN 1984-Erweiterungen eingeführt sind (Code spitzt A3C0-A3E0, C6A1-C7F2 und F9D6-F9FE an), und das Eurosymbol. Kyrillische Charaktere wurden nicht eingeschlossen, weil die Autorität behauptet hat, dass CNS 11643 solche Charaktere nicht einschließt.

CDP

Der Akademie-Sinica hat eine CDP Schriftart () gegen Ende der 90er Jahre gemacht, die die letzte Ausgabe-Version 2.5 112,533 Charaktere etwas weniger eingeschlossen hat als die Schriftarten von Mojikyo.

HKSCS

Hongkong hat auch Big5 für die Charakter-Verschlüsselung angenommen. Jedoch verwendet Bewohner Kantons viele archaisch und einige umgangssprachliche chinesische Charaktere, die in der normalen Big5 Codierung nicht verfügbar waren. Um dieses Problem zu beheben, hat die Regierung von Hongkong die Big5 Erweiterungsregierung chinesische Codierung 1995 und Hongkong Ergänzende Codierung 1999 geschaffen. Die Erweiterungen von Hongkong wurden als ein Fleck allgemein verteilt. Es wird noch als ein Fleck von Microsoft verteilt, aber eine volle Schriftart von Unicode ist auch von der Regierungswebsite von Hongkong verfügbar.

Es gibt zwei Verschlüsselungsschemas von HKSCS: Ein Verschlüsselungsschema ist für den Großen 5 Codierstandard, und der andere ist für den ISO 10646 Standard. Nachfolgend auf die anfängliche Ausgabe gibt es auch HKSCS-2001 und HKSCS-2004. Der HKSCS-2004 wird technisch mit dem ISO/IEC 10646:2003 und sein Zusatzartikel 1 veröffentlicht im April 2004 von der Internationalen Organisation für die Standardisierung (ISO) ausgerichtet.

HKSCS schließt alle Charaktere von der allgemeinen ETEN Erweiterung, plus einige Charaktere von Vereinfachten Chinesen, Ortsnamen, den Namen von Leuten und kantonesischen Ausdrücken (einschließlich der Gotteslästerung) ein.

Siehe auch

Außenverbindungen


Röntgenologie / Völkerbeschreibung
Impressum & Datenschutz