ISO/IEC 8859

ISO/IEC 8859 ist ein gemeinsamer ISO und IEC Reihe von Standards für 8-Bit-Charakter encodings. Die Reihe von Standards besteht aus numerierten Teilen, wie ISO/IEC 8859-1, ISO/IEC 8859-2, usw. Es gibt 15 Teile, des aufgegebenen ISO/IEC 8859-12 ausschließend. Die ISO Arbeitsgruppe, die diese Reihe von Standards aufrechterhält, ist entlassen worden.

ISO/IEC 8859 Teile 1, 2, 3, und 4 waren ursprünglich Standard von Ecma International ECMA-94.

Einführung

Während die Bit-Muster der 95 druckfähigen ASCII Charaktere genügend sind, um Information in modernem Englisch auszutauschen, brauchen die meisten anderen Sprachen, die das lateinische Alphabet verwenden, zusätzliche Symbole, die nicht durch ASCII, wie ß (Deutsch), ñ (Spanisch), å (schwedische und andere nordische Sprachen) und ő (Ungarisch) bedeckt sind. ISO/IEC 8859 hat sich bemüht, dieses Problem durch das Verwenden des achten Bit in einem 8-Bit-Byte zu beheben, um Positionen für weitere 96 druckfähige Charaktere zu erlauben. Frühe encodings wurden auf 7 Bit wegen Beschränkungen von einigen Datenübertragungsprotokollen, und teilweise aus historischen Gründen beschränkt. Jedoch waren mehr Charaktere erforderlich, als eine einzelne 8-Bit-Charakter-Verschlüsselung einfügen konnte, so wurden mehrere mappings, einschließlich mindestens zehn entwickelt, die für verschiedene vom Latein abgeleitete Alphabete passend sind.

Die ISO/IEC 8859-n encodings enthalten nur druckfähige Charaktere und wurden entworfen, um in Verbindung mit zu den unbestimmten Bytes kartografisch dargestellten Kontrollcharakteren verwendet zu werden. Zu diesem Ende eine Reihe von mit dem IANA eingeschriebenem encodings fügen den C0-Kontrollsatz (Kontrollcharaktere hinzu, die zu Bytes 0 bis 31 kartografisch dargestellt sind) von ISO 646 und der C1-Kontrollsatz (Kontrollcharaktere, die zu Bytes 128 bis 159 kartografisch dargestellt sind) von ISO 6429, auf volle 8-Bit-Charakter-Karten mit die meisten, wenn nicht allen, zugeteilte Bytes hinauslaufend. Diese Sätze haben ISO-8859-n als ihr bevorzugter PANTOMIME-Name oder in Fällen, wo ein bevorzugter PANTOMIME-Name, ihr kanonischer Name nicht angegeben wird. Viele Menschen gebrauchen die Begriffe ISO/IEC 8859-n und ISO-8859-n austauschbar. ISO/IEC 8859-11 hat solch einen charset vermutlich nicht zuteilen lassen, weil es fast zu TIS 620 identisch war.

Charaktere

Der ISO/IEC 8859 Standard wird für den zuverlässigen Informationsaustausch, nicht die Typografie entworfen; der Standard lässt Symbole weg, die für die Qualitätstypografie, wie fakultative Binden, lockige Anführungszeichen, Spuren usw. erforderlich sind. Infolgedessen verwenden Qualitätsschriftsetzen-Systeme häufig idiosynkratische oder Eigentumserweiterungen oben auf dem ASCII und ISO/IEC 8859 Standards, oder verwenden Unicode stattdessen.

Als Faustregel, wenn ein Charakter oder Symbol nicht bereits ein Teil einer weit verwendeten Datenverarbeitungscodierung waren und auch auf Schreibmaschine-Tastaturen für eine nationale Sprache nicht gewöhnlich zur Verfügung gestellt wurden, ist es nicht hineingelangt. Folglich wurden die doppelten Richtungsanführungszeichen "und" verwendet für einige europäische Sprachen eingeschlossen, aber nicht die doppelten Richtungsanführungszeichen "und" für Englisch und einige andere Sprachen verwendet. Franzosen haben seinen œ und Œ Binden nicht bekommen, weil sie als 'oe' getippt werden konnten. Ÿ, der für den Vollkappe-Text erforderlich ist, wurde ebenso ausgelassen. Diese Charaktere wurden jedoch später mit ISO/IEC 8859-15 eingeschlossen, der auch den neuen Eurozeichen-Charakter-€ eingeführt hat. Ebenfalls holländisch hat den 'ij' und 'die IJ' Briefe nicht bekommen, weil holländische Sprecher an das Schreiben von diesen als zwei Briefe stattdessen gewöhnt geworden waren. Rumäne ist sein und (mit dem Komma) Briefe nicht am Anfang gekommen, weil diese Briefe mit und (mit der Cedille) vom Unicode Konsortium am Anfang vereinigt wurden, die Gestalten mit dem Komma unten denkend, glyph Varianten der Gestalten mit der Cedille zu sein. Jedoch wurden die Briefe mit dem ausführlichen Komma später unten zum Standard von Unicode hinzugefügt und sind auch in ISO/IEC 8859-16.

Die meisten ISO/IEC 8859 encodings stellen für verschiedene europäische Sprachen erforderliche diakritische Zeichen mit der lateinischen Schrift zur Verfügung. Andere stellen nichtlateinische Alphabete zur Verfügung: Griechisch, Kyrillisch, hebräisch, arabisch und thailändisch. Die meisten encodings enthalten nur Abstand-Charaktere, obwohl der Thai, der Hebräer und die arabischen wirklich auch sich verbindende Charaktere enthalten. Jedoch macht der Standard keine Bestimmung für die Schriften von ostasiatischen Sprachen (CJK), als ihr ideographic das Schreiben, dass Systeme viele tausend von Codepunkten verlangen. Obwohl es lateinische basierte Charaktere verwendet, baut Vietnamesisch 96 Positionen nicht ein (ohne sich verbindende diakritische Zeichen zu verwenden), auch. Jedes japanische Silbenalphabet (hiragana oder katakana, sieh Kana) würde passen, aber wie mehrere andere Alphabete der Welt werden sie im ISO/IEC 8859 System nicht verschlüsselt.

Die Teile von ISO/IEC 8859

ISO/IEC 8859 wird in die folgenden Teile geteilt:

Jeder Teil von ISO 8859 wird entworfen, um Sprachen zu unterstützen, die häufig von einander borgen, so werden die durch jede Sprache erforderlichen Charaktere gewöhnlich durch einen einzelnen Teil angepasst. Jedoch gibt es einige Charaktere und Sprachkombinationen, die ohne Abschriften nicht angepasst werden. Anstrengungen wurden gemacht, Konvertierungen so glatt zu machen, wie möglich. Zum Beispiel hat Deutsch alle seine sieben speziellen Charaktere an denselben Positionen in allen lateinischen Varianten (1-4, 9, 10, 13-16), und in vielen Positionen unterscheiden sich die Charaktere nur in den diakritischen Zeichen zwischen den Sätzen. Insbesondere Varianten 1-4 wurden gemeinsam entworfen, und haben das Eigentum, dass jeder verschlüsselte Charakter entweder an einer gegebenen Position oder überhaupt nicht erscheint.

Tisch

An der Position 0xA0 gibt es immer den nicht brechenden Raum, und 0xAD ist größtenteils der weiche Bindestrich, der sich nur an Linienbrechungen zeigt. Andere leere Felder sind entweder oder das verwendete System ist nicht im Stande, sie zu zeigen.

Es gibt als ISO/IEC 8859-7:2003 und ISO/IEC 8859-8:1999 Versionen. LRM tritt für zum Recht nach links Zeichen (U+200E) ein, und RLM tritt für Zeichen des Rechts-zu-link (U+200F) ein.

Beziehung zu Unicode und dem UCS

Seit 1991 hat das Unicode Konsortium mit ISO und IEC gearbeitet, um den Unicode Standard und ISO/IEC 10646 zu entwickeln: Universal Character Set (UCS) im Tandem. Neuere Ausgaben von ISO/IEC 8859 ausdrückliche Charaktere in Bezug auf ihre Unicode/UCS-Namen und die U+nnnn Notation, effektiv jeden Teil von ISO/IEC 8859 veranlassend, ein Unicode/UCS Charakter-Verschlüsselungsschema zu sein, das eine sehr kleine Teilmenge des UCS zu einzelnen 8-Bit-Bytes kartografisch darstellt. Die ersten 256 Charaktere in Unicode und dem UCS sind zu denjenigen in ISO/IEC-8859-1 identisch.

Codierungen des einzelnen Bytes einschließlich der Teile von ISO/IEC 8859 und Ableitungen von ihnen wurden im Laufe der 1990er Jahre bevorzugt, im Vorteil davon seiend, fest zu sein, und leichter in der Software durchgeführt: Die Gleichung von einem Byte zu einem Charakter ist einfach und für die meisten einzeln-sprachigen Anwendungen entsprechend, und es gibt keine sich verbindenden Charaktere oder verschiedene Formen. Wie Unicode-ermöglicht, sind Betriebssysteme weit verbreiteter geworden, ISO/IEC 8859 und anderes Vermächtnis encodings ist weniger populär geworden. Während Reste von ISO 8859 und Charakter-Modelle des einzelnen Bytes befestigt in vielen Betriebssystemen, Programmiersprachen, Datenlagerungssystemen bleiben, Anwendungen vernetzend, Hardware und Endbenutzer-Anwendungssoftware zeigen, verwenden modernste Rechenanwendungen Unicode innerlich, und verlassen sich auf Umrechnungstabellen, um zu und von anderem encodings, wenn notwendig, kartografisch darzustellen.

Entwicklungsstatus

Der ISO/IEC 8859 Standard wurde durch das ISO/IEC-Gelenk Technisches Komitee 1, Unterausschuss 2, Arbeitsgruppe 3 (ISO/IEC JTC 1/SC 2/WG 3) aufrechterhalten. Im Juni 2004 wurden WG 3 entlassene und Wartungsaufgaben SC 2 übertragen. Der Standard wird nicht zurzeit aktualisiert, weil sich die einzige restliche Arbeitsgruppe des Unterausschusses, WG 2, auf die Entwicklung von ISO/IEC 10646 konzentriert.

  • Veröffentlichte Versionen jedes Teils von ISO/IEC 8859, sind für eine Gebühr, von der ISO Katalogseite und vom IEC Webstore verfügbar.
  • PDF Versionen der endgültigen Entwürfe von einigen Teilen von ISO/IEC 8859, wie vorgelegt, für die Rezension & Veröffentlichung durch ISO/IEC JTC 1/SC 2/WG 3 sind am WG 3 Website verfügbar:
  • ISO/IEC 8859-1:1998 - 8-Bit-einzelnes Byte hat Schriftzeichen-Sätze, Teil 1 codiert: Lateinisches Alphabet Nr. 1 (hat Entwurf am 12. Februar 1998, veröffentlicht am 15. April 1998 datiert)
  • ISO/IEC 8859-4:1998 - 8-Bit-einzelnes Byte hat Schriftzeichen-Sätze, Teil 4 codiert: Lateinisches Alphabet Nr. 4 (hat Entwurf am 12. Februar 1998, veröffentlicht am 1. Juli 1998 datiert)
  • ISO/IEC 8859-7:1999 - 8-Bit-einzelnes Byte hat Schriftzeichen-Sätze, Teil 7 codiert: Lateinisches/griechisches Alphabet (hat Entwurf am 10. Juni 1999 datiert; ersetzt durch den ISO/IEC 8859-7:2003, veröffentlicht am 10. Oktober 2003)
  • ISO/IEC 8859-10:1998 - 8-Bit-einzelnes Byte hat Schriftzeichen-Sätze, Teil 10 codiert: Lateinisches Alphabet Nr. 6 (hat Entwurf am 12. Februar 1998, veröffentlicht am 15. Juli 1998 datiert)
  • ISO/IEC 8859-11:1999 - 8-Bit-einzelnes Byte hat Schriftzeichen-Sätze, Teil 11 codiert: Lateinische/thailändische Codierung (hat Entwurf am 22. Juni 1999 datiert; ersetzt durch den ISO/IEC 8859-11:2001, veröffentlicht am 15. Dezember 2001)
  • ISO/IEC 8859-13:1998 - 8-Bit-einzelnes Byte hat Schriftzeichen-Sätze, Teil 13 codiert: Lateinisches Alphabet Nr. 7 (hat Entwurf am 15. April 1998, veröffentlicht am 15. Oktober 1998 datiert)
  • ISO/IEC 8859-15:1998 - 8-Bit-einzelnes Byte hat Schriftzeichen-Sätze, Teil 15 codiert: Lateinisches Alphabet Nr. 9 (hat Entwurf am 1. August 1997 datiert; ersetzt durch den ISO/IEC 8859-15:1999, veröffentlicht am 15. März 1999)
  • ISO/IEC 8859-16:2000 - 8-Bit-einzelnes Byte hat Schriftzeichen-Sätze, Teil 16 codiert: Lateinisches Alphabet Nr. 10 (hat Entwurf am 15. November 1999 datiert; ersetzt durch den ISO/IEC 8859-16:2001, veröffentlicht am 15. Juli 2001)
  • ECMA Standards, die in der Absicht genau zum ISO/IEC 8859 Codierungsstandards entsprechen, können gefunden werden an:
  • Normaler ECMA-94: Einzelnes 8-Bit-Byte Codierte Schriftzeichen-Sätze - lateinische Alphabete Nr. 1 zu Nr. 4 2. Ausgabe (Juni 1986)
  • Normaler ECMA-113: 8-Bit-Einzelnes Byte Codierte Schriftzeichen-Sätze - lateinisches/kyrillisches Alphabet 3. Ausgabe (Dezember 1999)
  • Normaler ECMA-114: 8-Bit-Einzelnes Byte Codierte Schriftzeichen-Sätze - lateinisches/arabisches Alphabet 2. Ausgabe (Dezember 2000)
  • Normaler ECMA-118: 8-Bit-Einzelnes Byte Codierte Schriftzeichen-Sätze - lateinisches/griechisches Alphabet (Dezember 1986)
  • Normaler ECMA-121: 8-Bit-Einzelnes Byte Codierte Schriftzeichen-Sätze - lateinisches/hebräisches Alphabet 2. Ausgabe (Dezember 2000)
  • Normaler ECMA-128: 8-Bit-Einzelnes Byte Codierte Schriftzeichen-Sätze - lateinisches Alphabet Nr. 5 2. Ausgabe (Dezember 1999)
  • Normaler ECMA-144: 8-Bit-Einzelnes Byte Codierte Codierungen - lateinisches Alphabet Nr. 6 3. Ausgabe (Dezember 2000)
  • ISO/IEC 8859-1 zu Unicode [ftp://ftp.unicode.org/Public/MAPPINGS/ISO8859 Tische] als Klartext-Dateien kartografisch darstellend, sind am Unicode FTP Seite.
  • Informelle Beschreibungen und Codekarten für den grössten Teil von ISO/IEC 8859 Standards sind in ISO/IEC 8859 Buchstabensuppe (Spiegel) verfügbar

ISO/IEC 8859-1 / Infrarot
Impressum & Datenschutz