Codeseite

Codeseite ist ein anderer Begriff für die Charakter-Verschlüsselung. Es besteht aus einem Tisch von Werten, der die Codierung für eine besondere Sprache beschreibt. Die Begriff-Codeseite, die von den EBCDIC-basierten Großrechner-Systemen von IBM, aber vielen Verkäufern hervorgebracht ist, gebraucht diesen Begriff einschließlich Microsofts, SAP und Oracle Corporation. Verkäufer teilen häufig ihre eigene Codeseitenummer einer Charakter-Verschlüsselung zu, selbst wenn sie durch einen anderen Namen besser bekannt ist (zum Beispiel, hat UTF-8 Charakter-Verschlüsselung Codeseitenzahlen 1208 an IBM, 65001 an Microsoft, 4110 an SAP).

Das Codeseitenzählen-System

IBM hat das Konzept eingeführt, systematisch eine kleine aber allgemein einzigartige 16-Bit-Zahl jedem Charakter zuzuteilen, der verschlüsselt, auf den ein Computersystem oder Sammlung von Computersystemen stoßen könnten. Der Ursprung von IBM des numerierenden Schemas wird in der Tatsache widerspiegelt, dass die kleinsten (ersten) Zahlen Schwankungen der EBCDIC-Verschlüsselung von IBM zugeteilt werden und sich ein bisschen größere Zahlen auf Schwankungen von IBM beziehen, hat ASCII erweitert, der, wie verwendet, in seiner PC-Hardware verschlüsselt.

Mit der Ausgabe der Version 3.3 des PC-DOS (und das fast identische MS-DOS 3.3) hat IBM das Codeseitenzählen-System in regelmäßige PC-Benutzer eingeführt, weil die Codeseitenzahlen (und der Ausdruck "Codeseite") in neuen Befehlen verwendet wurden, der durch alle Teile des OS verwendeten Charakter-Verschlüsselung zu erlauben, auf eine systematische Weise gesetzt zu werden.

Nachdem IBM und Microsoft aufgehört haben, in den 1990er Jahren zusammenzuarbeiten, haben die zwei Gesellschaften die Liste von zugeteilten Codeseitenzahlen unabhängig von einander aufrechterhalten, auf einige widerstreitende Anweisungen hinauslaufend. Mindestens ein 3. Parteiverkäufer (Orakel) hat auch seine eigene verschiedene Liste von numerischen Anweisungen. Die aktuellen Anweisungen von IBM werden in ihrem CCSID Behältnis verzeichnet. Die Anweisungen des Microsofts scheinen, überall, aber eine Liste der Namen nicht dokumentiert zu werden und näher zu kommen, IANA Abkürzungen für die installierten Codeseiten auf jeder gegebenen Windows-Maschine können in der Registrierung auf dieser Maschine gefunden werden (diese Information wird durch Programme von Microsoft wie Internet Explorer verwendet).

Die meisten wohl bekannten Codeseiten, derjenigen für die CJK Sprachen und das Vietnamesisch ausschließend, bauen alle ihre Codepunkte 8 Bit ein und schließen nichts mehr ein als jeden Codepunkt zu einem einzelnen Charakter kartografisch darstellend; außerdem werden Techniken wie sich verbindende Charaktere, komplizierte Schriften usw. nicht beteiligt.

Die Textweise der normalen (VGA-vereinbaren) PC-Grafikhardware wird um das Verwenden einer 8-Bit-Codeseite gebaut, obwohl es möglich ist, zwei sofort mit etwas Farbentiefe-Opfer zu verwenden, und bis zu 8 im Anzeigeadapter für die leichte Schaltung versorgt werden können. Es gab eine Auswahl an 3. Parteicodeseitenschriftarten, die in solche Hardware geladen werden konnten. Jedoch ist es jetzt für Betriebssystemverkäufer gewöhnlich, um ihrem eigenen Charakter verschlüsselnde und machende Systeme zur Verfügung zu stellen, die in einer Grafikweise laufen und diese Hardware-Beschränkung völlig umgehen. Jedoch bleibt das System des Verweisens zum Charakter encodings durch eine Codeseitenummer anwendbar als eine effiziente Alternative, um Bezeichner wie diejenigen zu spannen, die durch den IETF und IANA für den Gebrauch in verschiedenen Protokollen wie E-Mail und Webseiten angegeben sind.

Beziehung zu ASCII

Die große Mehrheit von Codeseiten im aktuellen Gebrauch ist Obermengen von ASCII, ein 7-Bit-Code, der 128 Kontrollcodes und druckfähige Charaktere vertritt. In der entfernten Vergangenheit setzen 8-Bit-Durchführungen des ASCII-Codes das Spitzenbit auf die Null oder haben es als ein Paritätsbit in Netzdatenübertragungen verwendet. Als das Spitzenbit bereitgestellt wurde, um Charakter-Daten zu vertreten, konnten insgesamt 256 Charaktere und Kontrollcodes vertreten werden. Die meisten Verkäufer (einschließlich IBM) haben diese verlängerte Reihe verwendet, um Charaktere zu verschlüsseln, die durch verschiedene Sprachen und grafische Elemente verwendet sind, die die Imitation der primitiven Grafik auf Text-Only-Produktionsgeräten erlaubt haben. Kein formeller Standard hat für diese 'verlängerten Codierungen' bestanden, und Verkäufer haben die Varianten als Codeseiten gekennzeichnet, weil IBM immer für Varianten von EBCDIC encodings getan hatte.

Beziehung zu Unicode

Unicode ist eine Anstrengung, alle Charaktere von vorherigen Codeseiten in eine einzelne Charakter-Enumeration einzuschließen, die mit mehreren Verschlüsselungsschemas verwendet werden kann. Dabei werden Doppelcharaktere beseitigt, und neue Varianten, werden wie Fullwidth ASCII eingeführt. Während der konsequente Gebrauch jeder einzelnen Verschlüsselung von Unicode das Bedürfnis theoretisch beseitigen würde, verschiedene Codeseiten oder Charakter encodings nachzugehen, bleibt die Existenz von vielfachem encodings von Unicode sowie dem Bedürfnis, vereinbar mit vorhandenen Dokumenten und Systemen zu bleiben, die den älteren encodings verwenden. In der Praxis ist die verschiedene Codierung von Unicode encodings einfach ihre eigenen Codeseitenzahlen und der ganze zugeteilt worden

die anderen Codeseiten sind als encodings für verschiedene Teilmengen von Unicode technisch wiederdefiniert worden.

Beachtenswerte Codeseiten

IBM PC (OEM) Codeseiten

Diese Codeseiten wurden direkt in der Textweise-Hardware der grafischen Adapter ursprünglich eingebettet, die mit IBM PC und seinen Klonen, einschließlich des ursprünglichen MDA und der BUCHPRÜFER-Adapter verwendet sind, deren Codierungen nur durch das physische Ersetzen eines ROM-Spans geändert werden konnten, der die Schriftart enthalten hat. Die Schnittstelle jener Adapter (wettgeeifert durch alle späteren Adapter wie VGA) wurde normalerweise auf einzelne Byte-Codierungen mit nur 256 Charakteren in jeder Schriftart/Verschlüsselung beschränkt (obwohl VGA teilweise Unterstützung für ein bisschen größere Codierungen hinzugefügt hat). Seitdem die ursprüngliche Codeseite von IBM PC (Nummer 437) für den internationalen Gebrauch, mehreres teilweise vereinbares Land oder das Gebiet nicht wirklich entworfen wurde, sind spezifische Varianten erschienen. Microsoft kennzeichnet diese als die OEM-Codeseiten, weil sie durch den OEM definiert wurden, wer MS-DOS für den Vertrieb mit ihrer Hardware lizenziert hat, nicht durch Microsoft oder einen Standardkörper. Beispiele schließen ein:

Wenn, sich mit älterer Hardware, Protokollen und Dateiformaten befassend, es häufig notwendig ist, diese Codeseiten zu unterstützen, aber der Gebrauch von neueren Codeseiten, in besonderem Unicode, wird für neue Designs gefördert.

Codeseite 819 ist zu lateinischem 1, ISO/IEC 8859-1, und mit ein bisschen modifizierten Befehlen identisch, erlaubt MS-DOS-Maschinen, diese Verschlüsselung zu verwenden. Es wurde mit Minicomputern von IBM AS/400 verwendet.

Codeseiten für DBCS Codierungen

Diese Codeseiten vertreten DBCS Charakter encodings für verschiedene CJK Sprachen. In Microsoft Betriebssysteme werden diese sowohl als die "OEM-" als auch als "ANSI"-Codeseite für den anwendbaren Schauplatz verwendet.

Codeseitenzahlen von Microsoft für den verschiedenen anderen Charakter encodings

Die folgenden Codeseitenzahlen sind zu Windows von Microsoft spezifisch. IBM kann verschiedene Zahlen für diese Codeseiten verwenden.

Verschieden

  • (Zahl-Vermisste) - ASMO449 + Unterstützungsarabisch
  • (Zahl-Vermisste) - MIK Unterstützungsbulgare und Russisch ebenso

Windows (ANSI) codiert Seiten

Microsoft hat mehrere Codeseiten definiert, die als die ANSI-Codeseiten bekannt sind (weil der erste, 1252 auf einem apokryphischen ANSI Entwurf dessen basiert hat, was ISO 8859-1 geworden ist). Auf Codeseite 1252 wird auf ISO 8859-1 gebaut, aber verwendet die Reihe 0x80-0x9F für druckfähige Extracharaktere aber nicht die in ISO-8859-1 verwendeten C1-Kontrollcodes. Einige von anderen basieren teilweise auf anderen Teilen von ISO 8859, aber häufig umgeordnet, um sie näher bis 1252 zu machen.

874 - Thailändischer

Microsoft empfiehlt, dass Anwendungen UTF-8 oder UCS-2/UTF-16 statt dieser Codeseiten verwenden.

Kritik

Viele älterer Charakter encodings, außer Unicode, leiden unter mehreren Problemen.

  1. Einige Codeseitenverkäufer dokumentieren ungenügend die Bedeutung aller Codepunkt-Werte. Das vermindert die Zuverlässigkeit, Textdaten durch verschiedene Computersysteme durchweg zu behandeln.
  2. Einige Verkäufer fügen Eigentumserweiterungen auf einige Codeseiten hinzu, um bestimmte Codepunkt-Werte hinzuzufügen oder zu ändern. Zum Beispiel kann Byte \x5C in der Verschiebung JIS entweder einen Zurückhieb oder ein Yen-Währungssymbol abhängig von der Plattform vertreten.
  3. Um mehrere Sprachen in einem Programm zu unterstützen, das Unicode nicht verwendet, muss die für jede Schnur/Dokument verwendete Codeseite versorgt werden.

Wegen der umfassenden Dokumentation von Unicode, riesengroßen Repertoires von Charakteren und Stabilitätspolitik von Charakteren, sind diese Probleme selten eine Sorge für Unicode.

Anwendungen können auch mislabel Text in Windows 1252 als ISO-8859-1. Glücklich ist der einzige Unterschied zwischen diesen Codeseiten, dass die Codepunkt-Werte, die durch ISO-8859-1 für Kontrollcharaktere verwendet sind, stattdessen als zusätzliche druckfähige Charaktere in Windows 1252 verwendet werden. Da Kontrollcharaktere keine Funktion im HTML haben, neigen WWW-Browser dazu, Windows 1252 aber nicht ISO-8859-1 zu verwenden.

Private Codeseiten

Als, früh in der Geschichte von Personalcomputern, Benutzer ihre Charakter-Verschlüsselungsvoraussetzungen nicht gefunden haben, wurden entsprochene, private oder lokale Codeseiten mit Begrenzt geschaffen und Bleiben Residentdienstprogramme oder durch die Wiederprogrammierung BIOS EPROMs. In einigen Fällen wurden inoffizielle Codeseitenzahlen (z.B, cp895) erfunden.

Als verschiedenere Codierungsunterstützung verfügbar geworden ist, sind die meisten jener Codeseiten in den Nichtgebrauch, mit einigen Ausnahmen wie Kamenický oder KEYBCS2-Verschlüsselung für die tschechischen und slowakischen Alphabete gefallen. Eine andere Codierung ist Systemverschlüsselungsstandard von Iran, der von der Systemvereinigung von Iran für die persische Sprachunterstützung geschaffen wurde. Dieser Standard war im Gebrauch im Iran in DOS-BASIERTEN Programmen und nach der Einführung der Codeseite 1256 von Microsoft dieser Standard ist veraltet geworden. Jedoch sind ein Windows und DOS-Programme mit dieser Verschlüsselung noch im Gebrauch, und einige Windows-Schriftarten mit dieser Verschlüsselung bestehen.

Siehe auch

Außenverbindungen


Unabhängig / Lars Emil Johansen
Impressum & Datenschutz