ISO / IEC 8859-1 - ISO/IEC 8859-1
MIME / IANA | ISO-8859-1 |
---|---|
Alias | iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819 |
Idioma (s) | Inglés , varios otros |
Estándar | ISO / IEC 8859 |
Clasificación | ASCII extendido , ISO 8859 |
Se extiende | US-ASCII |
Residencia en | DEC MCS |
Sucesor | |
Otras codificaciones relacionadas | BraSCII |
ISO / IEC 8859-1: 1998 , Tecnología de la información - Juegos de caracteres gráficos codificados de un solo byte de 8 bits - Parte 1: Alfabeto latino No. 1 , es parte de la serie ISO / IEC 8859 de codificaciones de caracteres estándar basadas en ASCII , primero edición publicada en 1987. ISO 8859-1 codifica lo que se denomina "alfabeto latino nº 1", que consta de 191 caracteres de la escritura latina . Este esquema de codificación de caracteres se utiliza en América , Europa Occidental , Oceanía y gran parte de África . Es la base de algunos conjuntos de caracteres de 8 bits populares y los dos primeros bloques de caracteres en Unicode .
ISO-8859-1 era (de acuerdo con el estándar, al menos) la codificación predeterminada de documentos entregados a través de HTTP con un tipo MIME que comienza con "texto /" ( HTML5 cambió esto a Windows-1252 ). En octubre de 2021, el 1,2% de todos los sitios web (pero solo 5 de los 1000 principales) utilizan ISO 8859-1 . Es la codificación de caracteres de un solo byte más declarada del mundo en la web, pero como los navegadores web la interpretan como el superconjunto Windows-1252, los documentos pueden incluir caracteres de ese conjunto.
Dependiendo del país, el uso puede ser mucho más alto que el promedio mundial, por ejemplo, para Alemania con un 5,1% (e incluyendo Windows-1252 con un 5,6%).
ISO-8859-1 fue la codificación predeterminada de los valores de ciertos encabezados HTTP descriptivos, y definió el repertorio de caracteres permitidos en los documentos HTML 3.2, y está especificado por muchos otros estándares. A menudo se supone que este y otros conjuntos similares son la codificación de texto de 8 bits en Unix y Microsoft Windows si no hay una marca de orden de bytes (BOM); esto solo se está cambiando gradualmente a UTF-8 .
ISO-8859-1 es el nombre preferido de IANA para este estándar cuando se complementa con los códigos de control C0 y C1 de ISO / IEC 6429 . Los siguientes otros alias están registradas: iso-IR-100 , csISOLatin1 , latin1 , l1 , IBM819 . La página de códigos 28591, también conocida como Windows-28591, se utiliza para ello en Windows. IBM lo llama página de códigos 819 o CP819 ( CCSID 819). Oracle lo llama WE8ISO8859P1 .
Cobertura
Cada carácter se codifica como un único valor de código de ocho bits. Estos valores de código se pueden utilizar en casi cualquier sistema de intercambio de datos para comunicarse en los siguientes idiomas (aunque puede excluir las comillas correctas , como en muchos idiomas, incluidos el alemán y el islandés):
Idiomas modernos con cobertura completa
- Notas
Idiomas con cobertura incompleta
ISO-8859-1 se usó comúnmente para ciertos idiomas, aunque carece de los caracteres utilizados por estos idiomas. En la mayoría de los casos, solo faltan unas pocas letras o se usan con poca frecuencia, y se pueden reemplazar con caracteres que están en ISO-8859-1 usando alguna forma de aproximación tipográfica . La siguiente tabla enumera dichos idiomas.
Idioma | Caracteres faltantes | Solución típica | Apoyado por |
---|---|---|---|
catalán | Ŀ , ŀ (obsoleto) | L ·, l · | |
danés | Ǿ , ǿ (el acento es opcional y ǿ es muy raro) | Ø, ø o øe | |
holandés | IJ , ij (pero con un estado discutible ); j́ en palabras enfatizadas como "blíj́f" | dígrafos IJ, ij; blíjf | |
Estonio | Š , š, Ž , ž (solo presente en préstamos) | Sh, sh, Zh, zh | ISO-8859-15 , Windows-1252 |
finlandés | Š , š, Ž , ž (solo presente en préstamos) | Sh, sh, Zh, zh | ISO-8859-15 , Windows-1252 |
francés | Œ , œ y lo muy raro Ÿ | dígrafos OE, oe; Y o Ý | ISO-8859-15 , Windows-1252 |
alemán | ẞ (ß mayúscula, utilizado solo en todas las mayúsculas; incluido en la ortografía oficial en 2017, sigue siendo opcional) | dígrafo SS | |
húngaro | Ő , ő, Ű , ű | Ö, ö, Ü, ü | ISO / IEC 8859-2 , Windows-1250 |
Irlandés ( ortografía tradicional ) | Ḃ, ḃ, Ċ, ċ, Ḋ, ḋ, Ḟ, ḟ, Ġ, ġ, Ṁ, ṁ, Ṗ, ṗ, Ṡ, ṡ, Ṫ, ṫ | Bh, bh, Ch, ch, Dh, dh, Fh, fh, Gh, gh, Mh, mh, Ph, ph, Sh, sh, Th, th | ISO-8859-14 |
turco | Ş , ş | ||
galés | Ẁ , ẁ, Ẃ , ẃ, Ŵ , ŵ, Ẅ , ẅ, Ỳ , ỳ, Ŷ , ŷ, Ÿ | W, w, Y, y, Ý, ý | ISO-8859-14 |
La letra ÿ , que aparece en francés muy raramente, principalmente en nombres de ciudades como L'Haÿ-les-Roses y nunca al principio de las palabras, se incluye solo en minúsculas. El espacio correspondiente a su forma mayúscula está ocupado por la letra minúscula ß del idioma alemán, que no tenía forma mayúscula en el momento en que se creó el estándar.
Comillas
Para algunos idiomas mencionados anteriormente, los tipográficos correctos comillas faltan, ya que solo « »
, " "
y ' '
se incluyen. Además, este esquema no prevé comillas simples o dobles orientadas (en forma de 6 o 9). Algunas fuentes mostrarán el acento grave espaciado (0x60) y el apóstrofo (0x27) como un par coincidente de comillas simples orientadas, pero esto no se considera parte del estándar moderno.
Historia
ISO 8859-1 se basó en el conjunto de caracteres multinacional (MCS) utilizado por Digital Equipment Corporation (DEC) en el popular terminal VT220 en 1983. Fue desarrollado dentro de la Asociación Europea de Fabricantes de Computadoras (ECMA) y publicado en marzo de 1985 como ECMA -94, cuyo nombre todavía se conoce a veces. La segunda edición de ECMA-94 (junio de 1986) también incluyó ISO 8859-2 , ISO 8859-3 e ISO 8859-4 como parte de la especificación.
El borrador original de ISO 8859-1 colocaba Œ y œ francés en los puntos de código 215 (0xD7) y 247 (0xF7), como en el MCS. Sin embargo, el delegado de Francia, que no es ni lingüista ni tipógrafo, afirmó falsamente que estas no son letras francesas independientes por sí solas, sino meras ligaduras (como fi o fl ), apoyadas por el equipo de delegados de Bull Publishing Company , que regularmente no imprimieron francés con Œ / œ en el estilo de su casa en ese momento. Un delegado anglófono de Canadá insistió en retener Œ / œ pero fue rechazado por el delegado francés y el equipo de Bull. Estos puntos de código pronto se llenaron con × y ÷ bajo la sugerencia de la delegación alemana. El apoyo al francés se redujo aún más cuando se volvió a declarar falsamente que la letra ÿ "no es francesa", lo que provocó la ausencia de la mayúscula Ÿ . De hecho, la letra ÿ se encuentra en varios nombres propios franceses y la letra mayúscula se ha utilizado en diccionarios y enciclopedias. Estos caracteres se agregaron a ISO / IEC 8859-15: 1999 . BraSCII coincide con el borrador original.
En 1985, Commodore adoptó ECMA-94 para su nuevo sistema operativo AmigaOS . La impresora de matriz de puntos de impacto Seikosha MP-1300AI, utilizada con la Amiga 1000, incluía esta codificación.
En 1990, la primera versión de Unicode utilizó los puntos de código de ISO-8859-1 como los primeros 256 puntos de código Unicode.
En 1992, la IANA registró el mapa de caracteres ISO_8859-1: 1987 , más comúnmente conocido por su nombre MIME preferido de ISO-8859-1 (tenga en cuenta el guión adicional sobre ISO 8859-1), un superconjunto de ISO 8859-1, para utilizar en Internet . Este mapa asigna los códigos de control C0 y C1 a los valores de código no asignados, por lo que proporciona 256 caracteres a través de cada valor posible de 8 bits.
Diseño de página de códigos
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _MI | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ 0 |
||||||||||||||||
1_ 16 |
||||||||||||||||
2_ 32 |
SP 0020 |
! 0021 |
" 0022 |
# 0023 |
$ 0024 |
% 0025 |
& 0026 |
« 0027 |
( 0028 |
) 0029 |
* 002A |
+ 002B |
, 002C |
- 002D |
. 002E |
/ 002F |
3_ 48 |
0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
; 003B |
< 003C |
= 003D |
> 003E |
? 003F |
4_ 64 |
@ 0040 |
A 0041 |
B 0042 |
C 0043 |
D 0044 |
E 0045 |
F 0046 |
G 0047 |
H 0048 |
Yo 0049 |
J 004A |
K 004B |
L 004C |
M 004D |
N 004E |
O 004F |
5_ 80 |
P 0050 |
Q 0051 |
R 0052 |
S 0053 |
T 0054 |
U 0055 |
V 0056 |
W 0057 |
X 0058 |
Y 0059 |
Z 005A |
[ 005B |
\ 005C |
] 005D |
^ 005E |
_ 005F |
6_ 96 |
` 0060 |
un 0061 |
b 0062 |
c 0063 |
d 0064 |
e 0065 |
f 0066 |
g 0067 |
h 0068 |
yo 0069 |
j 006A |
k 006B |
l 006C |
m 006D |
n 006E |
o 006F |
7_ 112 |
p 0070 |
q 0071 |
r 0072 |
s 0073 |
t 0074 |
u 0075 |
v 0076 |
w 0077 |
x 0078 |
y 0079 |
z 007A |
{ 007B |
| 007C |
} 007D |
~ 007E |
|
8_ 128 |
||||||||||||||||
9_ 144 |
||||||||||||||||
A_ 160 |
NBSP 00A0 |
¡ 00A1 |
¢ 00A2 |
£ 00A3 |
¤ 00A4 |
¥ 00A5 |
¦ 00A6 |
§ 00A7 |
¨ 00A8 |
© 00A9 |
ª 00AA |
« 00AB |
¬ 00AC |
SHY 00AD |
® 00AE |
¯ 00AF |
B_ 176 |
° 00B0 |
± 00B1 |
² 00B2 |
³ 00B3 |
´ 00B4 |
µ 00B5 |
¶ 00B6 |
· 00B7 |
¸ 00B8 |
¹ 00B9 |
º 00BA |
» 00BB |
¼ 00BC |
½ 00BD |
¾ 00BE |
¿ 00BF |
C_ 192 |
À 00C0 |
Á 00C1 |
 00C2 |
à 00C3 |
Ä 00C4 |
Å 00C5 |
Æ 00C6 |
Ç 00C7 |
È 00C8 |
É 00C9 |
Ê 00CA |
Ë 00CB |
Ì 00CC |
Í 00CD |
Î 00CE |
Ï 00CF |
D_ 208 |
Ð 00D0 |
Ñ 00D1 |
Ò 00D2 |
Ó 00D3 |
Ô 00D4 |
Õ 00D5 |
Ö 00D6 |
× 00D7 |
Ø 00D8 |
Ù 00D9 |
Ú 00DA |
Û 00DB |
Ü 00DC |
Ý 00DD |
Þ 00DE |
ß 00DF |
E_ 224 |
à 00E0 |
á 00E1 |
â 00E2 |
ã 00E3 |
ä 00E4 |
å 00E5 |
æ 00E6 |
ç 00E7 |
è 00E8 |
é 00E9 |
ê 00EA |
ë 00EB |
ì 00EC |
í 00ED |
î 00EE |
ï 00EF |
F_ 240 |
ð 00F0 |
ñ 00F1 |
ò 00F2 |
ó 00F3 |
ô 00F4 |
õ 00F5 |
ö 00F6 |
÷ 00F7 |
ø 00F8 |
ù 00F9 |
ú 00FA |
û 00FB |
ü 00FC |
ý 00FD |
þ 00FE |
ÿ 00FF |
Carta Número Puntuación Símbolo Otro Indefinido Indefinido en la primera versión de ECMA-94 (1985). Sin embargo, en el borrador original, Œ estaba en el punto de código 215 (0xD7) y œ estaba en el punto de código 247 (0xF7).
Conjuntos de caracteres similares
ISO / IEC 8859-15
ISO / IEC 8859-15 se desarrolló en 1999, como una actualización de ISO / IEC 8859-1. Proporciona algunos caracteres para el texto en francés y finlandés y el símbolo del euro , que faltan en ISO / IEC 8859-1. Esto requiere la eliminación de algunos caracteres de uso poco frecuente de la norma ISO / IEC 8859-1, incluyendo símbolos de fracciones y diacríticos libre letras: ¤
, ¦
, ¨
, ´
, ¸
, ¼
, ½
, y ¾
. Irónicamente, tres de los caracteres recién agregados ( Œ
,, œ
y Ÿ
) ya habían estado presentes en el conjunto de caracteres multinacionales (MCS) de DEC de 1983 , el predecesor de ISO / IEC 8859-1 (1987). Dado que sus puntos de código originales ahora se reutilizaron para otros fines, los caracteres tuvieron que ser reintroducidos bajo diferentes puntos de código menos lógicos.
ISO-IR-204, una modificación menor, se había registrado en 1998, alterando ISO-8859-1 al reemplazar el signo de moneda universal (¤) con el signo del euro (la misma sustitución hecha por ISO-8859-15).
Windows-1252
El popular conjunto de caracteres Windows-1252 agrega todos los caracteres faltantes proporcionados por ISO / IEC 8859-15 , más una serie de símbolos tipográficos, al reemplazar los controles C1 raramente utilizados en el rango de 128 a 159 ( hexadecimal 80 a 9F). Es muy común etiquetar incorrectamente el texto de Windows-1252 como si estuviera en ISO-8859-1. Un resultado común fue que todas las comillas y apóstrofos (producidos por "comillas tipográficas" en software de procesamiento de texto) fueron reemplazados por signos de interrogación o cuadros en sistemas operativos que no son Windows, lo que dificulta la lectura del texto. Muchos navegadores web y clientes de correo electrónico interpretarán los códigos de control ISO-8859-1 como caracteres de Windows-1252, y ese comportamiento se estandarizó posteriormente en HTML5 .
Mac Roman
La computadora Apple Macintosh introdujo una codificación de caracteres llamada Mac Roman en 1984. Estaba destinada a ser adecuada para la autoedición de Europa occidental . Es un superconjunto de ASCII y tiene la mayoría de los caracteres que están en ISO-8859-1 y todos los caracteres adicionales de Windows-1252, pero en una disposición totalmente diferente. Los pocos caracteres imprimibles que están en ISO 8859-1, pero no en este conjunto, a menudo son una fuente de problemas al editar texto en sitios web con navegadores Macintosh más antiguos, incluida la última versión de Internet Explorer para Mac .
Otro
DOS tenía la página de códigos 850 , que tenía todos los caracteres imprimibles que tenía ISO-8859-1 (aunque en una disposición totalmente diferente) más los caracteres gráficos más utilizados de la página de códigos 437 .
Entre 1989 y 2015, Hewlett-Packard utilizó otro superconjunto de ISO-8859-1 en muchas de sus calculadoras. Este conjunto de caracteres patentado a veces también se denominaba simplemente "ECMA-94".
Ver también
- Escritura latina en Unicode
- Unicode
- Conjunto de caracteres universal
- UTF-8
- Páginas de códigos de Windows
- ISO / IEC JTC 1 / SC 2
Referencias
enlaces externos
- ISO / IEC 8859-1: 1998
- ISO / IEC FDIS 8859-1: 1998 - Conjuntos de caracteres gráficos codificados de un solo byte de 8 bits, Parte 1: Alfabeto latino No. 1 (borrador del 12 de febrero de 1998, publicado el 15 de abril de 1998)
- Estándar ECMA-94: Juegos de caracteres gráficos codificados de un solo byte de 8 bits - Alfabetos latinos No. 1 a No. 4 2da edición (junio de 1986)
- ISO-IR 100 Parte derecha del alfabeto latino No 1 (1 de febrero de 1986)
- La base de datos de cartas
- Czyborra, Roman (1 de diciembre de 1998). "La sopa de letras ISO 8859" . Archivado desde el original el 1 de diciembre de 2016 . Consultado el 1 de diciembre de 2016 . [1] [2]