MARC-8 - MARC-8
El juego de caracteres MARC-8 es un estándar MARC utilizado en los registros de la biblioteca MARC-21 . Los formatos MARC son estándares para la representación y comunicación de información bibliográfica y relacionada en forma legible por máquina, y se utilizan con frecuencia en los sistemas de bases de datos de bibliotecas . La codificación de caracteres ahora conocida como MARC-8 se introdujo en 1968 como parte del formato MARC. Originalmente basada en el alfabeto latino , de 1979 a 1983 la iniciativa JACKPHY expandió el repertorio para incluir caracteres japoneses, árabes, chinos y hebreos (entre otros), con la posterior adición de escrituras cirílicas y griegas. Si un carácter no es representable en MARC-8 de un registro MARC-21, entonces se debe usar UTF-8 en su lugar. UTF-8 admite muchos más caracteres que MARC-8, que rara vez se utiliza fuera de los datos de la biblioteca.
Detalles técnicos
MARC-8 usa una variante de la codificación ISO-2022 . Utiliza caracteres de escape para representar caracteres más allá del rango de caracteres ASCII de 7 bits .
Por lo general, utiliza el mismo orden BiDi lógico que Unicode .
Los caracteres combinados y los caracteres base están en un orden diferente al que se usa en Unicode. Los siguientes son algunos ejemplos. Los caracteres combinados no siempre se almacenan en orden inverso como normalización Unicode . El estándar MARC-21 describe los problemas de conversión MARC-8 Unicode con más detalle.
Desplegado
Personaje |
Unicode | MARC-8 |
---|---|---|
a | a | a |
a | a | a |
Estructura de código
La codificación ISO / IEC 2022 especifica un mapeo de dos capas entre los códigos de caracteres y los caracteres mostrados. En MARC-8, los códigos de caracteres del rango gráfico ASCII de 7 bits (0x20–0x7F) se denominan códigos "G0", mientras que los códigos del rango "ASCII alto" (0xA0-0xFF) se denominan "G1 "códigos. Juegos de caracteres gráficos son designados e invocados por medio de una secuencia de bytes de escape múltiple que consiste en el carácter de escape, una secuencia de carácter intermedio, y un carácter de final en forma ESC I F .
La siguiente tabla muestra el byte intermedio después del byte ESC (hexadecimal 1B) y los caracteres ASCII correspondientes.
Conjunto G0 | Conjunto G1 | |||||||
---|---|---|---|---|---|---|---|---|
SBCS | MBCS | SBCS | MBCS | |||||
ISO-2022 normal | 28 | ( | 24 | PS | 29 | ) | 24 29 | PS |
ISO-2022 alternativo (63 + 16 juegos adicionales) | 2C | , | 24 2C | PS | 2D | - | 24 2D | PS |
La siguiente tabla muestra los bytes finales en hexadecimal y los caracteres ASCII correspondientes después de los bytes intermedios.
Bytes | Caracteres | Nombre | Escribe | Comentario |
---|---|---|---|---|
31 | 1 | Chino, japonés, coreano ( EACC ) | MBCS | |
32 | 2 | Hebreo básico | SBCS | |
33 | 3 | Árabe básico | SBCS | |
34 | 4 | Árabe extendido | SBCS | |
42 | B | Latín básico ( ASCII ) | SBCS | |
21 45 | !MI | Latín extendido ( ANSEL ) | SBCS | El 21 (hexadecimal) técnicamente es un segundo byte del segmento intermedio de esta secuencia de escape. |
4E | norte | Cirílico básico | SBCS | |
51 | Q | Cirílico extendido | SBCS | |
53 | S | Griego básico | SBCS |
El EACC es la única codificación multibyte de MARC-8, codifica cada carácter CJK en tres bytes ASCII.
Por ejemplo, para codificar el carácter U + 4EBA CJK (人) necesitará los siguientes bytes
\x1B\x24\x31\x21\x30\x64
\ X1B \ x24 \ x31 cambia a EACC / CJK, y \ x21 \ x30 \ x64 corresponde a U + 4EBA.
Extensión de conjunto personalizado
Además de los juegos de caracteres ISO-2022, también están disponibles los siguientes juegos personalizados. La designación del byte sigue al byte de escape (hexadecimal 1B). No hay un byte intermedio.
Bytes | Caracteres | Nombre | Escribe | Comentario |
---|---|---|---|---|
62 | B | Conjunto de subíndices | SBCS | |
67 | gramo | Conjunto de símbolos griegos | SBCS | Los caracteres alfa, beta y gamma normalmente no se asignan de ida y vuelta a Unicode. |
70 | pag | Conjunto de superíndice | SBCS | |
73 | s | Latín básico ( ASCII ) | SBCS |
Referencias
- ^ "Juegos de caracteres: Introducción: especificaciones MARC 21 para estructura de registro, juegos de caracteres y medios de intercambio (Biblioteca del Congreso)" .
- ^ "Juegos de caracteres: entorno de codificación MARC-8: especificaciones MARC 21 para estructura de registro, juegos de caracteres y medios de intercambio (Biblioteca del Congreso)" .
- ^ "Juegos de caracteres: entorno de codificación MARC-8: especificaciones MARC 21 para estructura de registro, juegos de caracteres y medios de intercambio (Biblioteca del Congreso)" .
- ^ "Juegos de caracteres: entorno de codificación MARC-8: especificaciones MARC 21 para estructura de registro, juegos de caracteres y medios de intercambio (Biblioteca del Congreso)" .
enlaces externos
- Especificaciones MARC 21 para estructura de registros, conjuntos de caracteres y medios de intercambio : el estándar oficial MARC-8 mantenido por la Biblioteca del Congreso de EE. UU.