MARC-8 - MARC-8

El juego de caracteres MARC-8 es un estándar MARC utilizado en los registros de la biblioteca MARC-21 . Los formatos MARC son estándares para la representación y comunicación de información bibliográfica y relacionada en forma legible por máquina, y se utilizan con frecuencia en los sistemas de bases de datos de bibliotecas . La codificación de caracteres ahora conocida como MARC-8 se introdujo en 1968 como parte del formato MARC. Originalmente basada en el alfabeto latino , de 1979 a 1983 la iniciativa JACKPHY expandió el repertorio para incluir caracteres japoneses, árabes, chinos y hebreos (entre otros), con la posterior adición de escrituras cirílicas y griegas. Si un carácter no es representable en MARC-8 de un registro MARC-21, entonces se debe usar UTF-8 en su lugar. UTF-8 admite muchos más caracteres que MARC-8, que rara vez se utiliza fuera de los datos de la biblioteca.

Detalles técnicos

MARC-8 usa una variante de la codificación ISO-2022 . Utiliza caracteres de escape para representar caracteres más allá del rango de caracteres ASCII de 7 bits .

Por lo general, utiliza el mismo orden BiDi lógico que Unicode .

Los caracteres combinados y los caracteres base están en un orden diferente al que se usa en Unicode. Los siguientes son algunos ejemplos. Los caracteres combinados no siempre se almacenan en orden inverso como normalización Unicode . El estándar MARC-21 describe los problemas de conversión MARC-8 Unicode con más detalle.

Desplegado

Personaje

Unicode

NFD

MARC-8
a a   a
a a   a

Estructura de código

La codificación ISO / IEC 2022 especifica un mapeo de dos capas entre los códigos de caracteres y los caracteres mostrados. En MARC-8, los códigos de caracteres del rango gráfico ASCII de 7 bits (0x20–0x7F) se denominan códigos "G0", mientras que los códigos del rango "ASCII alto" (0xA0-0xFF) se denominan "G1 "códigos. Juegos de caracteres gráficos son designados e invocados por medio de una secuencia de bytes de escape múltiple que consiste en el carácter de escape, una secuencia de carácter intermedio, y un carácter de final en forma ESC I F .

La siguiente tabla muestra el byte intermedio después del byte ESC (hexadecimal 1B) y los caracteres ASCII correspondientes.

Bytes intermedios
Conjunto G0 Conjunto G1
SBCS MBCS SBCS MBCS
ISO-2022 normal 28 ( 24 PS 29 ) 24 29 PS
ISO-2022 alternativo (63 + 16 juegos adicionales) 2C , 24 2C PS 2D - 24 2D PS

La siguiente tabla muestra los bytes finales en hexadecimal y los caracteres ASCII correspondientes después de los bytes intermedios.

Bytes finales
Bytes Caracteres Nombre Escribe Comentario
31 1 Chino, japonés, coreano ( EACC ) MBCS
32 2 Hebreo básico SBCS
33 3 Árabe básico SBCS
34 4 Árabe extendido SBCS
42 B Latín básico ( ASCII ) SBCS
21 45 !MI Latín extendido ( ANSEL ) SBCS El 21 (hexadecimal) técnicamente es un segundo byte del segmento intermedio de esta secuencia de escape.
4E norte Cirílico básico SBCS
51 Q Cirílico extendido SBCS
53 S Griego básico SBCS

El EACC es la única codificación multibyte de MARC-8, codifica cada carácter CJK en tres bytes ASCII.

Por ejemplo, para codificar el carácter U + 4EBA CJK (人) necesitará los siguientes bytes

 \x1B\x24\x31\x21\x30\x64

\ X1B \ x24 \ x31 cambia a EACC / CJK, y \ x21 \ x30 \ x64 corresponde a U + 4EBA.

Extensión de conjunto personalizado

Además de los juegos de caracteres ISO-2022, también están disponibles los siguientes juegos personalizados. La designación del byte sigue al byte de escape (hexadecimal 1B). No hay un byte intermedio.

Bytes finales
Bytes Caracteres Nombre Escribe Comentario
62 B Conjunto de subíndices SBCS
67 gramo Conjunto de símbolos griegos SBCS Los caracteres alfa, beta y gamma normalmente no se asignan de ida y vuelta a Unicode.
70 pag Conjunto de superíndice SBCS
73 s Latín básico ( ASCII ) SBCS

Referencias

  1. ^ "Juegos de caracteres: Introducción: especificaciones MARC 21 para estructura de registro, juegos de caracteres y medios de intercambio (Biblioteca del Congreso)" .
  2. ^ "Juegos de caracteres: entorno de codificación MARC-8: especificaciones MARC 21 para estructura de registro, juegos de caracteres y medios de intercambio (Biblioteca del Congreso)" .
  3. ^ "Juegos de caracteres: entorno de codificación MARC-8: especificaciones MARC 21 para estructura de registro, juegos de caracteres y medios de intercambio (Biblioteca del Congreso)" .
  4. ^ "Juegos de caracteres: entorno de codificación MARC-8: especificaciones MARC 21 para estructura de registro, juegos de caracteres y medios de intercambio (Biblioteca del Congreso)" .

enlaces externos