DjVu - DjVu

DjVu
Djvu icon.svg
Extensiones de nombre de archivo
.djvu, .djv
Tipo de medio de Internet
imagen / vnd.djvu, imagen / x-djvu
número mágico AT&T
Desarrollado por AT&T Labs - Investigación
Versión inicial 1998 ; Hace 23 años ( 1998 )
Último lanzamiento
Versión 3.5.28
(8 de enero de 2021 ; hace 9 meses ) ( 08/01/2021 )
Tipo de formato Formatos de archivo de imagen
Contenido por Formato de archivo de intercambio
¿ Formato abierto ? GNU GPLv2 para la biblioteca de referencia DjVu y DjVuLibre-3.5;
Concesiones de licencias bajo la GNU GPL para varias patentes que cubren aspectos de la biblioteca.

DjVu ( / ˌ d ʒ ɑ v ü / DIA -zhah- VOO , como el francés " deja vu ") es un equipo de formato de archivo diseñado principalmente para almacenar documentos escaneados , especialmente los que contienen una combinación de texto, dibujos de líneas, colores indexados imágenes y fotografías. Utiliza tecnologías como la separación de capas de imagen de texto y fondo / imágenes, carga progresiva , codificación aritmética y compresión con pérdida para imágenes bitonales ( monocromas ). Esto permite almacenar imágenes legibles de alta calidad en un espacio mínimo, de modo que puedan estar disponibles en la web .

Se ha promocionado que DjVu proporciona archivos más pequeños que PDF para la mayoría de los documentos escaneados. Los desarrolladores de DjVu informan que las páginas de las revistas en color se comprimen a 40-70 kB, los papeles técnicos en blanco y negro se comprimen a 15-40 kB y los manuscritos antiguos se comprimen a alrededor de 100 kB; una imagen JPEG satisfactoria normalmente requiere 500 kB. Al igual que PDF, DjVu puede contener una capa de texto OCR , lo que facilita la realización de operaciones de copiar y pegar y de búsqueda de texto.

Hay disponibles creadores, manipuladores, convertidores, complementos de navegador web y visores de escritorio gratuitos. DjVu es compatible con varios visores de documentos multiformato y software de lectura de libros electrónicos en Linux ( Okular , Evince ), Windows ( Okular , SumatraPDF ) y Android (FBReader, EBookDroid, PocketBook).

Historia

La tecnología DjVu fue desarrollada originalmente por Yann LeCun , Léon Bottou , Patrick Haffner , Paul G. Howard , Patrice Simard y Yoshua Bengio en AT&T Labs de 1996 a 2001.

Antes de la estandarización de PDF en 2008, DjVu se consideraba superior debido a que era un formato de archivo abierto en contraste con la naturaleza patentada de PDF en ese momento. La relación de compresión más alta declarada (y, por lo tanto, el tamaño de archivo más pequeño) y la supuesta facilidad de convertir grandes volúmenes de texto en formato DjVu, fueron otros argumentos para la superioridad de DjVu sobre PDF en el panorama tecnológico de 2004. Tecnólogo independiente Brewster Kahle en una charla de 2004 on IT Conversations discutió los beneficios de permitir un acceso más fácil a los archivos DjVu.

La biblioteca DjVu distribuida como parte del paquete de código abierto DjVuLibre se ha convertido en la implementación de referencia para el formato DjVu. DjVuLibre ha sido mantenido y actualizado por los desarrolladores originales de DjVu desde 2002.

La especificación del formato de archivo DjVu ha pasado por una serie de revisiones, la más reciente de 2005.

Revisión histórica
Versión Fecha de lanzamiento Notas
Versión antigua, ya no se mantiene: 1-19 1996–1999 Versiones de desarrollo realizadas por los laboratorios de AT&T antes de la venta del formato a LizardTech .
Versión antigua, ya no se mantiene: Versión 20 Abril de 1999 DjVu versión 3. DjVu cambió de un formato de una sola página a un formato de varias páginas.
Versión anterior, pero aún se mantiene: Versión 21 Septiembre de 1999 Se reemplazó el formato de almacenamiento indirecto. Se agregó la capa de texto con capacidad de búsqueda.
Versión anterior, pero aún se mantiene: Versión 22 Abril de 2001 Orientación de página, color JB2
Versión antigua, ya no se mantiene: Versión 23 Julio de 2002 Fragmento de CID
Versión antigua, ya no se mantiene: Versión 24 Febrero de 2003 LTAnno trozo
Versión anterior, pero aún se mantiene: Versión 25 Mayo de 2003 Fragmento de NAVM. Se agregó soporte para marcadores DjVu (contornos). Los cambios realizados por las Versiones 23 y 24 quedaron obsoletos.
Versión estable actual: Versión 26 Abril de 2005 Anotaciones de texto / línea
Leyenda:
Versión antigua
Versión anterior, aún mantenida
Ultima versión
Última versión de vista previa
Lanzamiento futuro

Papel en el ecosistema de software

El uso principal del formato DjVu ha sido la distribución electrónica de documentos con una calidad comparable a la de los documentos impresos. Como ese nicho es también el uso principal de PDF, era inevitable que los dos formatos se convirtieran en competidores. Sin embargo, debe observarse que los dos formatos abordan el problema de la entrega de documentos de alta resolución de formas muy diferentes: PDF codifica principalmente gráficos y texto como datos vectorizados, mientras que DjVu los codifica principalmente como imágenes de mapa de píxeles . Esto significa que PDF coloca la carga de renderizar el documento en el lector, mientras que DjVu coloca esa carga en el creador.

Durante varios años, superponiéndose significativamente con el período en el que se estaba desarrollando DjVu, no había visores de PDF para sistemas operativos gratuitos; un obstáculo particular fue la representación de fuentes vectorizadas, que son esenciales para combinar archivos de tamaño pequeño con alta resolución en PDF. Dado que mostrar DjVu era un problema más simple para el que se disponía de software libre, se sugirió que el movimiento del software libre debería emplear DjVu en lugar de PDF para distribuir la documentación; El renderizado para crear DjVu no es, en principio, muy diferente del renderizado para un controlador de impresora específico del dispositivo, y DjVu se puede generar como último recurso a partir de escaneos de soportes de papel. Sin embargo, cuando FreeType 2.0 en 2000 comenzó a proporcionar renderizado de todos los principales formatos de fuente vectorizados, esa ventaja específica de DjVu comenzó a erosionarse.

En la década de 2000, con el crecimiento de la red mundial y antes de la adopción generalizada de la banda ancha , las bibliotecas digitales a menudo adoptaban DjVu como su formato de elección, gracias a su integración con software como Greenstone e Internet Archive , complementos de navegador que permitían avanzadas navegación en línea, tamaño de archivo más pequeño para una calidad comparable de escaneos de libros y otros documentos con muchas imágenes y soporte para incrustar y buscar texto completo desde OCR . Algunas características, como las vistas previas en miniatura, se integraron más tarde en el BookReader de Internet Archive y la navegación DjVu quedó obsoleta a su favor, ya que alrededor de 2015 algunos de los principales navegadores dejaron de admitir los complementos NPAPI y DjVu con ellos.

DjVu.js Viewer intenta reemplazar los complementos faltantes.

Resumen técnico

Estructura de archivo

El formato de archivo DjVu se basa en el formato de archivo de intercambio y se compone de fragmentos organizados jerárquicamente. La estructura IFF está precedida por un AT&T número mágico de 4 bytes . A continuación se muestra un solo FORMfragmento con un identificador secundario de DJVUo DJVMpara un documento de una sola página o de varias páginas, respectivamente.

Todos los fragmentos pueden estar contenidos en un solo archivo en el caso de los llamados documentos empaquetados, o pueden estar contenidos en varios archivos: un archivo para cada página más algunos archivos con fragmentos compartidos.

Tipos de fragmentos

Tipos de fragmentos en archivos DjVu
Identificador de fragmentos Contenido por Descripción
FORMULARIO: DJVU FORMULARIO: DJVM Describe una sola página. Puede estar en la raíz de un documento y ser un documento de una sola página o referirse a él desde un DIRMfragmento.
FORMULARIO: DJVM N / A Describe un documento de varias páginas. Es el fragmento raíz del documento.
FORMULARIO: DJVI FORMULARIO: DJVM Contiene datos compartidos por varias páginas.
FORMA: THUM FORMULARIO: DJVM Contiene miniaturas.
INFO FORMULARIO: DJVU Debe ser el primer trozo. Describe el ancho, alto, versión del formato, resolución , gamma y rotación de la página.
DIRM FORMULARIO: DJVM Debe ser el primer trozo. Hace referencia a otros FORMfragmentos. Estos fragmentos pueden seguir a este fragmento dentro del FORM:DJVMfragmento o estar contenidos en archivos externos. Estos tipos de documentos se denominan agrupados o indirectos , respectivamente.
NAVM FORMULARIO: DJVM Si está presente, debe seguir inmediatamente al DIRMfragmento. Contiene un esquema del documento comprimido en BZZ.
ANTa, ANTz FORMULARIO: DJVI o FORM: DJVU Anotaciones.
TXTa, TXTz FORMULARIO: DJVU Información de diseño y texto Unicode.
INCL FORMULARIO: DJVU El ID de un FORM::DJVIfragmento incluido .
Sjbz FORMULARIO: DJVU Datos bitonales JB2 comprimidos con BZZ utilizados para almacenar la máscara.
Djbz FORMULARIO: DJVI o FORM: DJVU Mesa de forma compartida.
WMRM ? Se requieren datos JB2 para eliminar una marca de agua.
CIDa FORMULARIO: DJVU Fragmento obsoleto con contenido desconocido.

Compresión

DjVu divide una sola imagen en muchas imágenes diferentes y luego las comprime por separado. Para crear un archivo DjVu, la imagen inicial se separa primero en tres imágenes: una imagen de fondo, una imagen de primer plano y una imagen de máscara. Las imágenes de fondo y de primer plano suelen ser imágenes en color de menor resolución (por ejemplo, 100 ppp); la imagen de la máscara es una imagen binivel de alta resolución (por ejemplo, 300 ppp) y normalmente es donde se almacena el texto. Las imágenes de fondo y de primer plano se comprimen utilizando un algoritmo de compresión basado en ondas llamado IW44. La imagen de la máscara se comprime mediante un método llamado JB2 (similar a JBIG2 ). El método de codificación JB2 identifica formas casi idénticas en la página, como ocurrencias múltiples de un carácter en particular en una fuente, estilo y tamaño determinados. Comprime el mapa de bits de cada forma única por separado y luego codifica las ubicaciones donde aparece cada forma en la página. Por lo tanto, en lugar de comprimir una letra "e" en una fuente determinada varias veces, comprime la letra "e" una vez (como una imagen de bits comprimida) y luego registra cada lugar de la página donde aparece.

Opcionalmente, estas formas pueden asignarse a códigos UTF-8 (ya sea a mano o potencialmente mediante un sistema de reconocimiento de texto ) y almacenarse en el archivo DjVu. Si existe esta asignación, es posible seleccionar y copiar texto.

Dado que JB2 (también llamado DjVuBitonal) es una variación de JBIG2, que funciona con los mismos principios, ambos métodos de compresión tienen los mismos problemas al realizar la compresión con pérdida. En 2013, se supo que las fotocopiadoras y escáneres Xerox habían estado sustituyendo dígitos por otros de apariencia similar, por ejemplo, reemplazando un 6 por un 8. Un documento DjVu se ha visto en la naturaleza con sustituciones de caracteres, como una n con serifas sangrantes que se convierten en au y una o con una mancha en el interior que se convierte en una e. Si se ha producido una compresión con pérdida, no se almacena en el archivo y la aplicación de visualización DjView no advierte al usuario que podrían haberse producido sustituciones de glifos, ni al abrir un archivo comprimido con pérdida, ni en los cuadros de diálogo de Información o Metadatos.

Licencia de formato

DjVu es un formato de archivo abierto con patentes. Se publica la especificación del formato de archivo, así como el código fuente de la biblioteca de referencia. Los autores originales distribuyen una implementación de código abierto llamada " DjVuLibre " bajo la Licencia Pública General GNU . Los derechos para el desarrollo comercial del software de codificación se han transferido a diferentes empresas a lo largo de los años, incluidas AT&T Corporation , LizardTech , Celartem y Cuminas .

Celartem adquirió LizardTech y Extensis.

Apoyo

DjVu no es ampliamente compatible con software de escaneo y visualización. Si bien los visores se pueden descargar, la apertura de archivos DjVu no está implementada en la mayoría de los sistemas operativos de forma predeterminada. La principal excepción son la mayoría de las distribuciones de Linux .

En 2002, Internet Archive eligió el formato de archivo DjVu como un formato en el que su Million Book Project proporciona libros de dominio público escaneados en línea (junto con TIFF y PDF). En febrero de 2016, Internet Archive anunció que DjVu ya no se utilizaría para nuevas cargas.

Wikimedia Commons , un repositorio de medios utilizado por Wikipedia entre otros, permite condicionalmente archivos de medios PDF y DjVu.

Ver también

Referencias

enlaces externos