Base de datos MNIST - MNIST database

Imágenes de muestra del conjunto de datos de prueba MNIST

La base de datos MNIST ( Modificado Instituto Nacional de Estándares y Tecnología de base de datos ) es una gran base de datos de dígitos escritos a mano que se utiliza comúnmente para la formación de varios de procesamiento de imágenes de sistemas. La base de datos también se usa ampliamente para capacitación y pruebas en el campo del aprendizaje automático . Fue creado "volviendo a mezclar" las muestras de los conjuntos de datos originales de NIST. Los creadores sintieron que, dado que el conjunto de datos de capacitación del NIST se tomó de los empleados de la Oficina del Censo de Estados Unidos , mientras que el conjunto de datos de prueba se tomó de estudiantes estadounidenses de secundaria , no era adecuado para experimentos de aprendizaje automático. Además, las imágenes en blanco y negro de NIST se normalizaron para encajar en un cuadro delimitador 28x28 pixel y anti-alias , que introdujo los niveles de escala de grises.

La base de datos MNIST contiene 60,000 imágenes de entrenamiento y 10,000 imágenes de prueba. La mitad del conjunto de entrenamiento y la mitad del conjunto de prueba se tomaron del conjunto de datos de entrenamiento del NIST, mientras que la otra mitad del conjunto de entrenamiento y la otra mitad del conjunto de prueba se tomaron del conjunto de datos de prueba del NIST. Los creadores originales de la base de datos mantienen una lista de algunos de los métodos probados en ella. En su papel original, utilizan una máquina de vectores de soporte para obtener una tasa de error del 0,8%. En 2017 se publicó un conjunto de datos extendido similar a MNIST llamado EMNIST, que contiene 240,000 imágenes de entrenamiento y 40,000 imágenes de prueba de dígitos y caracteres escritos a mano.

Historia

El conjunto de imágenes de la base de datos del MNIST se creó en 1998 como una combinación de dos bases de datos del NIST : Base de datos especial 1 y Base de datos especial 3. La base de datos especial 1 y la base de datos especial 3 constan de dígitos escritos por estudiantes de secundaria y empleados de la Oficina del censo de Estados Unidos , respectivamente.

Rendimiento

Algunos investigadores han logrado un "rendimiento casi humano" en la base de datos del MNIST, utilizando un comité de redes neuronales; En el mismo artículo, los autores logran un rendimiento doble que el de los humanos en otras tareas de reconocimiento. La tasa de error más alta que figura en el sitio web original de la base de datos es del 12 por ciento, que se logra utilizando un clasificador lineal simple sin preprocesamiento.

En 2004, los investigadores lograron una tasa de error en el mejor de los casos del 0,42 por ciento en la base de datos utilizando un nuevo clasificador llamado LIRA, que es un clasificador neuronal con tres capas de neuronas basado en los principios del perceptrón de Rosenblatt.

Algunos investigadores han probado sistemas de inteligencia artificial utilizando la base de datos sometida a distorsiones aleatorias. Los sistemas en estos casos suelen ser redes neuronales y las distorsiones utilizadas tienden a ser distorsiones afines o distorsiones elásticas . A veces, estos sistemas pueden tener mucho éxito; uno de estos sistemas logró una tasa de error en la base de datos del 0,39 por ciento.

En 2011, los investigadores informaron una tasa de error del 0,27 por ciento, mejorando el mejor resultado anterior, utilizando un sistema similar de redes neuronales. En 2013, se afirmó que un enfoque basado en la regularización de redes neuronales que utiliza DropConnect logró una tasa de error del 0,21 por ciento. En 2016, el mejor rendimiento de la red neuronal convolucional única fue una tasa de error del 0,25 por ciento. A agosto de 2018, el mejor rendimiento de una sola red neuronal convolucional entrenada con datos de entrenamiento MNIST sin aumento de datos es una tasa de error del 0,25 por ciento. Además, el Centro de Computación Paralela (Khmelnytskyi, Ucrania) obtuvo un conjunto de solo 5 redes neuronales convolucionales que funciona en MNIST con una tasa de error del 0,21 por ciento. Algunas imágenes del conjunto de datos de prueba apenas se pueden leer y pueden evitar que se alcancen tasas de error de prueba del 0%. En 2018, investigadores del Departamento de Ingeniería de Sistemas e Información de la Universidad de Virginia anunciaron un error del 0,18% con tres tipos de redes neuronales apiladas simultáneamente (redes neuronales totalmente conectadas, recurrentes y de convolución).

Clasificadores

Esta es una tabla de algunos de los métodos de aprendizaje automático utilizados en el conjunto de datos y sus tasas de error, por tipo de clasificador:

Escribe	Clasificador	Distorsión	Preprocesamiento	Tasa de error (%)
Clasificador lineal	Clasificador lineal por pares	Ninguno	Enderezar	7,6
K-Vecinos más cercanos	K-NN con deformación no lineal (P2DHMDM)	Ninguno	Bordes cambiables	0,52
Tocones potenciados	Producto de tocones en las características de Haar	Ninguno	Características de Haar	0,87
Clasificador no lineal	Clasificador cuadrático 40 PCA +	Ninguno	Ninguno	3.3
Bosque aleatorio	Bosques aleatorios unificados rápidos para supervivencia, regresión y clasificación (RF-SRC)	Ninguno	Importancia de píxeles estadísticos simples	2.8
Máquina de vectores de soporte (SVM)	SVM virtual , poli deg-9, jittered de 2 píxeles	Ninguno	Enderezar	0,56
Red neuronal profunda (DNN)	2 capas 784-800-10	Ninguno	Ninguno	1,6
Red neuronal profunda	2 capas 784-800-10	Distorsiones elásticas	Ninguno	0,7
Red neuronal profunda	6 capas 784-2500-2000-1500-1000-500-10	Distorsiones elásticas	Ninguno	0,35
Red neuronal convolucional (CNN)	6 capas 784-40-80-500-1000-2000-10	Ninguno	Ampliación de los datos de entrenamiento	0,31
Red neuronal convolucional	6 capas 784-50-100-500-1000-10-10	Ninguno	Ampliación de los datos de entrenamiento	0,27
Red neuronal convolucional (CNN)	13 capas 64-128 (5x) -256 (3x) -512-2048-256-256-10	Ninguno	Ninguno	0,25
Red neuronal convolucional	Comité de 35 CNN, 1-20-P-40-P-150-10	Distorsiones elásticas	Normalizaciones de ancho	0,23
Red neuronal convolucional	Comité de 5 CNN, 6 capas 784-50-100-500-1000-10-10	Ninguno	Ampliación de los datos de entrenamiento	0,21
Aprendizaje profundo multimodelo aleatorio (RMDL)	10 NN-10 RNN - 10 CNN	Ninguno	Ninguno	0,18
Red neuronal convolucional	Comité de 20 CNNS con redes de compresión y excitación	Ninguno	Aumento de datos	0,17

Ver también

Referencias

Otras lecturas

Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen (junio de 2012). "Redes neuronales profundas de varias columnas para clasificación de imágenes" (PDF) . 2012 Conferencia IEEE sobre visión artificial y reconocimiento de patrones . Nueva York, NY: Instituto de ingenieros eléctricos y electrónicos . págs. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . doi : 10.1109 / CVPR.2012.6248110 . ISBN 9781467312264. OCLC 812295155 . S2CID 2161592 . Consultado el 9 de diciembre de 2013 .

enlaces externos

Página web oficial
Red neuronal para el reconocimiento de dígitos escritos a mano en JavaScript : una implementación de JavaScript de una red neuronal para la clasificación de dígitos escritos a mano basada en la base de datos MNIST
Visualización de la base de datos MNIST - grupos de imágenes de dígitos manuscritos MNIST en GitHub

Languages

In other projects