Base de datos MNIST - MNIST database
La base de datos MNIST ( Modificado Instituto Nacional de Estándares y Tecnología de base de datos ) es una gran base de datos de dígitos escritos a mano que se utiliza comúnmente para la formación de varios de procesamiento de imágenes de sistemas. La base de datos también se usa ampliamente para capacitación y pruebas en el campo del aprendizaje automático . Fue creado "volviendo a mezclar" las muestras de los conjuntos de datos originales de NIST. Los creadores sintieron que, dado que el conjunto de datos de capacitación del NIST se tomó de los empleados de la Oficina del Censo de Estados Unidos , mientras que el conjunto de datos de prueba se tomó de estudiantes estadounidenses de secundaria , no era adecuado para experimentos de aprendizaje automático. Además, las imágenes en blanco y negro de NIST se normalizaron para encajar en un cuadro delimitador 28x28 pixel y anti-alias , que introdujo los niveles de escala de grises.
La base de datos MNIST contiene 60,000 imágenes de entrenamiento y 10,000 imágenes de prueba. La mitad del conjunto de entrenamiento y la mitad del conjunto de prueba se tomaron del conjunto de datos de entrenamiento del NIST, mientras que la otra mitad del conjunto de entrenamiento y la otra mitad del conjunto de prueba se tomaron del conjunto de datos de prueba del NIST. Los creadores originales de la base de datos mantienen una lista de algunos de los métodos probados en ella. En su papel original, utilizan una máquina de vectores de soporte para obtener una tasa de error del 0,8%. En 2017 se publicó un conjunto de datos extendido similar a MNIST llamado EMNIST, que contiene 240,000 imágenes de entrenamiento y 40,000 imágenes de prueba de dígitos y caracteres escritos a mano.
Historia
El conjunto de imágenes de la base de datos del MNIST se creó en 1998 como una combinación de dos bases de datos del NIST : Base de datos especial 1 y Base de datos especial 3. La base de datos especial 1 y la base de datos especial 3 constan de dígitos escritos por estudiantes de secundaria y empleados de la Oficina del censo de Estados Unidos , respectivamente.
Rendimiento
Algunos investigadores han logrado un "rendimiento casi humano" en la base de datos del MNIST, utilizando un comité de redes neuronales; En el mismo artículo, los autores logran un rendimiento doble que el de los humanos en otras tareas de reconocimiento. La tasa de error más alta que figura en el sitio web original de la base de datos es del 12 por ciento, que se logra utilizando un clasificador lineal simple sin preprocesamiento.
En 2004, los investigadores lograron una tasa de error en el mejor de los casos del 0,42 por ciento en la base de datos utilizando un nuevo clasificador llamado LIRA, que es un clasificador neuronal con tres capas de neuronas basado en los principios del perceptrón de Rosenblatt.
Algunos investigadores han probado sistemas de inteligencia artificial utilizando la base de datos sometida a distorsiones aleatorias. Los sistemas en estos casos suelen ser redes neuronales y las distorsiones utilizadas tienden a ser distorsiones afines o distorsiones elásticas . A veces, estos sistemas pueden tener mucho éxito; uno de estos sistemas logró una tasa de error en la base de datos del 0,39 por ciento.
En 2011, los investigadores informaron una tasa de error del 0,27 por ciento, mejorando el mejor resultado anterior, utilizando un sistema similar de redes neuronales. En 2013, se afirmó que un enfoque basado en la regularización de redes neuronales que utiliza DropConnect logró una tasa de error del 0,21 por ciento. En 2016, el mejor rendimiento de la red neuronal convolucional única fue una tasa de error del 0,25 por ciento. A agosto de 2018, el mejor rendimiento de una sola red neuronal convolucional entrenada con datos de entrenamiento MNIST sin aumento de datos es una tasa de error del 0,25 por ciento. Además, el Centro de Computación Paralela (Khmelnytskyi, Ucrania) obtuvo un conjunto de solo 5 redes neuronales convolucionales que funciona en MNIST con una tasa de error del 0,21 por ciento. Algunas imágenes del conjunto de datos de prueba apenas se pueden leer y pueden evitar que se alcancen tasas de error de prueba del 0%. En 2018, investigadores del Departamento de Ingeniería de Sistemas e Información de la Universidad de Virginia anunciaron un error del 0,18% con tres tipos de redes neuronales apiladas simultáneamente (redes neuronales totalmente conectadas, recurrentes y de convolución).
Clasificadores
Esta es una tabla de algunos de los métodos de aprendizaje automático utilizados en el conjunto de datos y sus tasas de error, por tipo de clasificador:
Escribe | Clasificador | Distorsión | Preprocesamiento | Tasa de error (%) |
---|---|---|---|---|
Clasificador lineal | Clasificador lineal por pares | Ninguno | Enderezar | 7,6 |
K-Vecinos más cercanos | K-NN con deformación no lineal (P2DHMDM) | Ninguno | Bordes cambiables | 0,52 |
Tocones potenciados | Producto de tocones en las características de Haar | Ninguno | Características de Haar | 0,87 |
Clasificador no lineal | Clasificador cuadrático 40 PCA + | Ninguno | Ninguno | 3.3 |
Bosque aleatorio | Bosques aleatorios unificados rápidos para supervivencia, regresión y clasificación (RF-SRC) | Ninguno | Importancia de píxeles estadísticos simples | 2.8 |
Máquina de vectores de soporte (SVM) | SVM virtual , poli deg-9, jittered de 2 píxeles | Ninguno | Enderezar | 0,56 |
Red neuronal profunda (DNN) | 2 capas 784-800-10 | Ninguno | Ninguno | 1,6 |
Red neuronal profunda | 2 capas 784-800-10 | Distorsiones elásticas | Ninguno | 0,7 |
Red neuronal profunda | 6 capas 784-2500-2000-1500-1000-500-10 | Distorsiones elásticas | Ninguno | 0,35 |
Red neuronal convolucional (CNN) | 6 capas 784-40-80-500-1000-2000-10 | Ninguno | Ampliación de los datos de entrenamiento | 0,31 |
Red neuronal convolucional | 6 capas 784-50-100-500-1000-10-10 | Ninguno | Ampliación de los datos de entrenamiento | 0,27 |
Red neuronal convolucional (CNN) | 13 capas 64-128 (5x) -256 (3x) -512-2048-256-256-10 | Ninguno | Ninguno | 0,25 |
Red neuronal convolucional | Comité de 35 CNN, 1-20-P-40-P-150-10 | Distorsiones elásticas | Normalizaciones de ancho | 0,23 |
Red neuronal convolucional | Comité de 5 CNN, 6 capas 784-50-100-500-1000-10-10 | Ninguno | Ampliación de los datos de entrenamiento | 0,21 |
Aprendizaje profundo multimodelo aleatorio (RMDL) | 10 NN-10 RNN - 10 CNN | Ninguno | Ninguno | 0,18 |
Red neuronal convolucional | Comité de 20 CNNS con redes de compresión y excitación | Ninguno | Aumento de datos | 0,17 |
Ver también
- Lista de conjuntos de datos para la investigación del aprendizaje automático
- Caltech 101
- Etiquetame
- LOC
Referencias
Otras lecturas
- Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen (junio de 2012). "Redes neuronales profundas de varias columnas para clasificación de imágenes" (PDF) . 2012 Conferencia IEEE sobre visión artificial y reconocimiento de patrones . Nueva York, NY: Instituto de ingenieros eléctricos y electrónicos . págs. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . doi : 10.1109 / CVPR.2012.6248110 . ISBN 9781467312264. OCLC 812295155 . S2CID 2161592 . Consultado el 9 de diciembre de 2013 .
enlaces externos
- Página web oficial
- Red neuronal para el reconocimiento de dígitos escritos a mano en JavaScript : una implementación de JavaScript de una red neuronal para la clasificación de dígitos escritos a mano basada en la base de datos MNIST
- Visualización de la base de datos MNIST - grupos de imágenes de dígitos manuscritos MNIST en GitHub