Reconocimiento óptico de música - Optical music recognition

El reconocimiento óptico de música ( OMR ) es un campo de investigación que investiga cómo leer computacionalmente la notación musical en documentos. El objetivo de OMR es enseñar a la computadora a leer e interpretar partituras y producir una versión legible por máquina de la partitura musical escrita. Una vez capturada digitalmente, la música se puede guardar en formatos de archivo de uso común, por ejemplo, MIDI (para reproducción) y MusicXML (para diseño de página). En el pasado, engañosamente, también se le ha llamado " reconocimiento óptico de caracteres musicales ". Debido a diferencias significativas, este término ya no debe usarse.

Historia

Primera exploración digital publicada de partituras musicales por David Prerau en 1971

El reconocimiento óptico de música de partituras impresas comenzó a fines de la década de 1960 en el Instituto de Tecnología de Massachusetts, cuando los primeros escáneres de imágenes se volvieron asequibles para los institutos de investigación. Debido a la memoria limitada de las primeras computadoras, los primeros intentos se limitaron a unos pocos compases de música. En 1984, un grupo de investigación japonés de la Universidad de Waseda desarrolló un robot especializado, llamado WABOT (WAseda roBOT), que era capaz de leer la partitura que tenía delante y acompañar a un cantante en un órgano eléctrico .

Las primeras investigaciones en OMR fueron realizadas por Ichiro Fujinaga, Nicholas Carter, Kia Ng, David Bainbridge y Tim Bell. Estos investigadores desarrollaron muchas de las técnicas que todavía se utilizan en la actualidad.

La primera aplicación comercial de OMR, MIDISCAN (ahora SmartScore ), fue lanzada en 1991 por Musitek Corporation.

La disponibilidad de teléfonos inteligentes con buenas cámaras y suficiente potencia computacional, allanó el camino hacia soluciones móviles donde el usuario toma una foto con el teléfono inteligente y el dispositivo procesa directamente la imagen.

Relación con otros campos

Relación del reconocimiento óptico de música con otros campos de investigación

El reconocimiento óptico de música se relaciona con otros campos de investigación, incluida la visión por computadora , el análisis de documentos y la recuperación de información musical . Es relevante para músicos y compositores en práctica que podrían usar los sistemas OMR como un medio para ingresar música en la computadora y así facilitar el proceso de composición , transcripción y edición de música. En una biblioteca, un sistema OMR podría permitir la búsqueda de partituras musicales y, para los musicólogos, permitiría realizar estudios musicológicos cuantitativos a escala.

OMR frente a OCR

El reconocimiento óptico de música se ha comparado con frecuencia con el reconocimiento óptico de caracteres. La mayor diferencia es que la notación musical es un sistema de escritura característico. Esto significa que si bien el alfabeto consta de primitivas bien definidas (p. Ej., Tallos, cabezas de nota o banderas), es su configuración, cómo se colocan y ordenan en el pentagrama, lo que determina la semántica y cómo debe interpretarse.

La segunda gran distinción es el hecho de que, si bien un sistema OCR no va más allá de reconocer letras y palabras, se espera que un sistema OMR recupere también la semántica de la música: el usuario espera que la posición vertical de una nota (concepto gráfico) se esté modificando. traducido al tono (concepto musical) aplicando las reglas de la notación musical. Tenga en cuenta que no existe un equivalente adecuado en el reconocimiento de texto. Por analogía, recuperar la música de una imagen de una partitura puede ser tan desafiante como recuperar el código fuente HTML de la captura de pantalla de un sitio web .

La tercera diferencia proviene del juego de caracteres utilizado. Aunque los sistemas de escritura como el chino tienen conjuntos de caracteres extraordinariamente complejos, el conjunto de caracteres primitivos para OMR abarca una gama mucho mayor de tamaños, que van desde elementos diminutos como un punto hasta elementos grandes que potencialmente abarcan una página completa como una llave. Algunos símbolos tienen una apariencia casi ilimitada, como insultos, que solo se definen como curvas más o menos suaves que pueden interrumpirse en cualquier lugar.

Finalmente, la notación musical implica relaciones espaciales bidimensionales ubicuas, mientras que el texto puede leerse como un flujo de información unidimensional, una vez que se establece la línea de base.

Enfoques de OMR

Extracto de Nocturne Op. 15 , no. 2, de Frédéric Chopin: desafíos encontrados en el reconocimiento óptico de música

El proceso de reconocimiento de partituras musicales generalmente se divide en pasos más pequeños que se manejan con algoritmos especializados de reconocimiento de patrones .

Se han propuesto muchos enfoques en competencia y la mayoría de ellos comparten una arquitectura de canalización, donde cada paso de esta canalización realiza una operación determinada, como detectar y eliminar líneas de personal antes de pasar a la siguiente etapa. Un problema común con ese enfoque es que los errores y artefactos que se realizaron en una etapa se propagan a través del sistema y pueden afectar en gran medida el rendimiento. Por ejemplo, si la etapa de detección de la línea del pentagrama no identifica correctamente la existencia del pentagrama musical, los pasos posteriores probablemente ignorarán esa región de la imagen, lo que provocará que falte información en la salida.

El reconocimiento óptico de música se subestima con frecuencia debido a la naturaleza aparentemente fácil del problema: si se proporciona un escaneo perfecto de la música compuesta, el reconocimiento visual se puede resolver con una secuencia de algoritmos bastante simples, como proyecciones y coincidencia de plantillas. Sin embargo, el proceso se vuelve significativamente más difícil para escaneos deficientes o música escrita a mano, que muchos sistemas no reconocen por completo. E incluso si todos los símbolos se hubieran detectado perfectamente, todavía es un desafío recuperar la semántica musical debido a las ambigüedades y las frecuentes violaciones de las reglas de la notación musical (ver el ejemplo del Nocturne de Chopin). Donald Byrd y Jakob Simonsen argumentan que OMR es difícil porque la notación musical moderna es extremadamente compleja.

Donald Byrd también recopiló una serie de ejemplos interesantes, así como ejemplos extremos de notación musical que demuestran la gran complejidad de la notación musical.

Salidas de los sistemas OMR

Las aplicaciones típicas de los sistemas OMR incluyen la creación de una versión audible de la partitura musical (conocida como rejugabilidad). Una forma común de crear una versión de este tipo es generando un archivo MIDI , que se puede sintetizar en un archivo de audio. Sin embargo, los archivos MIDI no son capaces de almacenar información de grabado (cómo se distribuyeron las notas) o deletrear enarmónicos .

Si las partituras se reconocen con el objetivo de la legibilidad humana (lo que se conoce como reimprimibilidad), se debe recuperar la codificación estructurada, que incluye información precisa sobre el diseño y el grabado. Los formatos adecuados para almacenar esta información incluyen MEI y MusicXML .

Aparte de esas dos aplicaciones, también puede ser interesante simplemente extraer metadatos de la imagen o habilitar la búsqueda. A diferencia de las dos primeras aplicaciones, un nivel más bajo de comprensión de la partitura musical podría ser suficiente para realizar estas tareas.

Marco general (2001)

Arquitectura de reconocimiento óptico de música de Bainbridge y Bell (2001)

En 2001, David Bainbridge y Tim Bell publicaron su trabajo sobre los desafíos de OMR, donde revisaron investigaciones anteriores y extrajeron un marco general para OMR. Su marco ha sido utilizado por muchos sistemas desarrollados después de 2001. El marco tiene cuatro etapas distintas con un gran énfasis en la detección visual de objetos. Notaron que la reconstrucción de la semántica musical a menudo se omitía en los artículos publicados porque las operaciones utilizadas eran específicas del formato de salida.

Marco refinado (2012)

El marco general para el reconocimiento óptico de música propuesto por Ana Rebelo et al. en 2012

En 2012, Ana Rebelo et al. Técnicas estudiadas para el reconocimiento óptico de música. Clasificaron la investigación publicada y refinaron la tubería OMR en cuatro etapas: preprocesamiento, reconocimiento de símbolos musicales, reconstrucción de notación musical y construcción de representación final. Este marco se convirtió en el estándar de facto para OMR y todavía se usa hoy (aunque a veces con una terminología ligeramente diferente). Para cada bloque, brindan una descripción general de las técnicas que se utilizan para abordar ese problema. Esta publicación es el artículo más citado sobre la investigación de OMR a partir de 2019.

Aprendizaje profundo (desde 2016)

Con el advenimiento del aprendizaje profundo , muchos problemas de visión por computadora han pasado de la programación imperativa con heurísticas hechas a mano e ingeniería de funciones hacia el aprendizaje automático. En el reconocimiento óptico de música, la etapa de procesamiento del pentagrama, la etapa de detección de objetos musicales y la etapa de reconstrucción de la notación musical han tenido intentos exitosos de resolverlos con aprendizaje profundo.

Incluso se han propuesto enfoques completamente nuevos, incluida la resolución de OMR de un extremo a otro con modelos de secuencia a secuencia, que toman una imagen de las partituras y producen directamente la música reconocida en un formato simplificado.

Proyectos científicos destacados

Desafío de remoción de personal

Para los sistemas que se desarrollaron antes de 2016, la detección y remoción de personal representó un obstáculo significativo. Se organizó un concurso científico para mejorar el estado de la técnica y hacer avanzar el campo. Debido a los excelentes resultados y las modernas técnicas que hicieron obsoleta la etapa de remoción de personal, esta competencia fue descontinuada.

Sin embargo, el conjunto de datos CVC-MUSCIMA de libre acceso que se desarrolló para este desafío sigue siendo muy relevante para la investigación de OMR, ya que contiene 1000 imágenes de alta calidad de partituras musicales escritas a mano, transcritas por 50 músicos diferentes. Se ha ampliado aún más al conjunto de datos MUSCIMA ++, que contiene anotaciones detalladas para 140 de las 1000 páginas.

SIMSSA

El proyecto de interfaz única para la búsqueda y análisis de partituras musicales (SIMSSA) es probablemente el proyecto más grande que intenta enseñar a las computadoras a reconocer partituras musicales y hacerlas accesibles. Ya se han completado con éxito varios subproyectos, incluidos Liber Usualis y Cantus Ultimus.

TROMPA

Towards Richer Online Music Public-domain Archives (TROMPA) es un proyecto de investigación internacional, patrocinado por la Unión Europea, que investiga cómo hacer más accesibles los recursos de música digital de dominio público.

Conjuntos de datos

El desarrollo de sistemas OMR se beneficia de conjuntos de datos de prueba de tamaño y diversidad suficientes para garantizar que el sistema que se está desarrollando funcione en diversas condiciones. Sin embargo, debido a razones legales y posibles violaciones de derechos de autor, es un desafío compilar y publicar un conjunto de datos de este tipo. Los conjuntos de datos más notables para OMR están referenciados y resumidos por el proyecto OMR Datasets e incluyen el conjunto de datos CVC-MUSCIMA, MUSCIMA ++, DeepScores, PrIMuS, HOMUS y SEILS, así como Universal Music Symbol Collection.

La empresa francesa Newzik adoptó un enfoque diferente en el desarrollo de su tecnología OMR Maestria, utilizando la generación de puntajes aleatorios. El uso de datos sintéticos ayudó a evitar problemas de derechos de autor y a entrenar los algoritmos de inteligencia artificial en casos musicales que rara vez ocurren en el repertorio real, lo que finalmente resultó en un reconocimiento de música más preciso.

Software

Software académico y de código abierto

Muchos proyectos de OMR se han realizado en el mundo académico, pero solo algunos de ellos alcanzaron un estado de madurez y se implementaron con éxito entre los usuarios. Estos sistemas son:

  • Aruspix
  • Audiveris
  • CANTOR
  • Kit de herramientas MusicStaves para Gamera
  • DMOS
  • OpenOMR
  • Rodan

Software comercial

La mayoría de las aplicaciones comerciales de escritorio que se desarrollaron en los últimos 20 años se han cerrado nuevamente debido a la falta de éxito comercial, dejando solo unos pocos proveedores que aún están desarrollando, manteniendo y vendiendo productos OMR. Algunos de estos productos afirman tasas de reconocimiento extremadamente altas con hasta un 100% de precisión, pero no revelan cómo se obtuvieron esos números, lo que hace que sea casi imposible verificarlos y comparar diferentes sistemas OMR.

  • capella-scan
  • FORTE por notación Forte
  • Escaneo de conexiones MIDI componiendo y arreglando sistemas
  • NoteScan incluido con Nightingale
  • Myriad SARL
    • Complemento OMeR (Optical Music Easy Reader) para Harmony Assistant y Melody Assistant: Myriad Software
    • PDFtoMusic Pro
  • PhotoScore de Neuratron La versión ligera de PhotoScore se utiliza en Sibelius ; PhotoScore utiliza el SDK de SharpEye
  • Scorscan de npcImaging
  • SmartScore de Musitek. Anteriormente empaquetado como "MIDISCAN". (SmartScore Lite se ha utilizado en versiones anteriores de Finale ).
  • ScanScore (también como paquete con Forte Notation ).
  • Maestria de Newzik. Maestria, lanzada en mayo de 2021, es un ejemplo de tecnología OMR de nueva generación basada en el aprendizaje profundo. La compañía afirma que no solo brinda mejores resultados, sino que también significa que "se vuelve más precisa con cada conversión".

Aplicaciones móviles

Mejores cámaras y aumentos en la potencia de procesamiento han permitido una variedad de aplicaciones móviles, tanto en Google Play Store como en Apple Store. Con frecuencia, la atención se centra en la reproducción a primera vista (ver lectura a primera vista ), convirtiendo la partitura en sonido que se reproduce en el dispositivo.

  • iSeeNotes de Gear Up AB
  • NotateMe Now de Neuratron
  • Escáner de notación de Song Zhang
  • PlayScore 2 por Organum Ltd
  • SmartScore NoteReader de Musitek
  • Aplicación Newzik

Ver también

Referencias

enlaces externos

Medios relacionados con el reconocimiento óptico de música en Wikimedia Commons