Audición por computadora - Computer audition

La audición por computadora (CA) o la escucha por máquina es un campo general de estudio de algoritmos y sistemas para la comprensión de audio por máquina. Dado que la noción de lo que significa para una máquina "escuchar" es muy amplia y algo vaga, la audición por computadora intenta unir varias disciplinas que originalmente se ocuparon de problemas específicos o tenían una aplicación concreta en mente. El ingeniero Paris Smaragdis , entrevistado en Technology Review , habla de estos sistemas: "software que utiliza el sonido para localizar a las personas que se mueven por las habitaciones, monitorear la maquinaria en busca de averías inminentes o activar cámaras de tráfico para registrar accidentes".

Inspirado en modelos de audición humana , CA se ocupa de cuestiones de representación, transducción , agrupación, uso del conocimiento musical y semántica de sonido general con el fin de realizar operaciones inteligentes en señales de audio y música por computadora. Técnicamente, esto requiere una combinación de métodos de los campos de procesamiento de señales , modelado auditivo , percepción y cognición musical , reconocimiento de patrones y aprendizaje automático , así como métodos más tradicionales de inteligencia artificial para la representación del conocimiento musical.

Aplicaciones

Al igual que la visión por computadora versus el procesamiento de imágenes, la audición por computadora versus la ingeniería de audio se ocupa de la comprensión del audio en lugar del procesamiento. También se diferencia de los problemas de comprensión del habla por máquina, ya que se ocupa de señales de audio generales, como sonidos naturales y grabaciones musicales.

Las aplicaciones de la audición por computadora varían ampliamente e incluyen búsqueda de sonidos , reconocimiento de género , monitoreo acústico , transcripción de música , seguimiento de partituras, textura de audio , improvisación musical , emoción en audio, etc.

Disciplinas afines

Computer Audition se superpone con las siguientes disciplinas:

  • Recuperación de información musical : métodos de búsqueda y análisis de similitudes entre señales musicales.
  • Análisis de escena auditiva: comprensión y descripción de fuentes y eventos de audio.
  • Escucha de máquina: métodos para extraer parámetros auditivos significativos de señales de audio.
  • Musicología computacional y teoría musical matemática: uso de algoritmos que emplean conocimientos musicales para el análisis de datos musicales.
  • Música por ordenador : uso de ordenadores en aplicaciones musicales creativas.
  • Música de la máquina: sistemas de música interactivos impulsados ​​por audiciones.

Áreas de estudio

Dado que las señales de audio son interpretadas por el sistema oído-cerebro humano, ese complejo mecanismo de percepción debería simularse de alguna manera en un software para "escuchar por máquina". En otras palabras, para funcionar a la par con los humanos, la computadora debe escuchar y comprender el contenido de audio de la misma manera que lo hacen los humanos. El análisis de audio con precisión involucra varios campos: ingeniería eléctrica (análisis de espectro, filtrado y transformaciones de audio); inteligencia artificial (aprendizaje automático y clasificación de sonido); psicoacústica (percepción del sonido); ciencias cognitivas (neurociencia e inteligencia artificial); acústica (física de la producción de sonido); y música (armonía, ritmo y timbre). Además, las transformaciones de audio, como el cambio de tono, el estiramiento del tiempo y el filtrado de objetos de sonido, deben ser perceptual y musicalmente significativas. Para obtener los mejores resultados, estas transformaciones requieren comprensión perceptiva de modelos espectrales, extracción de características de alto nivel y análisis / síntesis de sonido. Finalmente, estructurar y codificar el contenido de un archivo de audio (sonido y metadatos) podría beneficiarse de esquemas de compresión eficientes, que descartan información inaudible en el sonido. Los modelos computacionales de la música y la percepción y cognición del sonido pueden conducir a una representación más significativa, una manipulación digital más intuitiva y una generación de sonido y música en interfaces musicales humano-máquina.

El estudio de CA podría dividirse a grandes rasgos en los siguientes subproblemas:

  1. Representación: señal y simbólica. Este aspecto trata de las representaciones de tiempo-frecuencia, tanto en términos de notas como de modelos espectrales, incluida la reproducción de patrones y la textura de audio.
  2. Extracción de características : descriptores de sonido, segmentación, inicio, detección de tono y envolvente , croma y representaciones auditivas.
  3. Estructuras del conocimiento musical: análisis de tonalidades , ritmos y armonías .
  4. Similitud de sonido: métodos de comparación entre sonidos, identificación de sonido, detección de novedades, segmentación y agrupación.
  5. Modelado de secuencia: correspondencia y alineación entre señales y secuencias de notas.
  6. Separación de fuentes: métodos de agrupación de sonidos simultáneos, como detección de tonos múltiples y métodos de agrupación de tiempo-frecuencia.
  7. Cognición auditiva: modelado de emociones, anticipación y familiaridad, sorpresa auditiva y análisis de la estructura musical.
  8. Análisis multimodal: búsqueda de correspondencias entre señales textuales, visuales y de audio.

Problemas de representación

La audición por computadora se ocupa de las señales de audio que se pueden representar en una variedad de formas, desde la codificación directa de audio digital en dos o más canales hasta instrucciones de síntesis representadas simbólicamente. Las señales de audio generalmente se representan en términos de grabaciones analógicas o digitales . Las grabaciones digitales son muestras de forma de onda acústica o parámetros de algoritmos de compresión de audio . Una de las propiedades únicas de las señales musicales es que a menudo combinan diferentes tipos de representaciones, como partituras gráficas y secuencias de acciones de interpretación codificadas como archivos MIDI .

Dado que las señales de audio generalmente comprenden múltiples fuentes de sonido, a diferencia de las señales de voz que pueden describirse de manera eficiente en términos de modelos específicos (como el modelo de filtro de fuente), es difícil diseñar una representación paramétrica para el audio general. Las representaciones de audio paramétricas generalmente usan bancos de filtros o modelos sinusoidales para capturar múltiples parámetros de sonido, a veces aumentando el tamaño de la representación para capturar la estructura interna de la señal. Otros tipos de datos que son relevantes para la audición por computadora son descripciones textuales de contenidos de audio, como anotaciones, reseñas e información visual en el caso de grabaciones audiovisuales.

Características

La descripción del contenido de las señales de audio generales generalmente requiere la extracción de características que capturan aspectos específicos de la señal de audio. En términos generales, se podrían dividir las características en descriptores matemáticos o de señal como energía, descripción de la forma espectral, etc., caracterización estadística como detección de cambios o novedades, representaciones especiales que se adaptan mejor a la naturaleza de las señales musicales o el sistema auditivo, como el crecimiento logarítmico de la sensibilidad ( ancho de banda ) en frecuencia o invariancia de octava (croma).

Dado que los modelos paramétricos en audio generalmente requieren muchos parámetros, las características se utilizan para resumir las propiedades de múltiples parámetros en una representación más compacta o destacada.

Conocimientos musicales

Es posible encontrar estructuras musicales específicas mediante el uso de conocimientos musicales y métodos de aprendizaje automático supervisados ​​y no supervisados. Ejemplos de esto incluyen la detección de tonalidad de acuerdo con la distribución de frecuencias que corresponden a patrones de ocurrencia de notas en escalas musicales, distribución de tiempos de inicio de notas para detección de estructura de tiempo, distribución de energías en diferentes frecuencias para detectar acordes musicales, etc.

Similitud de sonido y modelado de secuencias

La comparación de sonidos se puede realizar mediante la comparación de características con o sin referencia al tiempo. En algunos casos, una similitud general puede evaluarse mediante valores cercanos de características entre dos sonidos. En otros casos, cuando la estructura temporal es importante, es necesario aplicar métodos de deformación temporal dinámica para "corregir" diferentes escalas temporales de eventos acústicos. Encontrar repeticiones y subsecuencias similares de eventos sónicos es importante para tareas como la síntesis de texturas y la improvisación de máquinas .

Separación de fuentes

Dado que una de las características básicas del audio general es que comprende múltiples fuentes que suenan simultáneamente, como múltiples instrumentos musicales, personas que hablan, ruidos de máquinas o vocalizaciones de animales, la capacidad de identificar y separar fuentes individuales es muy deseable. Desafortunadamente, no existen métodos que puedan resolver este problema de manera sólida . Los métodos existentes de separación de fuentes se basan a veces en la correlación entre diferentes canales de audio en grabaciones multicanal . La capacidad de separar las fuentes de las señales estéreo requiere técnicas diferentes a las que se suelen aplicar en las comunicaciones en las que se encuentran disponibles varios sensores. Otros métodos de separación de fuentes se basan en el entrenamiento o la agrupación de funciones en la grabación mono, como el seguimiento de parciales relacionados armónicamente para la detección de múltiples tonos. Algunos métodos, antes del reconocimiento explícito, se basan en revelar estructuras en datos sin conocer las estructuras (como reconocer objetos en imágenes abstractas sin atribuirles etiquetas significativas) al encontrar las representaciones de datos menos complejas, por ejemplo, describir escenas de audio generadas por unos pocos patrones de tono y sus trayectorias (voces polifónicas) y contornos acústicos dibujados por un tono (acordes).

Cognición auditiva

Escuchar música y audio en general no suele ser una actividad dirigida a una tarea. La gente disfruta de la música por varias razones poco entendidas, que comúnmente se refieren al efecto emocional de la música debido a la creación de expectativas y su realización o violación. Los animales prestan atención a las señales de peligro en los sonidos, que pueden ser nociones específicas o generales de cambios sorprendentes e inesperados. Generalmente, esto crea una situación en la que la audición por computadora no puede depender únicamente de la detección de características específicas o propiedades del sonido y tiene que idear métodos generales para adaptarse al entorno auditivo cambiante y monitorear su estructura. Consiste en el análisis de estructuras más grandes de repetición y auto-similitud en el audio para detectar la innovación, así como la capacidad de predecir la dinámica de características locales.

Análisis multimodal

Entre los datos disponibles para describir la música, se encuentran representaciones textuales, como notas de fondo, reseñas y críticas que describen los contenidos de audio en palabras. En otros casos, las reacciones humanas, como los juicios emocionales o las mediciones psicofisiológicas, pueden proporcionar una idea del contenido y la estructura del audio. Computer Audition intenta encontrar una relación entre estas diferentes representaciones para proporcionar esta comprensión adicional de los contenidos de audio.

Ver también

enlaces externos

Referencias