Aprendizaje multitarea - Multi-task learning

El aprendizaje multitarea (MTL) es un subcampo del aprendizaje automático en el que se resuelven varias tareas de aprendizaje al mismo tiempo, mientras se explotan los puntos en común y las diferencias entre las tareas. Esto puede resultar en una mayor eficiencia de aprendizaje y precisión de predicción para los modelos específicos de la tarea, en comparación con el entrenamiento de los modelos por separado. Las primeras versiones de MTL se llamaban "sugerencias".

En un artículo de 1997 ampliamente citado, Rich Caruana dio la siguiente caracterización:

El aprendizaje multitarea es un enfoque de la transferencia inductiva que mejora la generalización mediante el uso de la información de dominio contenida en las señales de entrenamiento de las tareas relacionadas como un sesgo inductivo . Lo hace aprendiendo tareas en paralelo mientras usa una representación compartida ; lo que se aprende para cada tarea puede ayudar a que otras tareas se aprendan mejor.

En el contexto de la clasificación, MTL tiene como objetivo mejorar el desempeño de múltiples tareas de clasificación aprendiéndolas conjuntamente. Un ejemplo es un filtro de spam, que puede tratarse como tareas de clasificación distintas pero relacionadas entre diferentes usuarios. Para hacer esto más concreto, considere que diferentes personas tienen diferentes distribuciones de características que distinguen los correos electrónicos no deseados de los legítimos, por ejemplo, un hablante de inglés puede encontrar que todos los correos electrónicos en ruso son spam, no así para los hablantes de ruso. Sin embargo, existe una similitud definida en esta tarea de clasificación entre los usuarios, por ejemplo, una característica común podría ser el texto relacionado con la transferencia de dinero. Resolver el problema de clasificación de spam de cada usuario de forma conjunta a través de MTL puede permitir que las soluciones se informen entre sí y mejoren el rendimiento. Otros ejemplos de configuraciones para MTL incluyen clasificación multiclase y clasificación multi-etiqueta .

El aprendizaje multitarea funciona porque la regularización inducida al requerir que un algoritmo funcione bien en una tarea relacionada puede ser superior a la regularización que evita el sobreajuste al penalizar toda la complejidad de manera uniforme. Una situación en la que MTL puede ser particularmente útil es si las tareas comparten puntos en común importantes y, por lo general, están ligeramente submuestreadas. Sin embargo, como se analiza a continuación, MTL también ha demostrado ser beneficioso para el aprendizaje de tareas no relacionadas.

Métodos

Agrupación y superposición de tareas

Dentro del paradigma MTL, la información se puede compartir entre algunas o todas las tareas. Dependiendo de la estructura de la relación de tareas, es posible que desee compartir información de forma selectiva entre las tareas. Por ejemplo, las tareas pueden estar agrupadas o existir en una jerarquía, o estar relacionadas de acuerdo con alguna métrica general. Supongamos, como se desarrolla más formalmente a continuación, que el vector de parámetros que modela cada tarea es una combinación lineal de alguna base subyacente. La similitud en términos de esta base puede indicar la relación de las tareas. Por ejemplo, con escasez , la superposición de coeficientes distintos de cero en las tareas indica similitudes. Una agrupación de tareas corresponde entonces a aquellas tareas que se encuentran en un subespacio generado por algún subconjunto de elementos básicos, donde las tareas de diferentes grupos pueden estar disjuntas o superponerse arbitrariamente en términos de sus bases. La relación de tareas se puede imponer a priori o aprender de los datos. La relación jerárquica de tareas también puede explotarse implícitamente sin asumir a priori conocimientos o relaciones de aprendizaje explícitamente. Por ejemplo, el aprendizaje explícito de la relevancia de la muestra en todas las tareas se puede realizar para garantizar la eficacia del aprendizaje conjunto en múltiples dominios.

Explotación de tareas no relacionadas

Se puede intentar aprender un grupo de tareas principales utilizando un grupo de tareas auxiliares, no relacionadas con las principales. En muchas aplicaciones, el aprendizaje conjunto de tareas no relacionadas que utilizan los mismos datos de entrada puede resultar beneficioso. La razón es que el conocimiento previo sobre la relación de tareas puede conducir a representaciones más dispersas y más informativas para cada grupo de tareas, esencialmente al descartar idiosincrasias de la distribución de datos. Se han propuesto métodos novedosos que se basan en una metodología multitarea previa al favorecer una representación compartida de baja dimensión dentro de cada grupo de tareas. El programador puede imponer una penalización a las tareas de diferentes grupos que fomenta que las dos representaciones sean ortogonales . Los experimentos con datos sintéticos y reales han indicado que la incorporación de tareas no relacionadas puede resultar en mejoras significativas sobre los métodos estándar de aprendizaje multitarea.

Transferencia de conocimiento

Relacionado con el aprendizaje multitarea está el concepto de transferencia de conocimientos. Mientras que el aprendizaje tradicional de múltiples tareas implica que una representación compartida se desarrolla simultáneamente entre las tareas, la transferencia de conocimiento implica una representación compartida secuencialmente. Los proyectos de aprendizaje automático a gran escala, como la red neuronal convolucional profunda GoogLeNet , un clasificador de objetos basado en imágenes, pueden desarrollar representaciones sólidas que pueden ser útiles para desarrollar más algoritmos en tareas relacionadas con el aprendizaje. Por ejemplo, el modelo previamente entrenado se puede utilizar como un extractor de características para realizar el preprocesamiento de otro algoritmo de aprendizaje. O el modelo previamente entrenado se puede utilizar para inicializar un modelo con una arquitectura similar que luego se ajusta para aprender una tarea de clasificación diferente.

Aprendizaje adaptativo en línea grupal

Tradicionalmente, el aprendizaje multitarea y la transferencia de conocimientos se aplican a entornos de aprendizaje estacionarios. Su extensión a entornos no estacionarios se denomina aprendizaje adaptativo en línea grupal (GOAL). Compartir información podría ser particularmente útil si los alumnos operan en entornos que cambian continuamente, porque un alumno podría beneficiarse de la experiencia previa de otro alumno para adaptarse rápidamente a su nuevo entorno. Este aprendizaje adaptativo en grupo tiene numerosas aplicaciones, desde la predicción de series de tiempo financieras, pasando por sistemas de recomendación de contenido, hasta la comprensión visual para agentes autónomos adaptativos.

Matemáticas

Reproducir el espacio de Hilbert de funciones con valores vectoriales (RKHSvv)

El problema de MTL puede plantearse dentro del contexto de RKHSvv (un espacio de producto interno completo de funciones con valores vectoriales equipado con un núcleo de reproducción ). En particular, la atención se ha centrado recientemente en casos en los que la estructura de la tarea se puede identificar mediante un núcleo separable, que se describe a continuación. La presentación aquí se deriva de Ciliberto et al., 2015.

Conceptos de RKHSvv

Supongamos que el conjunto de datos de entrenamiento es , con , donde t tarea índices, y . Deja . En esta configuración hay un espacio de entrada y salida consistente y la misma función de pérdida para cada tarea:. Esto da como resultado el problema de aprendizaje automático regularizado:

 

 

 

 

( 1 )

donde es un vector valorado que reproduce el espacio de Hilbert del núcleo con funciones que tienen componentes .

El núcleo de reproducción para el espacio de funciones es una función simétrica con valores de matriz , de modo que se cumple la siguiente propiedad de reproducción:

 

 

 

 

( 2 )

El núcleo que se reproduce da lugar a un teorema del representador que muestra que cualquier solución a la ecuación 1 tiene la forma:

 

 

 

 

( 3 )

Granos separables

La forma del kernel Γ induce tanto la representación del espacio de características como estructura la salida a través de las tareas. Una simplificación natural es elegir un kernel separable, que se factoriza en kernels separados en el espacio de entrada X y en las tareas . En este caso el kernel relaciona componentes escalares y viene dado por . Para funciones con valores vectoriales , podemos escribir , donde k es un núcleo de reproducción escalar y A es una matriz semidefinida positiva simétrica . De ahora en adelante denotar .

Esta propiedad de factorización, la separabilidad, implica que la representación del espacio de características de entrada no varía según la tarea. Es decir, no hay interacción entre el kernel de entrada y el kernel de tareas. La estructura de las tareas está representado únicamente por una . Métodos para granos no separables Γ es un campo de investigación actual.

Para el caso separable, el teorema de representación se reduce a . El resultado del modelo en los datos de entrenamiento es entonces KCA , donde K es la matriz de núcleo empírica con entradas y C es la matriz de filas .

Con el núcleo separable, la ecuación 1 se puede reescribir como

 

 

 

 

( P )

donde V es un promedio (ponderado) de L aplicado a la entrada a Y y KCA . (El peso es cero si falta una observación).

Tenga en cuenta que el segundo término en P se puede derivar de la siguiente manera:

Estructura de tareas conocida

Representaciones de estructura de tareas

Hay tres formas en gran parte equivalentes de representar la estructura de la tarea: mediante un regularizador; mediante una métrica de salida y mediante una asignación de salida.

Regularizador  :  con el kernel separable, se puede mostrar (a continuación) que , donde es el elemento del pseudoinverso de y es el RKHS basado en el kernel escalar , y . Esta formulación muestra que controla el peso de la penalización asociada . (Tenga en cuenta que surge de .)

Prueba  -

Métrica de salida  :  el producto interno puede inducir una métrica de salida alternativa . Con la pérdida al cuadrado hay una equivalencia entre los granos separables bajo la métrica alternativa y , bajo la métrica canónica.

Mapeo de salida  : las  salidas se pueden mapear en un espacio dimensional más alto para codificar estructuras complejas como árboles, gráficos y cadenas. Para mapas lineales L , con la elección adecuada de kernel separable, se puede demostrar que .

Ejemplos de estructura de tareas

A través de la formulación del regularizador, se pueden representar fácilmente una variedad de estructuras de tareas.

  • Dejar (donde es la matriz identidad T x T y es la matriz T x T de unos) es equivalente a dejar que Γ controle la varianza de las tareas a partir de su media . Por ejemplo, los niveles sanguíneos de algún biomarcador pueden tomarse en pacientes T en puntos de tiempo durante el transcurso de un día y el interés puede radicar en regularizar la variación de las predicciones entre pacientes.
  • Dejar que , donde es equivalente a dejar que el control de la varianza medido con respecto a una media del grupo: . (Aquí la cardinalidad del grupo r, y es la función indicadora). Por ejemplo, las personas de diferentes partidos políticos (grupos) podrían regularizarse juntas con respecto a la predicción de la calificación de favorabilidad de un político. Tenga en cuenta que esta penalización se reduce a la primera cuando todas las tareas están en el mismo grupo.
  • Dejando , donde es el laplaciano para el gráfico con matriz de adyacencia M que da similitudes de tareas por pares. Esto equivale a dar una penalización mayor a la distancia que separa las tareas t y s cuando son más similares (según el peso ), es decir, regulariza .
  • Todas las opciones anteriores de A también inducen el término de regularización adicional que penaliza la complejidad en f de manera más amplia.

Tareas de aprendizaje junto con su estructura

El problema de aprendizaje P puede generalizarse para admitir la matriz de tareas de aprendizaje A de la siguiente manera:

 

 

 

 

( Q )

La elección de debe diseñarse para aprender matrices A de un tipo determinado. Consulte "Casos especiales" a continuación.

Optimización de Q

Restringiendo al caso de pérdidas convexas y sanciones coercitivas Ciliberto et al. han demostrado que aunque Q no es convexo conjuntamente en C y A, un problema relacionado es convexo conjuntamente.

Específicamente en el conjunto convexo , el problema equivalente

 

 

 

 

( R )

es convexo con el mismo valor mínimo. Y si es un minimizador de R a continuación, es un minimizador de Q .

R puede resolverse mediante un método de barrera en un conjunto cerrado introduciendo la siguiente perturbación:

 

 

 

 

( S )

La perturbación a través de la barrera obliga a las funciones objetivo a ser iguales a en el límite de .

S puede ser resuelto con un bloque de forma de descenso, alterna en coordenadas C y A. Esto resulta en una secuencia de minimizersen S que converge a la solución en R como, y por lo tanto da la solución a Q .

Casos especiales

Penalizaciones espectrales : Dinnuzo et al sugirieron establecer F como la norma de Frobenius. Optimizaron Q directamente utilizando el descenso de coordenadas de bloque, sin tener en cuenta las dificultades en el límite de.

Aprendizaje de tareas agrupadas : Jacob et al sugirieron aprender A en el entorno en el que las tareas T están organizadas en grupos separados de R. En este caso sea ​​la matriz con . La configuración , y , la matriz de tareas se puede parametrizar en función de :, con términos que penalizan el promedio, la varianza entre grupos y la varianza dentro de los grupos, respectivamente, de las predicciones de la tarea. M no es convexo, pero hay una relajación convexa . En esta formulación, .

Generalizaciones

Penalizaciones no convexas : las penalizaciones se pueden construir de manera que A esté restringido a ser un gráfico laplaciano, o que A tenga factorización de rango bajo. Sin embargo, estas penalizaciones no son convexas y el análisis del método de barrera propuesto por Ciliberto et al. no pasa en estos casos.

Núcleos no separables: los núcleos separables son limitados, en particular, no tienen en cuenta las estructuras en el espacio de interacción entre los dominios de entrada y salida de forma conjunta. Se necesita trabajo futuro para desarrollar modelos para estos núcleos.

Aplicaciones

Filtrado de spam

Utilizando los principios de MTL, se han propuesto técnicas de filtrado colaborativo de spam que facilitan la personalización. En los sistemas de correo electrónico de membresía abierta a gran escala, la mayoría de los usuarios no etiquetan suficientes mensajes para que un clasificador local individual sea ​​efectivo, mientras que los datos son demasiado ruidosos para ser utilizados para un filtro global en todos los usuarios. Un clasificador híbrido global / individual puede ser eficaz para absorber la influencia de los usuarios que etiquetan con mucha diligencia los correos electrónicos del público en general. Esto se puede lograr sin dejar de ofrecer suficiente calidad a los usuarios con pocas instancias etiquetadas.

búsqueda Web

Al utilizar árboles de decisión mejorados , se puede permitir el intercambio y la regularización de datos implícitos. Este método de aprendizaje se puede utilizar en conjuntos de datos de clasificación de búsqueda web. Un ejemplo es utilizar conjuntos de datos de clasificación de varios países. Aquí, el aprendizaje multitarea es particularmente útil ya que los conjuntos de datos de diferentes países varían en gran medida en tamaño debido al costo de los juicios editoriales. Se ha demostrado que el aprendizaje conjunto de varias tareas puede conducir a mejoras significativas en el rendimiento con una fiabilidad sorprendente.

Paquete de software

El paquete Matlab de aprendizaje multitarea mediante regularización estructural (MALSAR) implementa los siguientes algoritmos de aprendizaje multitarea:

  • Aprendizaje multitarea con regularización media
  • Aprendizaje multitarea con selección de funciones conjuntas
  • Aprendizaje robusto de funciones multitarea
  • Aprendizaje multitarea regularizado de Trace-Norm
  • Optimización estructural alterna
  • Aprendizaje escaso y de bajo rango incoherente
  • Aprendizaje robusto de múltiples tareas de bajo rango
  • Aprendizaje multitarea agrupado
  • Aprendizaje multitarea con estructuras gráficas

Ver también

Referencias

enlaces externos

Software