Cara propia - Eigenface

Algunas caras propias de AT&T Laboratories Cambridge

Un Eigenface ( / aɪ ɡ ə n ˌ f eɪ s / ) es el nombre dado a un conjunto de vectores propios cuando se utiliza en la visión por ordenador problema de humano de reconocimiento facial . El enfoque de usar caras propias para el reconocimiento fue desarrollado por Sirovich y Kirby (1987) y utilizado por Matthew Turk y Alex Pentland en la clasificación de rostros. Los autovectores se derivan de la matriz de covarianza de la distribución de probabilidad sobre el espacio vectorial de alta dimensión de las imágenes faciales. Las caras propias forman un conjunto básico de todas las imágenes utilizadas para construir la matriz de covarianza. Esto produce una reducción de dimensión al permitir que el conjunto más pequeño de imágenes base represente las imágenes de entrenamiento originales. La clasificación se puede lograr comparando cómo las caras están representadas por el conjunto de bases.

Historia

El enfoque de la cara propia comenzó con la búsqueda de una representación de baja dimensión de las imágenes faciales. Sirovich y Kirby (1987) demostraron que el análisis de componentes principales podría usarse en una colección de imágenes faciales para formar un conjunto de características básicas . Estas imágenes base, conocidas como imágenes propias, podrían combinarse linealmente para reconstruir imágenes en el conjunto de entrenamiento original. Si el conjunto de entrenamiento consta de M imágenes, el análisis de componentes principales podría formar un conjunto base de N imágenes, donde N <M . El error de reconstrucción se reduce aumentando el número de imágenes propias; Sin embargo, el número necesario siempre se elige menor que M . Por ejemplo, si necesita generar una cantidad de N caras propias para un conjunto de entrenamiento de imágenes de caras M , puede decir que cada imagen de caras puede estar formada por "proporciones" de todas las "características" o caras propias de K : Imagen de caras ₁ = (23% de E ₁ ) + (2% de E ₂ ) + (51% de E ₃ ) + ... + (1% E _n ).

En 1991 M. Turk y A. Pentland ampliaron estos resultados y presentaron el método de reconocimiento facial de caras propias. Además de diseñar un sistema para el reconocimiento facial automatizado utilizando caras propias, mostraron una forma de calcular los vectores propios de una matriz de covarianza de modo que las computadoras de la época pudieran realizar la descomposición propia en un gran número de imágenes faciales. Las imágenes faciales suelen ocupar un espacio de alta dimensión y el análisis de componentes principales convencional era intratable en tales conjuntos de datos. El artículo de Turk y Pentland demostró formas de extraer los autovectores basados en matrices dimensionadas por el número de imágenes en lugar de por el número de píxeles.

Una vez establecido, el método de cara propia se amplió para incluir métodos de preprocesamiento para mejorar la precisión. También se utilizaron múltiples enfoques para construir conjuntos de caras propias para diferentes sujetos y diferentes características, como los ojos.

Generacion

Se puede generar un conjunto de caras propias mediante la realización de un proceso matemático llamado análisis de componentes principales (PCA) en un gran conjunto de imágenes que representan diferentes rostros humanos. De manera informal, las caras propias pueden considerarse un conjunto de "ingredientes faciales estandarizados", derivados del análisis estadístico de muchas imágenes de caras. Cualquier rostro humano puede considerarse una combinación de estos rostros estándar. Por ejemplo, la cara de uno podría estar compuesta por la cara promedio más el 10% de la cara propia 1, el 55% de la cara propia 2 e incluso el −3% de la cara propia 3. Sorprendentemente, no se necesitan muchas caras propias combinadas para lograr una aproximación justa de la mayoría de las caras. Además, debido a que la cara de una persona no se registra en una fotografía digital , sino como una lista de valores (un valor para cada cara propia en la base de datos utilizada), se toma mucho menos espacio para la cara de cada persona.

Las caras propias que se crean aparecerán como áreas claras y oscuras que están dispuestas en un patrón específico. Este patrón es cómo se destacan las diferentes características de una cara para evaluarlas y calificarlas. Habrá un patrón para evaluar la simetría , ya sea que exista algún estilo de vello facial, dónde está la línea del cabello o una evaluación del tamaño de la nariz o la boca. Otras caras propias tienen patrones que son menos simples de identificar y la imagen de la cara propia puede parecerse muy poco a una cara.

La técnica utilizada para crear caras propias y utilizarlas para el reconocimiento también se utiliza fuera del reconocimiento facial: reconocimiento de escritura a mano , lectura de labios , reconocimiento de voz , lenguaje de señas / interpretación de gestos con las manos y análisis de imágenes médicas . Por lo tanto, algunos no usan el término cara propia, pero prefieren usar 'imagen propia'.

Implementación práctica

Para crear un conjunto de caras propias, uno debe:

Prepare un conjunto de entrenamiento de imágenes faciales. Las imágenes que constituyen el conjunto de entrenamiento deben haberse tomado en las mismas condiciones de iluminación y deben estar normalizadas para que los ojos y la boca estén alineados en todas las imágenes. También deben volver a muestrearse a una resolución de píxeles común ( r × c ). Cada imagen se trata como un vector, simplemente concatenando las filas de píxeles en la imagen original, lo que da como resultado una sola columna con elementos r × c . Para esta implementación, se supone que todas las imágenes del conjunto de entrenamiento se almacenan en una única matriz T , donde cada columna de la matriz es una imagen.
Resta la media . La imagen media una tiene que ser calculado y luego se resta de cada imagen original en T .
Calcular los vectores propios y valores propios de la matriz de covarianza S . Cada vector propio tiene la misma dimensionalidad (número de componentes) que las imágenes originales y, por tanto, puede verse como una imagen. Por tanto, los vectores propios de esta matriz de covarianza se denominan caras propias. Son las direcciones en las que las imágenes difieren de la imagen media. Por lo general, este será un paso computacionalmente costoso (si es posible), pero la aplicabilidad práctica de las caras propias se deriva de la posibilidad de calcular los vectores propios de S de manera eficiente, sin siquiera calcular S explícitamente, como se detalla a continuación.
Elija los componentes principales. Ordene los valores propios en orden descendente y organice los vectores propios en consecuencia. El número de componentes principales k se determina arbitrariamente estableciendo un umbral ε sobre la varianza total. Varianza total , $n$ = número de componentes. ${\ Displaystyle v = (\ lambda _ {1} + \ lambda _ {2} + ... + \ lambda _ {n})}$
k es el número más pequeño que satisface ${\ Displaystyle {\ frac {(\ lambda _ {1} + \ lambda _ {2} + ... + \ lambda _ {k})} {v}}> \ epsilon}$

Estas caras propias ahora se pueden usar para representar caras nuevas y existentes: podemos proyectar una nueva imagen (sustraída de la media) en las caras propias y, por lo tanto, registrar cómo esa nueva cara se diferencia de la cara media. Los valores propios asociados con cada cara propia representan cuánto varían las imágenes en el conjunto de entrenamiento de la imagen media en esa dirección. La información se pierde al proyectar la imagen en un subconjunto de los autovectores, pero las pérdidas se minimizan al mantener las autocaraces con los autovalores más grandes. Por ejemplo, trabajar con una imagen de 100 × 100 producirá 10.000 vectores propios. En aplicaciones prácticas, la mayoría de las caras se pueden identificar típicamente utilizando una proyección entre 100 y 150 caras propias, de modo que la mayoría de los 10.000 vectores propios pueden descartarse.

Código de ejemplo de Matlab

A continuación se muestra un ejemplo de cálculo de caras propias con la base de datos de rostros B de Yale ampliada. Para evitar el cuello de botella de almacenamiento y computacional, las imágenes faciales se muestrean en un factor 4 × 4 = 16.

clear all;
close all;
load yalefaces
[h, w, n] = size(yalefaces);
d = h * w;
% vectorize images
x = reshape(yalefaces, [d n]);
x = double(x);
% subtract mean
mean_matrix = mean(x, 2);
x = bsxfun(@minus, x, mean_matrix);
% calculate covariance
s = cov(x');
% obtain eigenvalue & eigenvector
[V, D] = eig(s);
eigval = diag(D);
% sort eigenvalues in descending order
eigval = eigval(end: - 1:1);
V = fliplr(V);
% show mean and 1st through 15th principal eigenvectors
figure, subplot(4, 4, 1)
imagesc(reshape(mean_matrix, [h, w]))
colormap gray
for i = 1:15
    subplot(4, 4, i + 1)
    imagesc(reshape(V(:, i), h, w))
end

Tenga en cuenta que aunque la matriz de covarianza S genera muchas caras propias, solo se necesita una fracción de ellas para representar la mayoría de las caras. Por ejemplo, para representar el 95% de la variación total de todas las imágenes faciales, solo se necesitan las primeras 43 caras propias. Para calcular este resultado, implemente el siguiente código:

% evaluate the number of principal components needed to represent 95% Total variance.
eigsum = sum(eigval);
csum = 0;
for i = 1:d
    csum = csum + eigval(i);
    tv = csum / eigsum;
    if tv > 0.95
        k95 = i;
        break
    end;
end;

Calcular los autovectores

Realizar PCA directamente en la matriz de covarianza de las imágenes es a menudo computacionalmente inviable. Si se utilizan imágenes pequeñas, digamos 100 × 100 píxeles, cada imagen es un punto en un espacio de 10,000 dimensiones y la matriz de covarianza S es una matriz de 10,000 × 10,000 = 10 ⁸ elementos. Sin embargo, el rango de la matriz de covarianza está limitado por el número de ejemplos de entrenamiento: si hay N ejemplos de entrenamiento, habrá como máximo N - 1 autovectores con autovalores distintos de cero. Si el número de ejemplos de entrenamiento es menor que la dimensionalidad de las imágenes, los componentes principales se pueden calcular más fácilmente de la siguiente manera.

Sea T la matriz de ejemplos de entrenamiento preprocesados, donde cada columna contiene una imagen con sustracción media. La matriz de covarianza se puede calcular como S = TT ^T y la descomposición del vector propio de S viene dada por

{\ Displaystyle \ mathbf {Sv} _ {i} = \ mathbf {T} \ mathbf {T} ^ {T} \ mathbf {v} _ {i} = \ lambda _ {i} \ mathbf {v} _ { yo}}

Sin embargo, TT ^T es una matriz grande, y si en cambio tomamos la descomposición de valores propios de

{\ Displaystyle \ mathbf {T} ^ {T} \ mathbf {T} \ mathbf {u} _ {i} = \ lambda _ {i} \ mathbf {u} _ {i}}

entonces notamos que al pre-multiplicar ambos lados de la ecuación con T , obtenemos

{\ Displaystyle \ mathbf {T} \ mathbf {T} ^ {T} \ mathbf {T} \ mathbf {u} _ {i} = \ lambda _ {i} \ mathbf {T} \ mathbf {u} _ { yo}}

Lo que significa que, si u _i es un vector propio de T ^T T , entonces V _i = Tu _i es un vector propio de S . Si tenemos un conjunto de entrenamiento de 300 imágenes de 100 × 100 píxeles, la matriz T ^T T es una matriz de 300 × 300, que es mucho más manejable que la matriz de covarianza de 10,000 × 10,000. Sin embargo, observe que los vectores resultantes v _i no están normalizados; si se requiere normalización, debe aplicarse como un paso adicional.

Conexión con SVD

Sea $X$ la matriz de datos con la columna como el vector de imagen con la media restada. Luego, ${\ Displaystyle d \ times n}$ ${\ Displaystyle x_ {i}}$

{\ Displaystyle \ mathrm {covarianza} (X) = {\ frac {XX ^ {T}} {n}}}

Sea la descomposición en valor singular (SVD) de $X$ :

{\ Displaystyle X = U {\ Sigma} V ^ {T}}

Entonces la descomposición del valor propio para es: ${\ displaystyle XX ^ {T}}$

{\ Displaystyle XX ^ {T} = U {\ Sigma} {{\ Sigma} ^ {T}} U ^ {T} = U {\ Lambda} U ^ {T}}

, donde Λ = diag (valores propios de )

{\ displaystyle XX ^ {T}}

Por lo tanto, podemos ver fácilmente que:

Las caras propias = las primeras ( ) columnas de asociadas con los valores singulares distintos de cero.

{\ Displaystyle k}

{\ Displaystyle k \ leq n}

{\ Displaystyle U}

El i-ésimo valor propio de i-ésimo valor singular de

{\ Displaystyle XX ^ {T} = {\ frac {1} {n}} (}

{\ Displaystyle X) ^ {2}}

Usando SVD en la matriz de datos $X$ , no es necesario calcular la matriz de covarianza real para obtener caras propias.

Uso en reconocimiento facial

El reconocimiento facial fue la motivación para la creación de caras propias. Para este uso, las caras propias tienen ventajas sobre otras técnicas disponibles, como la velocidad y la eficiencia del sistema. Dado que la cara propia es principalmente un método de reducción de dimensiones, un sistema puede representar muchos sujetos con un conjunto de datos relativamente pequeño. Como sistema de reconocimiento facial, también es bastante invariable a grandes reducciones en el tamaño de la imagen; sin embargo, comienza a fallar considerablemente cuando la variación entre las imágenes vistas y la imagen de la sonda es grande.

Para reconocer rostros, las imágenes de la galería, aquellas vistas por el sistema, se guardan como colecciones de pesos que describen la contribución que cada rostro propio tiene a esa imagen. Cuando se presenta una nueva cara al sistema para su clasificación, sus propios pesos se encuentran proyectando la imagen sobre la colección de caras propias. Esto proporciona un conjunto de pesos que describen la cara de la sonda. Estos pesos se clasifican luego contra todos los pesos en el conjunto de galería para encontrar la coincidencia más cercana. Un método del vecino más cercano es un enfoque simple para encontrar la distancia euclidiana entre dos vectores, donde el mínimo se puede clasificar como el sujeto más cercano ( Turk y Pentland 1991 , p. 590).

De manera intuitiva, el proceso de reconocimiento con el método de caras propias consiste en proyectar imágenes de consulta en el espacio facial abarcado por caras propias calculadas y encontrar la coincidencia más cercana a una clase de caras en ese espacio facial.

Pseudocódigo

Dado el vector de imagen de entrada , el vector de imagen medio de la base de datos , calcule el peso de la k-ésima cara propia como: ${\ Displaystyle U \ in \ Re ^ {n}}$ ${\ Displaystyle M}$

${\ Displaystyle w_ {k} = V_ {k} ^ {T} (UM)}$

Luego forma un vector de peso ${\ Displaystyle W = [w_ {1}, w_ {2}, ..., w_ {k}, ..., w_ {n}]}$
Compare W con los vectores de peso de las imágenes de la base de datos. Calcula la distancia euclidiana. ${\ Displaystyle W_ {m}}$
${\ Displaystyle d = || W-W_ {m} || ^ {2}}$
Si , entonces la mésima entrada en la base de datos es candidata a reconocimiento. ${\ Displaystyle d <\ epsilon _ {1}}$
Si , entonces $U$ puede ser una cara desconocida y puede agregarse a la base de datos. ${\ Displaystyle \ epsilon _ {1} <d <\ epsilon _ {2}}$
Si no es una imagen de rostro. ${\ Displaystyle d> \ epsilon _ {2}, U}$

Los pesos de cada imagen de la galería solo transmiten información que describe esa imagen, no ese tema. Una imagen de un sujeto bajo iluminación frontal puede tener pesos muy diferentes a los del mismo sujeto bajo una fuerte iluminación izquierda. Esto limita la aplicación de dicho sistema. Los experimentos en el artículo original de Eigenface presentaron los siguientes resultados: un promedio de 96% con variación de luz, 85% con variación de orientación y 64% con variación de tamaño. ( Turk y Pentland 1991 , p. 590)

Se han hecho varias extensiones al método de cara propia, tales características propias . Este método combina métricas faciales (medición de la distancia entre rasgos faciales) con la representación de la cara propia. Otro método similar a la técnica de cara propia es el " Fisherfaces ", que utiliza análisis discriminante lineal . Este método de reconocimiento facial es menos sensible a la variación en la iluminación y la pose del rostro que el uso de caras propias. Fisherface usa datos etiquetados para retener más información específica de la clase durante la etapa de reducción de dimensión.

Otra alternativa a las caras propias y las caras de pesca es el modelo de apariencia activa . Este enfoque utiliza un modelo de forma activa para describir el contorno de una cara. Al recopilar muchos contornos de caras, el análisis de componentes principales se puede utilizar para formar un conjunto básico de modelos que encapsulan la variación de diferentes caras.

Muchos enfoques modernos todavía utilizan el análisis de componentes principales como un medio de reducción de dimensiones o para formar imágenes de base para diferentes modos de variación.

revisión

Eigenface proporciona una forma fácil y económica de realizar el reconocimiento facial porque:

Su proceso de formación es completamente automático y fácil de codificar.
Eigenface reduce adecuadamente la complejidad estadística en la representación de imágenes faciales.
Una vez que se calculan las caras propias de una base de datos, el reconocimiento facial se puede lograr en tiempo real.
Eigenface puede manejar grandes bases de datos.

Sin embargo, las deficiencias del método de cara propia también son obvias:

Es muy sensible a la iluminación, la escala y la traslación, y requiere un entorno altamente controlado.
Eigenface tiene dificultades para capturar los cambios de expresión.
Las caras propias más importantes se refieren principalmente a la codificación de iluminación y no proporcionan información útil sobre la cara real.

Para hacer frente a la distracción de la iluminación en la práctica, el método de caras propias generalmente descarta las tres primeras caras propias del conjunto de datos. Dado que la iluminación suele ser la causa de las mayores variaciones en las imágenes faciales, las tres primeras caras propias capturarán principalmente la información de los cambios de iluminación tridimensionales, lo que tiene poca contribución al reconocimiento facial. Al descartar esas tres caras propias, habrá una cantidad decente de aumento en la precisión del reconocimiento facial, pero otros métodos como la cara de pescador y el espacio lineal aún tienen la ventaja.

Ver también

Notas

Referencias

L. Sirovich; M. Kirby (1987). "Procedimiento de baja dimensión para la caracterización de rostros humanos". Revista de la Sociedad Americana de Óptica A . 4 (3): 519–524. Código bibliográfico : 1987JOSAA ... 4..519S . doi : 10.1364 / JOSAA.4.000519 . PMID 3572578 .
M. Kirby; L. Sirovich (1990). "Aplicación del procedimiento Karhunen-Loeve para la caracterización de rostros humanos". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 12 (1): 103–108. doi : 10.1109 / 34.41390 .
M. Turk; A. Pentland (1991). "Reconocimiento facial usando caras propias" (PDF) . Proc. Conferencia IEEE sobre visión artificial y reconocimiento de patrones . págs. 586–591.
M. Turk; A. Pentland (1991). "Caras propias para el reconocimiento" (PDF) . Revista de neurociencia cognitiva . 3 (1): 71–86. doi : 10.1162 / jocn.1991.3.1.71 . PMID 23964806 .
A. Pentland, B. Moghaddam, T. Starner, O. Oliyide y M. Turk. (1993). " Eigenspaces modulares y basados en vistas para el reconocimiento facial ". Informe técnico 245, MIT Media Lab.
P. Belhumeur; J. Hespanha; D. Kriegman (julio de 1997). "Caras propias frente a caras de pesca: reconocimiento mediante proyección lineal específica de clase". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 19 (7): 711. CiteSeerX 10.1.1.5.1467 . doi : 10.1109 / 34.598228 .
MH Yang (2000). "Reconocimiento facial usando caras propias del kernel". Proceedings International Conference on Image Processing . 1 . págs. 37–40. doi : 10.1109 / ICIP.2000.900886 .
R. Cendrillon; B. Lovell (2000). "Reconocimiento facial en tiempo real utilizando caras propias" (PDF) . Comunicaciones visuales y procesamiento de imágenes . págs. 269-276. doi : 10.1117 / 12.386642 .
T. Heseltine, N. Pears, J. Austin, Z. Chen (2003). " Reconocimiento facial: una comparación de enfoques basados en la apariencia ". Proc. VII Computación digital de imágenes: técnicas y aplicaciones , vol. 1. 59–68.
D. Pissarenko (2003). Reconocimiento facial basado en Eigenface .
F. Tsalakanidoua; D. Tzovarasb; MG Strintzisa (2003). "Uso de caras propias de profundidad y color para el reconocimiento facial". Cartas de reconocimiento de patrones . 24 (9): 1427–1435. doi : 10.1016 / S0167-8655 (02) 00383-5 .
Delac, K., Grgic, M., Liatsis, P. (2005). " Métodos estadísticos basados en la apariencia para el reconocimiento facial ". Actas del 47º Simposio Internacional ELMAR-2005 centrado en sistemas y aplicaciones multimedia , Zadar, Croacia, 8 a 10 de junio de 2005, págs. 151–158

Languages

In other projects