Cálculo matricial - Matrix calculus

En matemáticas , el cálculo matricial es una notación especializada para hacer cálculo multivariable , especialmente sobre espacios de matrices . Recopila las diversas derivadas parciales de una sola función con respecto a muchas variables , y / o de una función multivariante con respecto a una sola variable, en vectores y matrices que pueden tratarse como entidades únicas. Esto simplifica enormemente operaciones como encontrar el máximo o mínimo de una función multivariante y resolver sistemas de ecuaciones diferenciales . La notación utilizada aquí se usa comúnmente en estadística e ingeniería , mientras que la notación de índice tensorial se prefiere en física .

Dos convenciones de notación en competencia dividen el campo del cálculo matricial en dos grupos separados. Los dos grupos se pueden distinguir por si escriben la derivada de un escalar con respecto a un vector como un vector de columna o un vector de fila . Ambas convenciones son posibles incluso cuando se asume que los vectores deben tratarse como vectores de columna cuando se combinan con matrices (en lugar de vectores de fila). Una sola convención puede ser algo estándar en un solo campo que comúnmente usa cálculo matricial (por ejemplo , econometría , estadística, teoría de estimación y aprendizaje automático ). Sin embargo, incluso dentro de un campo dado, se pueden encontrar diferentes autores utilizando convenciones en competencia. Los autores de ambos grupos suelen escribir como si su convención específica fuera estándar. Pueden producirse errores graves al combinar resultados de diferentes autores sin verificar cuidadosamente que se hayan utilizado notaciones compatibles. Las definiciones de estas dos convenciones y las comparaciones entre ellas se recopilan en la sección de convenciones de diseño .

Alcance

El cálculo de matrices se refiere a una serie de notaciones diferentes que utilizan matrices y vectores para recopilar la derivada de cada componente de la variable dependiente con respecto a cada componente de la variable independiente. En general, la variable independiente puede ser un escalar, un vector o una matriz, mientras que la variable dependiente también puede ser cualquiera de estos. Cada situación diferente conducirá a un conjunto diferente de reglas, o un cálculo separado , usando el sentido más amplio del término. La notación matricial sirve como una forma conveniente de recopilar las muchas derivadas de forma organizada.

Como primer ejemplo, considere el gradiente del cálculo vectorial . Para una función escalar de tres variables independientes , el gradiente viene dado por la ecuación vectorial

,

donde representa un vector unitario en la dirección de . Este tipo de derivada generalizada se puede ver como la derivada de un escalar, f , con respecto a un vector , y su resultado se puede recopilar fácilmente en forma de vector.

Ejemplos más complicados incluyen la derivada de una función escalar con respecto a una matriz, conocida como matriz de gradiente , que recoge la derivada con respecto a cada elemento de la matriz en la posición correspondiente en la matriz resultante. En ese caso, el escalar debe ser una función de cada una de las variables independientes de la matriz. Como otro ejemplo, si tenemos un n -vector de variables dependientes, o funciones, de m variables independientes, podríamos considerar la derivada del vector dependiente con respecto al vector independiente. El resultado podría recopilarse en una matriz m × n que consta de todas las posibles combinaciones de derivadas. Hay un total de nueve posibilidades usando escalares, vectores y matrices. Observe que si consideramos un mayor número de componentes en cada una de las variables independientes y dependientes, podemos quedarnos con un gran número de posibilidades.

Los seis tipos de derivadas que se pueden organizar de manera más ordenada en forma de matriz se recopilan en la siguiente tabla.

Tipos de derivada de matriz
Tipos Escalar Vector Matriz
Escalar
Vector
Matriz

Aquí, hemos utilizado el término "matriz" en su sentido más general, reconociendo que los vectores y escalares son simplemente matrices con una columna y una fila respectivamente. Además, hemos utilizado letras en negrita para indicar vectores y letras mayúsculas en negrita para matrices. Esta notación se utiliza en todas partes.

Observe que también podríamos hablar de la derivada de un vector con respecto a una matriz, o cualquiera de las otras celdas vacías de nuestra tabla. Sin embargo, estas derivadas se organizan de forma más natural en un tensor de rango superior a 2, por lo que no encajan perfectamente en una matriz. En las siguientes tres secciones definiremos cada una de estas derivadas y las relacionaremos con otras ramas de las matemáticas. Consulte la sección de convenciones de diseño para obtener una tabla más detallada.

Relación con otros derivados

La derivada matricial es una notación conveniente para realizar un seguimiento de las derivadas parciales para realizar cálculos. La derivada de Fréchet es la forma estándar en el marco del análisis funcional para tomar derivadas con respecto a los vectores. En el caso de que una función matricial de una matriz sea diferenciable de Fréchet, las dos derivadas concordarán hasta la traducción de notaciones. Como es el caso en general para las derivadas parciales , algunas fórmulas pueden extenderse bajo condiciones analíticas más débiles que la existencia de la derivada como mapeo lineal aproximado.

Usos

El cálculo matricial se utiliza para derivar estimadores estocásticos óptimos, que a menudo implican el uso de multiplicadores de Lagrange . Esto incluye la derivación de:

Notación

Las derivadas vectoriales y matriciales que se presentan en las secciones siguientes aprovechan al máximo la notación matricial , utilizando una sola variable para representar un gran número de variables. A continuación, distinguiremos escalares, vectores y matrices por su tipo de letra. Dejaremos que M ( n , m ) denote el espacio de matrices reales n × m con n filas ym columnas. Dichas matrices se denotarán con letras mayúsculas en negrita: A , X , Y , etc. Un elemento de M ( n , 1), es decir, un vector de columna , se indicará con una letra minúscula en negrita: a , x , y , etc. Un elemento de M (1,1) es un escalar, denotado con letra cursiva minúscula: a , t , x , etc. X T denota transposición de matriz , tr ( X ) es la traza y det ( X ) o | X | es el determinante . Se supone que todas las funciones son de clase de diferenciabilidad C 1 a menos que se indique lo contrario. Generalmente se usarán letras de la primera mitad del alfabeto (a, b, c, ...) para denotar constantes, y de la segunda mitad (t, x, y, ...) para denotar variables.

NOTA : Como se mencionó anteriormente, existen notaciones que compiten para diseñar sistemas de derivadas parciales en vectores y matrices, y todavía no parece que esté surgiendo un estándar. Las siguientes dos secciones introductorias utilizan la convención de disposición del numerador simplemente por motivos de conveniencia, para evitar complicar demasiado la discusión. La sección siguiente analiza las convenciones de diseño con más detalle. Es importante tener en cuenta lo siguiente:

  1. A pesar del uso de los términos "diseño del numerador" y "diseño del denominador", en realidad hay más de dos posibles opciones de notación involucradas. La razón es que la elección de numerador frente a denominador (o en algunas situaciones, numerador frente a mixto) se puede hacer de forma independiente para escalar por vector, vector por escalar, vector por vector y escalar por vector. derivados de la matriz, y varios autores mezclan y combinan sus opciones de diseño de varias maneras.
  2. La elección del diseño del numerador en las secciones introductorias a continuación no implica que esta sea la elección "correcta" o "superior". Existen ventajas y desventajas en los distintos tipos de diseño. Pueden producirse errores graves al combinar sin cuidado fórmulas escritas en diferentes diseños, y la conversión de un diseño a otro requiere cuidado para evitar errores. Como resultado, cuando se trabaja con fórmulas existentes, la mejor política es probablemente identificar el diseño que se usa y mantener la coherencia con él, en lugar de intentar usar el mismo diseño en todas las situaciones.

Alternativas

La notación del índice tensorial con su convención de suma de Einstein es muy similar al cálculo matricial, excepto que uno escribe solo un componente a la vez. Tiene la ventaja de que se pueden manipular fácilmente tensores de rango alto arbitrariamente, mientras que los tensores de rango superior a dos son bastante difíciles de manejar con la notación matricial. Todo el trabajo aquí se puede hacer en esta notación sin el uso de la notación matricial de una sola variable. Sin embargo, muchos problemas en la teoría de la estimación y otras áreas de las matemáticas aplicadas resultarían en demasiados índices para realizar un seguimiento adecuado, lo que apunta a favor del cálculo matricial en esas áreas. Además, la notación de Einstein puede ser muy útil para probar las identidades presentadas aquí (consulte la sección sobre diferenciación ) como una alternativa a la notación de elementos típica, que puede volverse engorrosa cuando se llevan las sumas explícitas. Tenga en cuenta que una matriz puede considerarse un tensor de rango dos.

Derivadas con vectores

Dado que los vectores son matrices con una sola columna, las derivadas de matriz más simples son las derivadas de vectores.

Las notaciones desarrollado aquí puede acomodar a las operaciones habituales de cálculo vectorial mediante la identificación del espacio M ( n , 1) de n -vectors con el espacio euclidiano R n , y el escalar M (1,1) se identifica con R . El concepto correspondiente del cálculo vectorial se indica al final de cada subsección.

NOTA : La discusión en esta sección asume la convención de diseño del numerador para propósitos pedagógicos. Algunos autores utilizan diferentes convenciones. La sección sobre convenciones de diseño trata este tema con mayor detalle. Las identidades que se dan más abajo se presentan en formas que se pueden usar junto con todas las convenciones de diseño comunes.

Vector por escalar

La derivada de un vector , por un escalar x se escribe (en notación de diseño de numerador ) como

En cálculo vectorial la derivada de un vector y con respecto a un escalar x se conoce como el vector tangente del vector y , . Observe aquí que y : R 1R m .

Ejemplo Ejemplos simples de esto incluyen el vector de velocidad en el espacio euclidiano , que es el vector tangente del vector de posición (considerado como una función del tiempo). Además, la aceleración es el vector tangente de la velocidad.

Escalar por vector

La derivada de un escalar y por un vector , se escribe (en notación de diseño de numerador ) como

En cálculo vectorial , el gradiente de un campo escalar f en el espacio R n (cuyas coordenadas independientes son las componentes de x ) es la transpuesta de la derivada de un escalar por un vector.

Por ejemplo, en física, el campo eléctrico es el gradiente vectorial negativo del potencial eléctrico .

La derivada direccional de una función escalar f ( x ) del vector espacial x en la dirección del vector unitario u (representado en este caso como un vector columna) se define usando el gradiente de la siguiente manera.

Usando la notación que se acaba de definir para la derivada de un escalar con respecto a un vector, podemos reescribir la derivada direccional como Este tipo de notación será bueno para probar reglas de producto y reglas de cadena que resultan parecidas a las que conocemos. para la derivada escalar .

Vector por vector

Cada uno de los dos casos anteriores se puede considerar como una aplicación de la derivada de un vector con respecto a un vector, utilizando un vector de tamaño uno de manera apropiada. De manera similar, encontraremos que las derivadas que involucran matrices se reducirán a derivadas que involucran vectores de una manera correspondiente.

La derivada de una función vectorial (un vector cuyos componentes son funciones) , con respecto a un vector de entrada , se escribe (en notación de diseño de numerador ) como

En cálculo vectorial , la derivada de una función vectorial y con respecto a un vector x cuyos componentes representan un espacio se conoce como empuje hacia adelante (o diferencial) , o matriz jacobiana .

El empuje hacia adelante a lo largo de una función vectorial f con respecto al vector v en R n está dado por

Derivadas con matrices

Hay dos tipos de derivadas con matrices que se pueden organizar en una matriz del mismo tamaño. Son la derivada de una matriz por un escalar y la derivada de un escalar por una matriz. Estos pueden ser útiles en problemas de minimización que se encuentran en muchas áreas de las matemáticas aplicadas y han adoptado los nombres de matriz tangente y matriz de gradiente respectivamente después de sus análogos para los vectores.

Nota : La discusión en esta sección asume la convención de diseño del numerador para propósitos pedagógicos. Algunos autores utilizan diferentes convenciones. La sección sobre convenciones de diseño trata este tema con mayor detalle. Las identidades que se dan más abajo se presentan en formas que se pueden usar junto con todas las convenciones de diseño comunes.

Matriz por escalar

La derivada de una función matricial Y por un escalar x se conoce como la matriz tangente y se da (en notación de diseño de numerador ) por

Escalar por matriz

La derivada de una función escalar y de una matriz X p × q de variables independientes, con respecto a la matriz X , está dada (en notación de diseño de numerador ) por

Ejemplos importantes de funciones escalares de matrices incluyen el rastro de una matriz y el determinante .

En analogía con el cálculo vectorial, esta derivada se escribe a menudo de la siguiente manera.

También en analogía con el cálculo vectorial , la derivada direccional de un escalar f ( X ) de una matriz X en la dirección de la matriz Y viene dada por

Es la matriz de gradiente, en particular, la que encuentra muchos usos en los problemas de minimización en la teoría de la estimación , particularmente en la derivación del algoritmo de filtro de Kalman , que es de gran importancia en el campo.

Otras derivadas de matriz

Los tres tipos de derivadas que no se han considerado son las que involucran vectores por matrices, matrices por vectores y matrices por matrices. Estos no se consideran tan ampliamente y no hay un consenso generalizado sobre una notación.

Convenciones de diseño

Esta sección analiza las similitudes y diferencias entre las convenciones de notación que se utilizan en los diversos campos que aprovechan el cálculo matricial. Aunque existen en gran medida dos convenciones coherentes, algunos autores encuentran conveniente mezclar las dos convenciones en las formas que se analizan a continuación. Después de esta sección, las ecuaciones se enumerarán en ambas formas competitivas por separado.

El problema fundamental es que la derivada de un vector con respecto a un vector, es decir , a menudo se escribe de dos formas en competencia. Si el numerador y es de tamaño my el denominador x de tamaño n , entonces el resultado puede presentarse como una matriz m × n o una matriz n × m , es decir, los elementos de y dispuestos en columnas y los elementos de x dispuestos en filas, o viceversa. Esto conduce a las siguientes posibilidades:

  1. Disposición del numerador , es decir, distribuida según y y x T (es decir, contrariamente a x ). Esto a veces se conoce como la formulación jacobiana . Esto corresponde al diseño m × n del ejemplo anterior.
  2. Disposición del denominador , es decir, distribuida según y T y x (es decir, contrariamente a y ). Esto a veces se conoce como la formulación de Hesse . Algunos autores denominan a este diseño degradado , a diferencia del jacobiano (diseño del numerador), que es su transposición. (Sin embargo, degradado más comúnmente significa la derivada independientemente del diseño). Esto corresponde al diseño n × m del ejemplo anterior.
  3. Una tercera posibilidad que se ve a veces es insistir en escribir la derivada como (es decir, la derivada se toma con respecto a la transpuesta de x ) y seguir el esquema del numerador. Esto hace posible afirmar que la matriz se presenta de acuerdo tanto con el numerador como con el denominador. En la práctica, esto produce los mismos resultados que el diseño del numerador.

Al manejar el gradiente y el caso contrario , tenemos los mismos problemas. Para ser coherentes, debemos realizar una de las siguientes acciones:

  1. Si elegimos el diseño del numerador , deberíamos diseñar el degradado como un vector de fila y como un vector de columna.
  2. Si elegimos el diseño del denominador , deberíamos diseñar el degradado como un vector de columna y como un vector de fila.
  3. En la tercera posibilidad anterior, escribimos y y el diseño uso numerador.

No todos los libros de texto y documentos de matemáticas son consistentes a este respecto en todo momento. Es decir, a veces se utilizan diferentes convenciones en diferentes contextos dentro del mismo libro o artículo. Por ejemplo, algunos eligen el diseño del denominador para los degradados (colocándolos como vectores de columna), pero el diseño del numerador para la derivada vector por vector

Del mismo modo, cuando se trata de derivados de escalar-by-matriz y derivados de la matriz-by-escalar a continuación, el diseño numerador consistente establece de acuerdo con la Y y X T , mientras que el diseño denominador consistente establece de acuerdo con Y T y X . En la práctica, sin embargo, seguir un diseño de denominador y presentar el resultado de acuerdo con Y T , rara vez se ve porque genera fórmulas desagradables que no se corresponden con las fórmulas escalares. Como resultado, a menudo se pueden encontrar los siguientes diseños:

  1. Diseño numerador consistente , que establece de acuerdo con la Y y de acuerdo con X T .
  2. Diseño mixto , que establece de acuerdo con la Y y de acuerdo con X .
  3. Utilice la notación con los mismos resultados que el diseño del numerador coherente.

En las siguientes fórmulas, manejamos las cinco combinaciones posibles y por separado. También manejamos casos de derivadas escalar por escalar que involucran una matriz o vector intermedio. (Esto puede surgir, por ejemplo, si se define una curva paramétrica multidimensional en términos de una variable escalar, y luego se toma una derivada de una función escalar de la curva con respecto al escalar que parametriza la curva). de las diversas combinaciones, damos resultados de diseño de numerador y diseño de denominador, excepto en los casos anteriores donde el diseño de denominador rara vez ocurre. En los casos que involucran matrices donde tiene sentido, damos resultados de diseño de numerador y diseño mixto. Como se señaló anteriormente, los casos en los que los denominadores de vectores y matrices se escriben en notación de transposición son equivalentes al diseño del numerador con los denominadores escritos sin la transposición.

Tenga en cuenta que varios autores utilizan diferentes combinaciones de diseños de numerador y denominador para diferentes tipos de derivadas, y no hay garantía de que un autor utilice sistemáticamente el diseño de numerador o denominador para todos los tipos. Haga coincidir las fórmulas a continuación con las citadas en la fuente para determinar el diseño utilizado para ese tipo particular de derivada, pero tenga cuidado de no asumir que las derivadas de otros tipos necesariamente siguen el mismo tipo de diseño.

Al tomar derivadas con un denominador agregado (vector o matriz) para encontrar un máximo o mínimo del agregado, debe tenerse en cuenta que el uso de la disposición del numerador producirá resultados que se transponen con respecto al agregado. Por ejemplo, al intentar encontrar la estimación de máxima verosimilitud de una distribución normal multivariante utilizando el cálculo matricial, si el dominio es un vector de columna k × 1, entonces el resultado utilizando el diseño del numerador tendrá la forma de un vector de fila 1 × k . Por lo tanto, los resultados deben transponerse al final o debe usarse el diseño del denominador (o diseño mixto).

Resultado de diferenciar varios tipos de agregados con otros tipos de agregados
Escalar y Vector de columna y (tamaño m × 1 ) Matriz Y (tamaño m × n )
Notación Escribe Notación Escribe Notación Escribe
Escalar x Numerador Escalar Tamaño - vector de columna m matriz m × n
Denominador Tamaño- m vector de fila
Vector de columna x
(tamaño n × 1 )
Numerador Tamaño- n vector de fila matriz m × n
Denominador Tamaño: vector de columna n matriz n × m
Matriz X
(tamaño p × q )
Numerador matriz q × p
Denominador matriz p × q

Los resultados de las operaciones se transpondrán al cambiar entre la notación de diseño de numerador y diseño de denominador.

Notación de diseño de numerador

Usando la notación de diseño de numerador, tenemos:

Las siguientes definiciones solo se proporcionan en notación de diseño de numerador:

Notación de diseño de denominador

Usando la notación de diseño de denominador, tenemos:

Identidades

Como se señaló anteriormente, en general, los resultados de las operaciones se transpondrán cuando se cambie entre la notación de diseño de numerador y diseño de denominador.

Para ayudar a entender todas las identidades a continuación, tenga en cuenta las reglas más importantes: la regla de la cadena , la regla del producto y la regla de la suma . La regla de la suma se aplica universalmente y la regla del producto se aplica en la mayoría de los casos siguientes, siempre que se mantenga el orden de los productos de la matriz, ya que los productos de la matriz no son conmutativos. La regla de la cadena se aplica en algunos de los casos, pero desafortunadamente no se aplica en derivadas matriz por escalar o derivadas escalar por matriz (en el último caso, involucra principalmente el operador de traza aplicado a matrices). En el último caso, la regla del producto tampoco se puede aplicar directamente, pero el equivalente se puede hacer con un poco más de trabajo utilizando las identidades diferenciales.

Las siguientes identidades adoptan las siguientes convenciones:

  • los escalares, a, b, c, dye son constantes con respecto a, y los escalares, uyv son funciones de uno de x, x o X ;
  • los vectores, a , b , c , d , y e son constantes con respecto a, y los vectores, U , y V son funciones de uno de x, x , o X ;
  • las matrices, A , B , C , D , y E son constantes con respecto a, y las matrices, U y V son funciones de uno de x, x , o X .

Identidades vector por vector

Esto se presenta primero porque todas las operaciones que se aplican a la diferenciación vector por vector se aplican directamente a la diferenciación vector por escalar o escalar por vector simplemente reduciendo el vector apropiado en el numerador o denominador a un escalar.

Identidades: vector por vector
Condición Expresión Disposición del numerador, es decir, por y y x T Disposición del denominador, es decir, por y T y x
a no es una función de x
A no es una función de x
A no es una función de x
a no es una función de x ,
u = u ( x )
v = v ( x ),
a no es una función de x
v = v ( x ), u = u ( x )
A no es una función de x ,
u = u ( x )
u = u ( x ), v = v ( x )
u = u ( x )
u = u ( x )

Identidades escalares por vector

Las identidades fundamentales se colocan por encima de la gruesa línea negra.

Identidades: escalar por vector
Condición Expresión Disposición del numerador,
es decir , por x T ; el resultado es un vector de fila
Disposición del denominador,
es decir , por x ; el resultado es un vector de columna
a no es una función de x
a no es una función de x ,
u = u ( x )
u = u ( x ), v = v ( x )
u = u ( x ), v = v ( x )
u = u ( x )
u = u ( x )
u = u ( x ), v = v ( x )

en diseño de numerador

en diseño de denominador

u = u ( x ), v = v ( x ),
A no es una función de x

en diseño de numerador

en diseño de denominador

, la matriz de Hesse
a no es una función de x

A no es función de x
b no es función de x
A no es una función de x
A no es una función de x
A es simétrica
A no es una función de x
A no es una función de x
A es simétrica
a no es una función de x ,
u = u ( x )

en diseño de numerador

en diseño de denominador

a , b no son funciones de x
A , b , C , D , e no son funciones de x
a no es una función de x

Identidades vectoriales por escalares

Identidades: vector por escalar
Condición Expresión Diseño del numerador, es decir, por y , el
resultado es un vector de columna
Diseño del denominador, es decir, por y T , el
resultado es un vector de fila
a no es una función de x
a no es una función de x ,
u = u ( x )
A no es una función de x ,
u = u ( x )
u = u ( x )
u = u ( x ), v = v ( x )
u = u ( x ), v = v ( x )
u = u ( x )
Asume un diseño de matriz consistente; vea abajo.
u = u ( x )
Asume un diseño de matriz consistente; vea abajo.
U = U ( x ), v = v ( x )

NOTA : Las fórmulas que involucran las derivadas vector por vector y (cuyas salidas son matrices) asumen que las matrices están diseñadas de manera consistente con el diseño vectorial, es decir, matriz de diseño de numerador cuando el vector de diseño de numerador y viceversa; de lo contrario, transponga los derivados vector por vector.

Identidades escalares por matriz

Tenga en cuenta que los equivalentes exactos de la regla del producto escalar y la regla de la cadena no existen cuando se aplican a funciones de matrices con valores matriciales. Sin embargo, la regla del producto de este tipo se aplica a la forma diferencial (ver más abajo), y esta es la forma de derivar muchas de las identidades a continuación que involucran la función de seguimiento , combinada con el hecho de que la función de seguimiento permite la transposición y la permutación cíclica, es decir:

Por ejemplo, para calcular

Por lo tanto,

(Para el último paso, consulte la sección Conversión de forma diferencial a derivada ).

Identidades: escalar por matriz
Condición Expresión Disposición del numerador, es decir, por X T Disposición del denominador, es decir, por X
a no es una función de X
a no es una función de X , u = u ( X )
u = u ( X ), v = v ( X )
u = u ( X ), v = v ( X )
u = u ( X )
u = u ( X )
U = U ( X )     
Ambas formas asumen un diseño de numerador para

es decir, diseño mixto si se utiliza el diseño del denominador para X.

una y b no son funciones de X
una y b no son funciones de X
un , b y C no son funciones de X
un , b y C no son funciones de X
U = U ( X ), V = V ( X )
a no es una función de X ,
U = U ( X )
g ( X ) es cualquier polinomio con coeficientes escalares, o cualquier función matricial definida por una serie polinomial infinita (por ejemplo, e X , sin ( X ), cos ( X ), ln ( X ), etc. usando una serie de Taylor ); g ( x ) es la función escalar equivalente, g ( x ) es su derivada y g ( X ) es la función matricial correspondiente
A no es una función de X     
A no es una función de X     
A no es una función de X     
A no es una función de X     
A , B no son funciones de X
A , B , C no son funciones de X
n es un número entero positivo     
A no es una función de X ,
n es un entero positivo
    
    
    
    
a no es una función de X
A , B no son funciones de X     
n es un número entero positivo     
(ver pseudo-inverso )     
(ver pseudo-inverso )     
A no es una función de X ,
X es cuadrado e invertible
A no es una función de X ,
X no es cuadrado,
A es simétrico
A no es una función de X ,
X no es cuadrado,
A no es simétrico

Identidades matriz por escalar

Identidades: matriz por escalar
Condición Expresión Disposición del numerador, es decir, por Y
U = U ( x )
A , B no son funciones de x ,
U = U ( x )
U = U ( x ), V = V ( x )
U = U ( x ), V = V ( x )
U = U ( x ), V = V ( x )
U = U ( x ), V = V ( x )
U = U ( x )
U = U ( x, y )
A no es una función de x , g ( X ) es cualquier polinomio con coeficientes escalares, o cualquier función matricial definida por una serie polinomial infinita (por ejemplo, e X , sin ( X ), cos ( X ), ln ( X ), etc. .); g ( x ) es la función escalar equivalente, g ( x ) es su derivada y g ( X ) es la función matricial correspondiente
A no es una función de x

Además, consulte Derivada del mapa exponencial .

Identidades escalar por escalar

Con vectores involucrados

Identidades: escalar por escalar, con vectores involucrados
Condición Expresión Cualquier diseño (se supone que el producto escalar ignora el diseño de filas y columnas)
u = u ( x )
u = u ( x ), v = v ( x )

Con matrices involucradas

Identidades: escalar por escalar, con matrices involucradas
Condición Expresión Disposición uniforme del numerador,
es decir , por Y y X T
Diseño mixto,
es decir , por Y y X
U = U ( x )
U = U ( x )
U = U ( x )
U = U ( x )
A no es una función de x , g ( X ) es cualquier polinomio con coeficientes escalares, o cualquier función matricial definida por una serie polinomial infinita (por ejemplo, e X , sin ( X ), cos ( X ), ln ( X ), etc. .); g ( x ) es la función escalar equivalente, g ( x ) es su derivada y g ( X ) es la función matricial correspondiente.
A no es una función de x

Identidades en forma diferencial

A menudo es más fácil trabajar en forma diferencial y luego volver a convertir a derivadas normales. Esto solo funciona bien con el diseño del numerador. En estas reglas, "a" es un escalar.

Identidades diferenciales: matriz de participación escalar
Condición Expresión Resultado (diseño del numerador)
Identidades diferenciales: matriz
Condición Expresión Resultado (diseño del numerador)
A no es una función de X
a no es una función de X
( Producto Kronecker )
( Producto Hadamard )
( transposición conjugada )
n es un número entero positivo
es diagonalizable


f es diferenciable en cada valor propio

En la última fila, es la delta de Kronecker y es el conjunto de los operadores de proyección ortogonal que proyecto en el k -ésimo vector propio de X . Q es la matriz de autovectores de , y son los autovalores. La función matricial se define en términos de la función escalar para matrices diagonalizables por donde con .

Para convertirlo a la forma derivada normal, primero conviértalo a una de las siguientes formas canónicas y luego use estas identidades:

Conversión de forma diferencial a derivada
Forma diferencial canónica Forma derivada equivalente

Aplicaciones

El cálculo diferencial matricial se utiliza en estadística, en particular para el análisis estadístico de distribuciones multivariadas , especialmente la distribución normal multivariada y otras distribuciones elípticas .

Se utiliza en el análisis de regresión para calcular, por ejemplo, la fórmula de regresión de mínimos cuadrados ordinarios para el caso de múltiples variables explicativas .

Ver también

Notas

Referencias

  • Fang, Kai-Tai ; Zhang, Yao-Ting (1990). Análisis multivariado generalizado . Science Press (Beijing) y Springer-Verlag (Berlín). ISBN 3540176519. 9783540176510.
  • Kollo, Tõnu; von Rosen, Dietrich (2005). Estadísticas multivariadas avanzadas con matrices . Dordrecht: Springer. ISBN 978-1-4020-3418-3.
  • Pan, Jianxin; Fang, Kaitai (2007). Modelos de curvas de crecimiento y diagnósticos estadísticos . Beijing: Science Press. ISBN 9780387950532.

Otras lecturas

  • Laxo, Peter D. (2007). "9. Cálculo de funciones con valores vectoriales y matriciales". Álgebra lineal y sus aplicaciones (2ª ed.). Hoboken, Nueva Jersey: Wiley-Interscience. ISBN 978-0-471-75156-4.
  • Magnus, Jan R. (octubre de 2010). "Sobre el concepto de derivada matricial" . Revista de análisis multivariante . 101 (9): 2200–2206. doi : 10.1016 / j.jmva.2010.05.005 .. Tenga en cuenta que este artículo de Wikipedia ha sido revisado casi por completo a partir de la versión criticada en este artículo.
  • Magnus, Jan R. (1999). Cálculo diferencial matricial con aplicaciones en estadística y econometría . Neudecker, Heinz. (Rev. ed.). Nueva York: John Wiley. ISBN 0-471-98632-1. OCLC  40467399 .
  • Abadir, Karim M., 1964- (2005). Álgebra de matrices . Magnus, Jan R. Cambridge: Cambridge University Press. ISBN 978-0-511-64796-3. OCLC  569411497 .CS1 maint: varios nombres: lista de autores ( enlace )

enlaces externos

Software

  • MatrixCalculus.org , un sitio web para evaluar simbólicamente expresiones de cálculo matricial
  • NCAlgebra , un paquete de Mathematica de código abierto que tiene alguna funcionalidad de cálculo matricial

Información