Ecuación de Hamilton – Jacobi – Bellman - Hamilton–Jacobi–Bellman equation

En la teoría del control óptimo , la ecuación de Hamilton – Jacobi – Bellman ( HJB ) da una condición necesaria y suficiente para la optimización de un control con respecto a una función de pérdida . En general, es una ecuación diferencial parcial no lineal en la función de valor , lo que significa que su solución es la función de valor en sí. Una vez que se conoce esta solución, se puede usar para obtener el control óptimo tomando el maximizador (o minimizador) del hamiltoniano involucrado en la ecuación HJB.

La ecuación es el resultado de la teoría de la programación dinámica que fue pionera en la década de 1950 por Richard Bellman y sus colaboradores. La conexión con la ecuación de Hamilton-Jacobi de la física clásica fue dibujada por primera vez por Rudolf Kálmán . En problemas de tiempo discreto , la ecuación en diferencia correspondiente generalmente se denomina ecuación de Bellman .

Si bien los problemas variacionales clásicos , como el problema de la braquistocrona , se pueden resolver mediante la ecuación de Hamilton-Jacobi-Bellman, el método se puede aplicar a un espectro más amplio de problemas. Además, se puede generalizar a sistemas estocásticos , en cuyo caso la ecuación HJB es una ecuación diferencial parcial elíptica de segundo orden . Sin embargo, un gran inconveniente es que la ecuación HJB admite soluciones clásicas solo para una función de valor suficientemente suave , lo que no está garantizado en la mayoría de las situaciones. En cambio, se requiere la noción de una solución de viscosidad , en la que los derivados convencionales se reemplazan por subderivadas (valoradas en conjunto) .

Problemas de control óptimo

Considere el siguiente problema en el control óptimo determinista sobre el período de tiempo :

donde es la función de tasa de costo escalar y es una función que da el valor del legado en el estado final, es el vector de estado del sistema, se supone dado, y for es el vector de control que estamos tratando de encontrar.

El sistema también debe estar sujeto a

donde da el vector que determina la evolución física del vector de estado a lo largo del tiempo.

La ecuación diferencial parcial

Para este sistema simple (dejando ), la ecuación diferencial parcial de Hamilton-Jacobi-Bellman es

sujeto a la condición terminal

El escalar desconocido en la ecuación diferencial parcial anterior es la función de valor de Bellman , que representa el costo incurrido al comenzar en el estado en el momento y controlar el sistema de manera óptima desde ese momento hasta el momento .

Derivando la ecuación

Intuitivamente, la ecuación HJB se puede derivar de la siguiente manera. Si es la función óptima de costo para llevar (también llamada 'función de valor'), entonces por el principio de optimalidad de Richard Bellman , yendo del tiempo t al t  +  dt , tenemos

Tenga en cuenta que la expansión de Taylor del primer término en el lado derecho es

donde denota los términos de la expansión de Taylor de orden superior de uno de cada poco- o notación . Luego, si restamos de ambos lados, dividimos entre dt y tomamos el límite cuando dt se acerca a cero, obtenemos la ecuación HJB definida anteriormente.

Resolver la ecuación

La ecuación HJB generalmente se resuelve hacia atrás en el tiempo , comenzando y terminando en .

Cuando se resuelve en todo el espacio de estados y es continuamente diferenciable, la ecuación HJB es una condición necesaria y suficiente para un óptimo cuando el estado terminal no está restringido. Si podemos resolverlo , podemos encontrar a partir de él un control que logre el costo mínimo.

En el caso general, la ecuación HJB no tiene una solución clásica (suave). Se han desarrollado varias nociones de soluciones generalizadas para cubrir tales situaciones, incluida la solución de viscosidad ( Pierre-Louis Lions y Michael Crandall ), la solución minimax ( Andrei Izmailovich Subbotin  [ ru ] ) y otras.

La programación dinámica aproximada ha sido introducida por DP Bertsekas y JN Tsitsiklis con el uso de redes neuronales artificiales ( perceptrones multicapa ) para aproximar la función de Bellman en general. Esta es una estrategia de mitigación efectiva para reducir el impacto de la dimensionalidad al reemplazar la memorización del mapeo de funciones completo para todo el dominio del espacio con la memorización de los únicos parámetros de la red neuronal. En particular, para los sistemas de tiempo continuo, se introdujo un enfoque de programación dinámica aproximada que combina ambas iteraciones de políticas con redes neuronales. En tiempo discreto, se introdujo un enfoque para resolver la ecuación HJB que combina iteraciones de valor y redes neuronales.

Alternativamente, se ha demostrado que la optimización de suma de cuadrados puede producir una solución polinomial aproximada a la ecuación de Hamilton-Jacobi-Bellman arbitrariamente bien con respecto a la norma.

Extensión a problemas estocásticos

La idea de resolver un problema de control aplicando el principio de optimización de Bellman y luego trabajando hacia atrás en el tiempo una estrategia de optimización puede generalizarse a problemas de control estocásticos. Considere similar al anterior

ahora con el proceso estocástico para optimizar y la dirección. Al usar primero Bellman y luego expandir con la regla de Itô , se encuentra la ecuación estocástica HJB

donde representa el operador de diferenciación estocástica , y sujeto a la condición terminal

Tenga en cuenta que la aleatoriedad ha desaparecido. En este caso, una solución de este último no resuelve necesariamente el problema principal, es solo un candidato y se requiere un argumento de verificación adicional. Esta técnica se utiliza ampliamente en Matemáticas financieras para determinar las estrategias de inversión óptimas en el mercado (ver, por ejemplo, el problema de cartera de Merton ).

Aplicación al control de LQG

Como ejemplo, podemos ver un sistema con dinámica estocástica lineal y costo cuadrático. Si la dinámica del sistema está dada por

y el costo se acumula a una tasa , la ecuación HJB viene dada por

con acción óptima dada por

Suponiendo una forma cuadrática para la función de valor, obtenemos la ecuación habitual de Riccati para el hessiano de la función de valor, como es habitual para el control lineal-cuadrático-gaussiano .

Ver también

Referencias

Otras lecturas