Red Hopfield - Hopfield network

Una red Hopfield (o modelo Ising de una red neuronal o modelo Ising-Lenz-Little ) es una forma de red neuronal artificial recurrente y un tipo de sistema de vidrio giratorio popularizado por John Hopfield en 1982 como lo describió anteriormente Little en 1974 basado en Ernst El trabajo de Ising con Wilhelm Lenz en el modelo de Ising . Las redes Hopfield sirven como sistemas de memoria direccionables por contenido ("asociativas") con nodos de umbral binarios o con variables continuas. Las redes de Hopfield también proporcionan un modelo para comprender la memoria humana.

Orígenes

El modelo Ising de una red neuronal como modelo de memoria fue propuesto por primera vez por William A. Little en 1974, que es reconocido por Hopfield en su artículo de 1982. Hopfield desarrolló redes con dinámica continua en su artículo de 1984. Krotov y Hopfield desarrollaron un gran avance en la capacidad de almacenamiento de memoria en 2016 a través de un cambio en la dinámica de la red y la función energética. Esta idea fue ampliada por Demircigil y colaboradores en 2017. La dinámica continua de los modelos de gran capacidad de memoria se desarrolló en una serie de artículos entre 2016 y 2020. Las redes Hopfield de gran capacidad de almacenamiento ahora se denominan memorias asociativas densas o redes Hopfield modernas .

Estructura

Una red Hopfield con cuatro unidades

Las unidades en las redes de Hopfield son unidades de umbral binarias, es decir, las unidades solo toman dos valores diferentes para sus estados, y el valor se determina en función de si la entrada de la unidad supera o no su umbral . Las redes de Hopfield discretas describen las relaciones entre neuronas binarias (activadas o no activadas) . En un momento determinado, el estado de la red neuronal se describe mediante un vector , que registra qué neuronas se activan en una palabra binaria de N bits.

Las interacciones entre neuronas tienen unidades que generalmente toman valores de 1 o -1, y esta convención se utilizará a lo largo de este artículo. Sin embargo, otra literatura podría usar unidades que toman valores de 0 y 1. Estas interacciones se "aprenden" a través de la ley de asociación de Hebb, de modo que, para un cierto estado

pero .

(Tenga en cuenta que la regla de aprendizaje de Hebbian toma la forma cuando las unidades asumen valores en {0, 1}).

Una vez que la red está entrenada, ya no evoluciona. Si se introduce un nuevo estado de neuronas en la red neuronal, la red actúa sobre las neuronas de manera que

  • si
  • si

donde es el valor umbral de la i-ésima neurona (a menudo se toma como 0). De esta manera, las redes de Hopfield tienen la capacidad de "recordar" estados almacenados en la matriz de interacción, porque si se somete un nuevo estado a la matriz de interacción, cada neurona cambiará hasta que coincida con el estado original (consulte la sección Actualizaciones a continuación).

Las conexiones en una red Hopfield suelen tener las siguientes restricciones:

  • (ninguna unidad tiene una conexión consigo misma)
  • (las conexiones son simétricas)

La restricción de que los pesos son simétricos garantiza que la función de energía disminuya monótonamente mientras se siguen las reglas de activación. Una red con pesos asimétricos puede exhibir algún comportamiento periódico o caótico; sin embargo, Hopfield descubrió que este comportamiento se limita a partes relativamente pequeñas del espacio de fase y no afecta la capacidad de la red para actuar como un sistema de memoria asociativa direccionable por contenido.

Hopfield también modeló redes neuronales para valores continuos, en las que la salida eléctrica de cada neurona no es binaria sino un valor entre 0 y 1. Descubrió que este tipo de red también podía almacenar y reproducir estados memorizados.

Observe que cada par de unidades i y j en una red Hopfield tiene una conexión que se describe por el peso de la conectividad . En este sentido, la red de Hopfield se puede describir formalmente como un grafo completo no dirigido , donde es un conjunto de neuronas McCulloch-Pitts y es una función que vincula pares de unidades a un valor real, el peso de conectividad.

Actualizando

La actualización de una unidad (nodo en el gráfico que simula la neurona artificial) en la red de Hopfield se realiza utilizando la siguiente regla:

dónde:

  • es la fuerza del peso de la conexión de la unidad j a la unidad i (el peso de la conexión).
  • es el estado de la unidad i.
  • es el umbral de la unidad i.

Las actualizaciones en la red Hopfield se pueden realizar de dos formas diferentes:

  • Asincrónico : solo se actualiza una unidad a la vez. Esta unidad se puede elegir al azar o se puede imponer un orden predefinido desde el principio.
  • Sincrónico : todas las unidades se actualizan al mismo tiempo. Esto requiere un reloj central para el sistema para mantener la sincronización. Algunos consideran que este método es menos realista, debido a la ausencia de un reloj global observado que influya en sistemas de interés biológicos o físicos análogos.

Las neuronas "se atraen o repelen entre sí" en el espacio de estados

El peso entre dos unidades tiene un impacto poderoso sobre los valores de las neuronas. Considere el peso de la conexión entre dos neuronas i y j. Si , la regla de actualización implica que:

  • cuando , la contribución de j en la suma ponderada es positiva. Por lo tanto, es arrastrado por j hacia su valor
  • cuando , la contribución de j en la suma ponderada es negativa. Entonces, nuevamente, es empujado por j hacia su valor

Por tanto, los valores de las neuronas i y j convergerán si el peso entre ellas es positivo. Del mismo modo, divergirán si el peso es negativo.

Principios de funcionamiento de las redes Hopfield discretas y continuas

Bruck arrojó luz sobre el comportamiento de una neurona en la red discreta de Hopfield cuando demostró su convergencia en su artículo de 1990. Un artículo posterior investigó más a fondo el comportamiento de cualquier neurona en las redes de Hopfield de tiempo discreto y de tiempo continuo cuando la función de energía correspondiente se minimiza durante un proceso de optimización. Bruck muestra que la neurona j cambia su estado si y solo si disminuye aún más el siguiente pseudocorte sesgado. La red de Hopfield discreta minimiza el siguiente pseudocorte sesgado para la matriz de peso sináptica de la red de Hopfield.

donde y representa el conjunto de neuronas que son -1 y +1, respectivamente, en el momento . Para obtener más detalles, consulte el artículo reciente.

La red Hopfield de tiempo discreto siempre minimiza exactamente el siguiente pseudocorte

La red Hopfield de tiempo continuo siempre minimiza un límite superior al siguiente corte ponderado

donde es una función sigmoidea centrada en cero.

La compleja red de Hopfield, por otro lado, tiende generalmente a minimizar el llamado corte de sombra de la compleja matriz de pesos de la red.

Energía

Paisaje energético de una red Hopfield, destacando el estado actual de la red (colina arriba), un estado atractor al que eventualmente convergerá, un nivel mínimo de energía y una cuenca de atracción sombreada en verde. Tenga en cuenta cómo la actualización de la red Hopfield siempre está bajando en Energía.

Las redes de Hopfield tienen un valor escalar asociado con cada estado de la red, denominado "energía", E , de la red, donde:

Esta cantidad se llama "energía" porque disminuye o permanece igual cuando se actualizan las unidades de la red. Además, con una actualización repetida, la red eventualmente convergerá a un estado que es un mínimo local en la función de energía (que se considera una función de Lyapunov ). Por tanto, si un estado es un mínimo local en la función de energía, es un estado estable para la red. Tenga en cuenta que esta función de energía pertenece a una clase general de modelos en física bajo el nombre de modelos de Ising ; éstos, a su vez, son un caso especial de redes de Markov , ya que la medida de probabilidad asociada , la medida de Gibbs , tiene la propiedad de Markov .

Red Hopfield en optimización

Hopfield y Tank presentaron la aplicación de la red Hopfield para resolver el problema clásico del viajante de comercio en 1985. Desde entonces, la red Hopfield se ha utilizado ampliamente para la optimización. La idea de usar la red de Hopfield en problemas de optimización es sencilla: si una función de costo restringida / no restringida se puede escribir en la forma de la función de energía de Hopfield E, entonces existe una red de Hopfield cuyos puntos de equilibrio representan soluciones a la optimización restringida / no restringida problema. Minimizar la función de energía de Hopfield minimiza la función objetivo y satisface las restricciones también, ya que las restricciones están "incrustadas" en los pesos sinápticos de la red. Aunque incluir las restricciones de optimización en los pesos sinápticos de la mejor manera posible es una tarea desafiante, de hecho, muchos problemas de optimización difíciles con restricciones en diferentes disciplinas se han convertido a la función de energía de Hopfield: sistemas de memoria asociativa, conversión de analógico a digital, problema de programación del taller de trabajo, asignación cuadrática y otros problemas NP-completos relacionados, problema de asignación de canales en redes inalámbricas, problema de enrutamiento de redes móviles ad-hoc, restauración de imágenes, identificación del sistema, optimización combinatoria, etc., solo por nombrar algunos. Se pueden encontrar más detalles en, por ejemplo, el documento.

Inicialización y ejecución

La inicialización de las redes Hopfield se realiza estableciendo los valores de las unidades en el patrón de inicio deseado. A continuación, se realizan actualizaciones repetidas hasta que la red converge en un patrón de atracción. La convergencia está generalmente asegurada, ya que Hopfield demostró que los atractores de este sistema dinámico no lineal son estables, no periódicos ni caóticos como en algunos otros sistemas. Por lo tanto, en el contexto de las redes de Hopfield, un patrón atractor es un estado estable final, un patrón que no puede cambiar ningún valor dentro de él bajo actualización.

Capacitación

Entrenar una red Hopfield implica reducir la energía de los estados que la red debería "recordar". Esto permite que la red sirva como un sistema de memoria direccionable de contenido, es decir, la red convergerá a un estado "recordado" si se le da solo una parte del estado. La red se puede usar para recuperarse de una entrada distorsionada al estado entrenado que es más similar a esa entrada. A esto se le llama memoria asociativa porque recupera recuerdos sobre la base de la similitud. Por ejemplo, si entrenamos una red Hopfield con cinco unidades para que el estado (1, -1, 1, -1, 1) sea un mínimo de energía, y le damos a la red el estado (1, -1, -1, −1, 1) convergerá a (1, −1, 1, −1, 1). Así, la red está debidamente entrenada cuando la energía de los estados que la red debe recordar son mínimos locales. Tenga en cuenta que, a diferencia del entrenamiento de Perceptron , los umbrales de las neuronas nunca se actualizan.

Reglas de aprendizaje

Hay varias reglas de aprendizaje diferentes que se pueden utilizar para almacenar información en la memoria de la red Hopfield. Es deseable que una regla de aprendizaje tenga las dos propiedades siguientes:

  • Local : una regla de aprendizaje es local si cada peso se actualiza utilizando la información disponible para las neuronas a cada lado de la conexión que está asociada con ese peso en particular.
  • Incremental : se pueden aprender nuevos patrones sin utilizar información de los patrones antiguos que también se han utilizado para el entrenamiento. Es decir, cuando se utiliza un nuevo patrón para el entrenamiento, los nuevos valores para los pesos solo dependen de los valores antiguos y del nuevo patrón.

Estas propiedades son deseables, ya que una regla de aprendizaje que las satisfaga es biológicamente más plausible. Por ejemplo, dado que el cerebro humano siempre está aprendiendo nuevos conceptos, se puede razonar que el aprendizaje humano es incremental. Un sistema de aprendizaje que no fuera incremental generalmente se entrenaría solo una vez, con una gran cantidad de datos de entrenamiento.

Regla de aprendizaje de Hebb para las redes Hopfield

La teoría de Hebbian fue introducida por Donald Hebb en 1949 para explicar el "aprendizaje asociativo", en el que la activación simultánea de células neuronales conduce a aumentos pronunciados de la fuerza sináptica entre esas células. A menudo se resume como "Neuronas que disparan juntas, se conectan juntas. Las neuronas que disparan fuera de sincronía, no se enlazan".

La regla de Hebbian es tanto local como incremental. Para las redes Hopfield, se implementa de la siguiente manera, al aprender patrones binarios:

donde representa el bit i del patrón .

Si los bits correspondientes a las neuronas i y j son iguales en patrón , entonces el producto será positivo. Esto, a su vez, tendría un efecto positivo en el peso y los valores de iyj tenderían a igualarse. Ocurre lo contrario si los bits correspondientes a las neuronas i y j son diferentes.

Regla de aprendizaje Storkey

Esta regla fue introducida por Amos Storkey en 1997 y es tanto local como incremental. Storkey también demostró que una red de Hopfield entrenada con esta regla tiene una mayor capacidad que una red correspondiente entrenada con la regla de Hebbian. Se dice que la matriz de peso de una red neuronal atractora sigue la regla de aprendizaje de Storkey si obedece:

donde es una forma de campo local en la neurona i.

Esta regla de aprendizaje es local, ya que las sinapsis solo tienen en cuenta las neuronas a sus lados. La regla hace uso de más información de los patrones y pesos que la regla generalizada de Hebb, debido al efecto del campo local.

Patrones espurios

Los patrones que utiliza la red para el entrenamiento (llamados estados de recuperación ) se convierten en atractores del sistema. Las actualizaciones repetidas eventualmente conducirían a la convergencia a uno de los estados de recuperación. Sin embargo, a veces la red convergerá en patrones espurios (diferentes de los patrones de entrenamiento). La energía en estos patrones espurios también es un mínimo local. Para cada patrón x almacenado, la negación -x también es un patrón espurio.

Un estado espurio también puede ser una combinación lineal de un número impar de estados de recuperación. Por ejemplo, cuando se utilizan 3 patrones , se puede obtener el siguiente estado falso:

Los patrones espurios que tienen un número par de estados no pueden existir, ya que pueden sumar cero

Capacidad

La capacidad de red del modelo de red de Hopfield está determinada por la cantidad de neuronas y las conexiones dentro de una red determinada. Por lo tanto, la cantidad de recuerdos que se pueden almacenar depende de las neuronas y las conexiones. Además, se demostró que la precisión de recuperación entre vectores y nodos era de 0,138 (se pueden recuperar aproximadamente 138 vectores del almacenamiento por cada 1000 nodos) (Hertz et al., 1991). Por lo tanto, es evidente que se producirán muchos errores si se intenta almacenar una gran cantidad de vectores. Cuando el modelo de Hopfield no recuerda el patrón correcto, es posible que se haya producido una intrusión, ya que los elementos relacionados semánticamente tienden a confundir al individuo y se produce el recuerdo del patrón incorrecto. Por lo tanto, se muestra que el modelo de red de Hopfield confunde un elemento almacenado con el de otro al recuperarlo. Las recuperaciones perfectas y la alta capacidad,> 0,14, se pueden cargar en la red mediante el método de aprendizaje Storkey; ETAM, experimentos de ETAM también en. Los modelos ulteriores inspirados en la red Hopfield se idearon más tarde para aumentar el límite de almacenamiento y reducir la tasa de error de recuperación, y algunos son capaces de aprendizaje de una sola vez .

La capacidad de almacenamiento se puede dar como dónde está el número de neuronas en la red.

Memoria humana

El modelo de Hopfield da cuenta de la memoria asociativa mediante la incorporación de vectores de memoria. Los vectores de memoria se pueden usar ligeramente, y esto provocaría la recuperación del vector más similar en la red. Sin embargo, descubriremos que debido a este proceso, pueden ocurrir intrusiones. En la memoria asociativa para la red de Hopfield, existen dos tipos de operaciones: autoasociación y heteroasociación. El primero es cuando un vector está asociado a sí mismo, y el último cuando dos vectores diferentes están asociados en el almacenamiento. Además, ambos tipos de operaciones se pueden almacenar dentro de una única matriz de memoria, pero solo si esa matriz de representación dada no es una u otra de las operaciones, sino la combinación (autoasociativa y heteroasociativa) de las dos. Es importante señalar que el modelo de red de Hopfield utiliza la misma regla de aprendizaje que la regla de aprendizaje de Hebb (1949) , que básicamente trató de mostrar que el aprendizaje ocurre como resultado del fortalecimiento de los pesos cuando ocurre la actividad.

Rizzuto y Kahana (2001) pudieron demostrar que el modelo de red neuronal puede dar cuenta de la repetición en la precisión del recuerdo mediante la incorporación de un algoritmo de aprendizaje probabilístico. Durante el proceso de recuperación, no se produce ningún aprendizaje. Como resultado, los pesos de la red permanecen fijos, lo que demuestra que el modelo puede pasar de una etapa de aprendizaje a una etapa de recuperación. Al agregar la deriva contextual, pudieron mostrar el rápido olvido que ocurre en un modelo de Hopfield durante una tarea de recuerdo con claves. Toda la red contribuye al cambio en la activación de cualquier nodo.

La regla dinámica de McCulloch y Pitts (1943), que describe el comportamiento de las neuronas, lo hace de una manera que muestra cómo las activaciones de múltiples neuronas se asignan a la activación de la tasa de activación de una nueva neurona, y cómo los pesos de las neuronas fortalecen la conexiones sinápticas entre la nueva neurona activada (y las que la activaron). Hopfield usaría la regla dinámica de McCulloch-Pitts para mostrar cómo la recuperación es posible en la red de Hopfield. Sin embargo, es importante señalar que Hopfield lo haría de forma repetitiva. Hopfield usaría una función de activación no lineal, en lugar de usar una función lineal. Por lo tanto, esto crearía la regla dinámica de Hopfield y con esto, Hopfield pudo demostrar que con la función de activación no lineal, la regla dinámica siempre modificará los valores del vector de estado en la dirección de uno de los patrones almacenados.

Memoria asociativa densa o red Hopfield moderna

Las redes de Hopfield son redes neuronales recurrentes con trayectorias dinámicas que convergen a estados atractores de punto fijo y se describen mediante una función de energía. El estado de cada neurona modelo se define mediante una variable dependiente del tiempo , que se puede elegir para que sea discreta o continua. Un modelo completo describe las matemáticas de cómo el estado futuro de actividad de cada neurona depende de la actividad conocida presente o previa de todas las neuronas.

En el modelo Hopfield original de memoria asociativa, las variables eran binarias y la dinámica se describía mediante una actualización del estado de las neuronas una a la vez. Se definió una función de energía cuadrática en el , y la dinámica consistió en cambiar la actividad de cada neurona solo si al hacerlo disminuiría la energía total del sistema. Esta misma idea se extendió al caso de ser una variable continua que representa la salida de la neurona y ser una función monótona de una corriente de entrada. La dinámica se expresó como un conjunto de ecuaciones diferenciales de primer orden para las cuales la "energía" del sistema siempre disminuía. La energía en el caso continuo tiene un término que es cuadrático en el (como en el modelo binario) y un segundo término que depende de la función de ganancia (función de activación de la neurona). Si bien tienen muchas propiedades deseables de memoria asociativa, estos dos sistemas clásicos adolecen de una pequeña capacidad de almacenamiento de memoria, que escala linealmente con el número de características de entrada.

Las memorias asociativas densas (también conocidas como las redes de Hopfield modernas) son generalizaciones de las redes de Hopfield clásicas que rompen la relación de escala lineal entre el número de características de entrada y el número de memorias almacenadas. Esto se logra mediante la introducción de no linealidades más fuertes (ya sea en la función de energía o en las funciones de activación de las neuronas) que conducen a una capacidad de almacenamiento de memoria superlineal (incluso exponencial) en función del número de neuronas características. La red todavía requiere una cantidad suficiente de neuronas ocultas.

La idea teórica clave detrás de las redes modernas de Hopfield es utilizar una función de energía y una regla de actualización que tenga un pico más marcado alrededor de los recuerdos almacenados en el espacio de las configuraciones de las neuronas en comparación con la red clásica de Hopfield.

Variables discretas

Un ejemplo simple de la red Hopfield moderna se puede escribir en términos de variables binarias que representan el estado activo e inactivo de la neurona modelo .

En esta fórmula, los pesos representan la matriz de vectores de memoria (el índice enumera diferentes memorias y el índice enumera el contenido de cada memoria correspondiente a la neurona característica -th), y la función es una función no lineal de rápido crecimiento. La regla de actualización para neuronas individuales (en el caso asincrónico) se puede escribir de la siguiente forma
que establece que para calcular el estado actualizado de la -th neurona, la red compara dos energías: la energía de la red con la -th neurona en el estado ON y la energía de la red con la -th neurona en el estado OFF , dados los estados de la neurona restante. El estado actualizado de la -ésima neurona selecciona el estado que tiene la menor de las dos energías.

En el caso límite cuando la función de energía no lineal es cuadrática, estas ecuaciones se reducen a la función de energía familiar y la regla de actualización para la red de Hopfield binaria clásica.

La capacidad de almacenamiento de memoria de estas redes se puede calcular para patrones binarios aleatorios. Para la función de energía de potencia, el número máximo de memorias que se pueden almacenar y recuperar de esta red sin errores viene dado por

Para una función de energía exponencial, la capacidad de almacenamiento de memoria es exponencial en el número de neuronas características
Fig.1 Un ejemplo de una red Hopfield moderna y continua con neuronas de características y neuronas de memoria (ocultas) con conexiones sinápticas simétricas entre ellas.

Variables continuas

Las redes modernas de Hopfield o las memorias asociativas densas se pueden entender mejor en variables continuas y tiempo continuo. Considere la arquitectura de la red, que se muestra en la Figura 1, y las ecuaciones para la evolución de los estados de las neuronas.

 

 

 

 

( 1 )

donde las corrientes de las neuronas características se indican con y las corrientes de las neuronas de memoria se indican con ( significa neuronas ocultas). No hay conexiones sinápticas entre las neuronas características o las neuronas de la memoria. Una matriz denota la fuerza de las sinapsis de una neurona característica a la neurona de la memoria . Se supone que las sinapsis son simétricas, de modo que el mismo valor caracteriza una sinapsis física diferente desde la neurona de la memoria a la neurona característica . Las salidas de las neuronas de memoria y las neuronas de características se indican mediante y , que son funciones no lineales de las corrientes correspondientes. En general, estas salidas pueden depender de las corrientes de todas las neuronas en esa capa para que y . Es conveniente definir estas funciones de activación como derivadas de las funciones lagrangianas para los dos grupos de neuronas.

 

 

 

 

( 2 )

De esta manera, la forma específica de las ecuaciones para los estados de las neuronas queda completamente definida una vez que se especifican las funciones lagrangianas. Finalmente, las constantes de tiempo para los dos grupos de neuronas se indican mediante y , es la corriente de entrada a la red que puede ser impulsada por los datos presentados. 

Fig.2 Teoría efectiva sobre las neuronas características para varias elecciones comunes de las funciones lagrangianas. El modelo A se reduce a los modelos estudiados en función de la elección de la función de activación, el modelo B se reduce al modelo estudiado en, el modelo C se reduce al modelo de.

Los sistemas generales de ecuaciones diferenciales no lineales pueden tener muchos comportamientos complicados que pueden depender de la elección de las no linealidades y las condiciones iniciales. Para Hopfield Networks, sin embargo, este no es el caso: las trayectorias dinámicas siempre convergen a un estado atractor de punto fijo. Esta propiedad se logra porque estas ecuaciones están diseñadas específicamente para que tengan una función de energía subyacente.

 

 

 

 

( 3 )

Los términos agrupados en corchetes representan una transformada de Legendre de la función lagrangiana con respecto a los estados de las neuronas. Si las matrices hessianas de las funciones lagrangianas son semidefinidas positivas, se garantiza que la función de energía disminuirá en la trayectoria dinámica

 

 

 

 

( 4 )

Esta propiedad permite demostrar que el sistema de ecuaciones dinámicas que describen la evolución temporal de las actividades de las neuronas llegará finalmente a un estado atractor de punto fijo.

En determinadas situaciones, se puede suponer que la dinámica de las neuronas ocultas se equilibra en una escala de tiempo mucho más rápida en comparación con las neuronas características . En este caso, la solución de estado estable de la segunda ecuación en el sistema ( 1 ) se puede utilizar para expresar las corrientes de las unidades ocultas a través de las salidas de las neuronas características. Esto hace posible reducir la teoría general ( 1 ) a una teoría eficaz solo para las neuronas de características. Las reglas de actualización efectivas resultantes y las energías para varias opciones comunes de las funciones lagrangianas se muestran en la figura 2. En el caso de la función lagrangiana log-suma-exponencial, la regla de actualización (si se aplica una vez) para los estados de las neuronas características es el mecanismo de atención comúnmente utilizado en muchos sistemas modernos de IA (ver Ref. Para la derivación de este resultado a partir de la función continua formulación de tiempo).

Relación con la red clásica de Hopfield con variables continuas

La formulación clásica de las redes Hopfield continuas puede entenderse como un caso límite especial de las redes Hopfield modernas con una capa oculta. Las redes de Hopfield continuas para neuronas con respuesta graduada se describen típicamente mediante las ecuaciones dinámicas

 

 

 

 

( 5 )

y la función energética

 

 

 

 

( 6 )

donde , y es la inversa de la función de activación . Este modelo es un límite especial de la clase de modelos que se denomina modelos A, con la siguiente elección de funciones lagrangianas

 

 

 

 

( 7 )

que, según la definición ( 2 ), conduce a las funciones de activación

 

 

 

 

( 8 )

Si integramos las neuronas ocultas, el sistema de ecuaciones ( 1 ) se reduce a las ecuaciones de las neuronas características ( 5 ) con , y la expresión general para la energía ( 3 ) se reduce a la energía efectiva.

 

 

 

 

( 9 )

Si bien los dos primeros términos de la ecuación ( 6 ) son los mismos que los de la ecuación ( 9 ), los terceros términos parecen superficialmente diferentes. En la ecuación ( 9 ) es una transformada de Legendre del Lagrangiano para las neuronas características, mientras que en ( 6 ) el tercer término es una integral de la función de activación inversa. Sin embargo, estas dos expresiones son de hecho equivalentes, ya que las derivadas de una función y su transformada de Legendre son funciones inversas entre sí. La forma más fácil de ver que estos dos términos son iguales explícitamente es diferenciar cada uno con respecto a . Los resultados de estas diferenciaciones para ambas expresiones son iguales a . Por tanto, las dos expresiones son iguales hasta una constante aditiva. Esto completa la prueba de que la red Hopfield clásica con estados continuos es un caso límite especial de la red Hopfield moderna ( 1 ) con energía ( 3 ).

Formulación general de la red Hopfield moderna

Fig.3 El diagrama de conectividad de la moderna red Hopfield totalmente conectada que consta de cinco neuronas. Los pesos sinápticos se describen mediante una matriz simétrica .

Las redes neuronales biológicas tienen un alto grado de heterogeneidad en términos de diferentes tipos de células. Esta sección describe un modelo matemático de una red Hopfield moderna completamente conectada asumiendo el grado extremo de heterogeneidad: cada neurona es diferente. Específicamente, se describe una función de energía y las ecuaciones dinámicas correspondientes asumiendo que cada neurona tiene su propia función de activación y escala de tiempo cinética. Se supone que la red está completamente conectada, de modo que cada neurona está conectada a todas las demás neuronas mediante una matriz simétrica de pesos , índices y enumera las diferentes neuronas de la red, véase la figura 3. La forma más sencilla de formular matemáticamente este problema es definir la arquitectura mediante una función lagrangiana que depende de las actividades de todas las neuronas de la red. La función de activación de cada neurona se define como una derivada parcial del Lagrangiano con respecto a la actividad de esa neurona.

 

 

 

 

( 10 )

Desde la perspectiva biológica, se puede pensar como una salida axonal de la neurona . En el caso más simple, cuando el lagrangiano es aditivo para diferentes neuronas, esta definición da como resultado la activación que es una función no lineal de la actividad de esa neurona. Para los lagrangianos no aditivos, esta función de activación puede depender de las actividades de un grupo de neuronas. Por ejemplo, puede contener normalización contrastiva (softmax) o divisiva. Las ecuaciones dinámicas que describen la evolución temporal de una neurona dada están dadas por

 

 

 

 

( 11 )

Esta ecuación pertenece a la clase de modelos llamados modelos de tasa de disparo en neurociencia. Cada neurona recopila las salidas axonales de todas las neuronas, las pondera con los coeficientes sinápticos y produce su propia actividad dependiente del tiempo . La evolución temporal tiene una constante de tiempo , que en general puede ser diferente para cada neurona. Esta red tiene una función energética global

 

 

 

 

( 12 )

donde los dos primeros términos representan la transformada de Legendre de la función lagrangiana con respecto a las corrientes de las neuronas . La derivada temporal de esta función de energía se puede calcular en las trayectorias dinámicas que conducen a (ver más detalles)

 

 

 

 

( 13 )

El último signo de desigualdad se cumple siempre que la matriz (o su parte simétrica) sea semidefinida positiva. Si, además de esto, la función de energía está acotada desde abajo, se garantiza que las ecuaciones dinámicas no lineales converjan a un estado atractor de punto fijo. La ventaja de formular esta red en términos de las funciones lagrangianas es que permite experimentar fácilmente con diferentes elecciones de funciones de activación y diferentes arreglos arquitectónicos de neuronas. Para todas esas opciones flexibles, las condiciones de convergencia están determinadas por las propiedades de la matriz y la existencia del límite inferior en la función de energía.

Fig.4 El diagrama de conectividad de la red de memoria asociativa jerárquica en capas. Cada capa puede tener diferente número de neuronas, diferente función de activación y diferentes escalas de tiempo. Las ponderaciones de retroalimentación y las ponderaciones de retroalimentación son iguales.

Red de memoria asociativa jerárquica

Las neuronas se pueden organizar en capas para que cada neurona en una capa determinada tenga la misma función de activación y la misma escala de tiempo dinámica. Si asumimos que no hay conexiones horizontales entre las neuronas dentro de la capa (conexiones laterales) y no hay conexiones de capa de salto, la red general completamente conectada ( 11 ), ( 12 ) se reduce a la arquitectura que se muestra en la Figura 4. Tiene capas de neuronas conectadas de forma recurrente con los estados descritos por las variables continuas y las funciones de activación , el índice enumera las capas de la red y el índice enumera las neuronas individuales en esa capa. Las funciones de activación pueden depender de las actividades de todas las neuronas de la capa. Cada capa puede tener un número diferente de neuronas . Estas neuronas están conectadas de forma recurrente con las neuronas de las capas anterior y posterior. Las matrices de pesos que conectan las neuronas en capas y se indican mediante (el orden de los índices superiores para los pesos es el mismo que el orden de los índices inferiores, en el ejemplo anterior esto significa que el índice enumera las neuronas en la capa y el índice enumera las neuronas en la capa ). Los pesos de retroalimentación y retroalimentación son iguales. Las ecuaciones dinámicas para los estados de las neuronas se pueden escribir como

 

 

 

 

( 14 )

con condiciones de contorno

 

 

 

 

( 15 )

La principal diferencia de estas ecuaciones con respecto a las redes de retroalimentación convencionales es la presencia del segundo término, que es responsable de la retroalimentación de las capas superiores. Estas señales descendentes ayudan a las neuronas de las capas inferiores a decidir su respuesta a los estímulos presentados. Siguiendo la receta general conviene introducir una función lagrangiana para la -ésima capa oculta, que depende de las actividades de todas las neuronas de esa capa. Las funciones de activación en esa capa pueden definirse como derivadas parciales del Lagrangiano.

 

 

 

 

( 16 )

Con estas definiciones, la función de energía (Lyapunov) viene dada por

 

 

 

 

( 17 )

Si las funciones lagrangianas, o equivalentemente las funciones de activación, se eligen de tal manera que las hessianas para cada capa sean semidefinidas positivas y la energía total está limitada desde abajo, se garantiza que este sistema convergerá a un estado atractor de punto fijo. La derivada temporal de esta función energética viene dada por

 

 

 

 

( 18 )

Por lo tanto, la red jerárquica en capas es de hecho una red atractora con la función de energía global. Esta red se describe mediante un conjunto jerárquico de pesos sinápticos que se pueden aprender para cada problema específico.

Ver también

Referencias

enlaces externos