Esgrima (informática) - Fencing (computing)

Un grupo de NEC Nehalem

La cerca es el proceso de aislar un nodo de un clúster de computadoras o proteger recursos compartidos cuando un nodo parece estar funcionando mal.

A medida que aumenta el número de nodos en un clúster, también aumenta la probabilidad de que uno de ellos falle en algún momento. El nodo fallido puede tener control sobre los recursos compartidos que necesitan ser recuperados y si el nodo está actuando de forma errática, el resto del sistema necesita protección. Por tanto, el cercado puede deshabilitar el nodo o no permitir el acceso al almacenamiento compartido, asegurando así la integridad de los datos.

Conceptos básicos

Una valla de nodo (o valla de E / S) es una "valla" virtual que separa los nodos que no deben tener acceso a un recurso compartido de ese recurso. Puede separar un nodo activo de su respaldo. Si la copia de seguridad cruza la barrera y, por ejemplo, intenta controlar la misma matriz de discos que la principal, puede ocurrir un peligro de datos. Mecanismos como STONITH están diseñados para prevenir esta condición.

Aislar un nodo significa asegurarse de que ya no se pueda realizar E / S desde él. El cercado se realiza normalmente de forma automática, mediante la infraestructura del clúster, como los sistemas de archivos de disco compartido , para proteger los procesos de otros nodos activos que modifican los recursos durante las fallas del nodo. Los mecanismos de apoyo a las vallas, como el mecanismo de reserva / liberación de SCSI, han existido desde al menos 1985.

Se requiere vallado porque es imposible distinguir entre una falla real y un bloqueo temporal . Si el nodo que funciona mal está realmente inactivo, entonces no puede causar ningún daño, por lo que, en teoría, no se requeriría ninguna acción (simplemente se podría traer de vuelta al clúster con el proceso de unión habitual). Sin embargo, debido a que existe la posibilidad de que un nodo que funcione incorrectamente pueda considerar que el resto del clúster es el que está funcionando incorrectamente, podría producirse una condición de cerebro dividido y dañar los datos . En cambio, el sistema tiene que asumir el peor escenario y siempre cercar en caso de problemas.

Enfoques de la esgrima

Hay dos clases de métodos de cercado, uno que deshabilita un nodo en sí, el otro no permite el acceso a recursos como discos compartidos. En algunos casos, se supone que si un nodo no responde después de un umbral de tiempo determinado, se puede suponer que no está operativo, aunque hay contraejemplos, por ejemplo, un alboroto de búsqueda prolongado.

El método STONITH significa "Disparar al otro nodo en la cabeza", lo que significa que el nodo sospechoso está desactivado o apagado. Por ejemplo, las cercas eléctricas utilizan un controlador de energía para apagar un nodo que no funciona. El nodo puede reiniciarse y unirse al clúster más tarde. Sin embargo, existen enfoques en los que se informa al operador de la necesidad de un reinicio manual para el nodo.

El enfoque de cercado de recursos no permite el acceso a los recursos sin apagar el nodo. Esto puede incluir:

Cuando el clúster tiene solo dos nodos, el método de reserva / liberación puede usarse como un STONITH de dos nodos, por lo que al detectar que el nodo B ha 'fallado', el nodo A emitirá la reserva y obtendrá todos los recursos (por ejemplo, disco compartido) para sí mismo. El nodo B se desactivará si intenta hacer E / S (en caso de que se haya bloqueado temporalmente). En el nodo B, la falla de E / S activa algún código para matar al nodo.

La reserva persistente es esencialmente una coincidencia en una clave, por lo que el nodo que tiene la clave correcta puede realizar E / S; de lo contrario, su E / S falla. Por lo tanto, es suficiente cambiar la clave en caso de falla para garantizar el comportamiento correcto durante la falla. Sin embargo, es posible que no siempre sea posible cambiar la clave en el nodo fallido.

STONITH es un método más fácil y simple de implementar en múltiples clústeres, mientras que los diversos enfoques para el cercado de recursos requieren enfoques de implementación específicos para cada implementación de clúster.

Ver también

Referencias

enlaces externos