Clústeres de conmutación por error de Windows Server (WSFC - Windows Server Failover Clustering) con SQL Server

Un Clúster de conmutación por error de Windows Server (WSFC) es un grupo de servidores independientes que funcionan juntos para aumentar la disponibilidad de aplicaciones y servicios. SQL Server 2014 aprovecha los servicios y funcionalidades de WSFC para admitir grupos de disponibilidad AlwaysOn e instancias de clúster de conmutación por error de SQL Server.

Términos y definiciones

Clúster de WSFC Un clúster de conmutación por error de Windows Server (WSFC) es un grupo de servidores independientes que funcionan juntos para aumentar la disponibilidad de aplicaciones y servicios.

Instancia de clúster de conmutación por error: Una instancia de un servicio de Windows que administra un recurso de dirección IP, un recurso de nombre de red y recursos adicionales necesarios para ejecutar una o varias aplicaciones o servicios. Los clientes pueden usar el nombre de red para acceder a los recursos del grupo, de forma similar a usar un nombre de equipo para acceder a los servicios de un servidor físico. Sin embargo, dado que una instancia de clúster de conmutación por error es un grupo, se puede conmutar por error a otro nodo sin afectar al nombre o la dirección subyacentes.

Nodo Un sistema de Microsoft Windows Server que es un miembro activo o inactivo de un clúster de servidores.

Recurso de clúster Una entidad física o lógica que puede ser propiedad de un nodo, que se pone en línea y se desconecta, se mueve entre los nodos y se administra como un objeto de clúster. Un recurso de clúster puede ser propiedad de un único nodo en cualquier momento.

Grupo de recursos Colección de recursos de clúster administrados como un único objeto de clúster. Normalmente, un grupo de recursos contiene todos los recursos del clúster necesarios para ejecutar una aplicación o servicio específicos. La conmutación por error y el retroceso siempre actúan sobre grupos de recursos.

Dependencia de recursos Un recurso en el que depende otro recurso. Si el recurso A depende del recurso B, B es una dependencia de A.

Recurso de nombre de red Un nombre de servidor lógico que se administra como un recurso de clúster. Un recurso de nombre de red debe utilizarse con un recurso de dirección IP.

Propietario preferido Un nodo en el que un grupo de recursos prefiere ejecutarse. Cada grupo de recursos está asociado a una lista de propietarios preferidos clasificados en orden de preferencia. Durante la conmutación por error automática, el grupo de recursos se pasa al nodo preferido siguiente en la lista de propietarios preferidos.

Posible propietario Un nodo secundario en el que se puede ejecutar un recurso. Cada grupo de recursos está asociado a una lista de posibles propietarios. Los grupos de recursos solo pueden fallar a los nodos que están listados como posibles propietarios.

Modo de cuórum: La configuración del cuórum en un clúster de conmutación por error que determina el número de fallos de nodo que el clúster puede soportar.

Quórum forzado El proceso para iniciar el clúster aunque solo una minoría de los elementos necesarios para el quórum está en comunicación.

Para obtener más información, consulte: Glosario de clústeres de conmutación por error.

Información general de clústeres de conmutación por error de Windows Server

Los clústeres de conmutación por error de Windows Server proporcionan características de infraestructura que admiten escenarios de alta disponibilidad y recuperación ante desastres de aplicaciones de servidor hospedadas, como Microsoft SQL Server y Microsoft Exchange. Si un nodo o un servicio de clúster tiene un error, los servicios hospedados en ese nodo se pueden transferir automática o manualmente a otro nodo disponible en un proceso denominado conmutación por error.

Los nodos del clúster de WSFC funcionan conjuntamente para proporcionar colectivamente estos tipos de funcionalidades:

Notificaciones y metadatos distribuidos. El servicio de WSFC y lo metadatos de aplicaciones hospedadas se mantiene en cada nodo del clúster. Estos metadatos incluyen la configuración y el estado de WSFC además de la configuración de la aplicación hospedada. Los cambios en los metadatos o el estado de un nodo se propagan automáticamente a los otros nodos del clúster.
Administración de recursos. Los nodos individuales del clúster pueden proporcionar recursos físicos, como almacenamiento conectado directo, interfaces de red y acceso al almacenamiento en disco compartido. Las aplicaciones hospedadas se registran como un recurso de clúster y pueden configurar dependencias de inicio y mantenimiento en otros recursos.
Supervisión de estado. La detección del estado del nodo principal y entre nodos se realiza mediante una combinación de comunicaciones de red de tipo latido y supervisión de recursos. El estado general del clúster viene determinado por los votos de un cuórum de nodos en el clúster.
Coordinación de conmutación por error. Cada uno de los recursos se configura para ser hospedado en un nodo principal y se pueden transferir automática o manualmente a uno o varios nodos secundarios. Una directiva de conmutación por error basada en el estado controla la transferencia automática de la propiedad de recursos entre los nodos. Los nodos y las aplicaciones hospedadas se notifican cuando se produce la conmutación por error para que puedan reaccionar correctamente.

Para obtener más información, consulte: Clústeres de conmutación por error en Windows Server 2008 R2

Tecnologías AlwaysOn de SQL Server y WSFC

SQL Server 2014 AlwaysOn es una nueva solución de alta disponibilidad y recuperación ante desastres que aprovecha WSFC. AlwaysOn proporciona una solución integrada y flexible que aumenta la disponibilidad de las aplicaciones, proporciona mejores rentabilidades en las inversiones en hardware y simplifica la implementación y administración de alta disponibilidad.

Tanto los grupos de disponibilidad AlwaysOn como las instancias de clúster de conmutación por error AlwaysOn usan WSFC como tecnología de plataforma, registrando componentes como recursos de clúster de WSFC. Los recursos relacionados se combinan en un grupo de recursos, que se puede hacer dependiente de otros recursos de clúster de WSFC. El servicio de clúster de WSFC puede detectar e indicar la necesidad de reiniciar la instancia de SQL Server o realizar una conmutación por error automáticamente a un nodo de servidor diferente en el clúster de WSFC.

Importante

Para aprovechar al máximo las tecnologías AlwaysOn de SQL Server, debe aplicar varios requisitos previos relacionados con WSFC.

Para obtener más información, vea: Requisitos previos, restricciones y recomendaciones para grupos de disponibilidad AlwaysOn (SQL Server)

Alta disponibilidad a nivel de instancia con AlwaysOn Failover Cluster Instances

Una instancia de clúster de conmutación por error AlwaysOn (FCI) es una instancia de SQL Server que se instala entre nodos en un clúster de WSFC. Este tipo de instancia tiene dependencias de recursos en el almacenamiento en disco compartido (a través de Canal de fibra o SAN iSCSI) y en un nombre de red virtual. El nombre de la red virtual tiene una dependencia de recursos en una o varias direcciones IP virtuales, cada una de ellas en una subred diferente. El servicio SQL Server y el servicio agente SQL Server se registran como recursos y ambos dependen del recurso de nombre de red virtual.

En caso de conmutación por error, el servicio de WSFC transfiere la propiedad de los recursos de la instancia a un nodo de conmutación por error designado. A continuación, la instancia de SQL Server se vuelve a iniciar en el nodo de conmutación por error y las bases de datos se recuperan como de costumbre. En cualquier momento determinado, solo un nodo del clúster puede hospedar la FCI y los recursos subyacentes.

Nota:

Una instancia de clúster de conmutación por error AlwaysOn requiere almacenamiento en disco compartido simétrico, como una red de área de almacenamiento (SAN) o un recurso compartido de archivos SMB. Los volúmenes de almacenamiento en disco compartido deben estar disponible para todos los nodos potenciales de conmutación por error en el clúster de WSFC.

Para obtener más información, consulte: Instancias de clúster de conmutación por error AlwaysOn.

Alta disponibilidad de nivel de base de datos con grupos de disponibilidad AlwaysOn

Un grupo de disponibilidad es un conjunto de bases de datos de usuario que conmutan por error juntas. Un grupo de disponibilidad consta de una réplica de disponibilidad principal y de una a cuatro réplicas secundarias que se mantienen mediante el movimiento de datos basado en registros de SQL Server para la protección de datos sin necesidad de almacenamiento compartido. Cada réplica se hospeda en una instancia de SQL Server en un nodo diferente del clúster de WSFC. El grupo de disponibilidad y un nombre de red virtual correspondiente se registran como recursos del clúster de WSFC.

Un agente de escucha de grupo de disponibilidad del nodo de la réplica principal responde a las solicitudes de cliente entrantes para conectarse al nombre de red virtual y, en función de los atributos de la cadena de conexión, redirige cada solicitud a la instancia adecuada de SQL Server .

En caso de conmutación por error, en lugar de transferir la propiedad de los recursos físicos compartidos a otro nodo, se utiliza WSFC para reconfigurar una réplica secundaria en otra instancia de SQL Server para convertirla en la réplica principal del grupo de disponibilidad. El recurso de nombre de red virtual del grupo de disponibilidad se transfiere después a esa instancia.

En cualquier momento dado, solo una instancia de SQL Server puede hospedar la réplica principal de las bases de datos de un grupo de disponibilidad, todas las réplicas secundarias asociadas deben residir cada una en una instancia independiente, y cada instancia debe residir en nodos físicos distintos.

Nota:

Los grupos de disponibilidad AlwaysOn no requieren la implementación de una instancia de clúster de conmutación por error ni el uso del almacenamiento compartido simétrico (SAN o SMB).

Se puede utilizar una instancia de clúster de conmutación por error (FCI) junto con un grupo de disponibilidad para aumentar la disponibilidad de una réplica. Sin embargo, para evitar posibles condiciones de carrera en el clúster de WSFC, la conmutación automática por error del grupo de disponibilidad no se admite en o desde una réplica de disponibilidad hospedada en una FCI.

Para obtener más información, vea Introducción a los grupos de disponibilidad AlwaysOn (SQL Server)

Supervisión y conmutación por error de estado de WSFC

La alta disponibilidad para una solución AlwaysOn se logra mediante la supervisión proactiva del estado de los recursos físicos y lógicos del clúster WSFC, junto con la conmutación por error automática a y la reconfiguración del hardware redundante. Un administrador del sistema también puede iniciar una conmutación por error manual de un grupo de disponibilidad o una instancia de SQL Server entre nodos.

Directivas de conmutación por error para nodos, instancias de clúster de conmutación por error y grupos de disponibilidad

Una directiva de conmutación por error se configura en el nodo de clúster WSFC, la instancia de clúster de conmutación por error (FCI) de SQL Server y los niveles de grupo de disponibilidad. Estas directivas, basadas en la gravedad, duración y frecuencia del estado incorrecto de los recursos de clúster y la capacidad de respuesta de los nodos, puede desencadenar el reinicio de un servicio o una conmutación automática por error de los recursos de clúster entre nodos, o puede desencadenar el paso de la réplica principal de un grupo de disponibilidad desde una instancia de SQL Server a otra.

La conmutación por error de una réplica de grupo de disponibilidad no afecta a la instancia subyacente de SQL Server. La conmutación por error de una FCI mueve las réplicas del grupo de disponibilidad hospedado con la instancia.

Para obtener más información, consulte: Directiva de conmutación por error para instancias de clúster de conmutación por error.

Detección de salud de recursos de WSFC

Cada recurso de un nodo de clúster WSFC puede notificar su estado y mantenimiento, periódicamente o a petición. Una variedad de circunstancias puede indicar un error en los recursos; Por ejemplo, errores de alimentación, errores de disco o memoria, errores de comunicación de red o servicios que no responden.

Los recursos de clúster de WSFC, como redes, almacenamiento o servicios, se pueden hacer dependientes entre sí. El estado acumulativo de un recurso está determinado por la acumulación sucesiva de su condición con el estado de cada una de sus dependencias de recursos.

Detección del estado de los nodos de WSFC y votación de quórum

Cada nodo de un clúster WSFC participa en la comunicación periódica de latido para compartir el estado de mantenimiento del nodo con los demás nodos. Los nodos que no responden se consideran que se encuentran en estado de error.

Un conjunto de nodos de quórum es una mayoría de los nodos con derecho a voto y testigos en el clúster WSFC. Un voto de quórumperiódico determina el estado general de un clúster WSFC. La presencia de un quórum significa que el clúster es correcto y puede proporcionar tolerancia a errores de nivel de nodo.

Un modo de cuórum se configura en el nivel de clúster de WSFC que dicta la metodología utilizada para la votación de cuórum y cuándo realizar una conmutación automática tras un fallo o apagar el clúster.

Sugerencia

Se recomienda tener siempre un número impar de votos de cuórum en un clúster de WSFC. A efectos de los votos de quórum, no es necesario que SQL Server esté instalado en todos los nodos del clúster. Un servidor adicional puede actuar como miembro de quórum, o el modelo de quórum de WSFC se puede configurar para que se use un recurso compartido de archivos remoto como factor de desempate.

Para obtener más información, consulte: Modos de cuórum de WSFC y configuración de votación (SQL Server)

Recuperación de desastres a través de quórum forzado

En función de las prácticas operativas y la configuración del clúster de WSFC, puede enfrentar conmutaciones por error automáticas y manuales, y mantener una solución de SQL Server AlwaysOn sólida y tolerante a fallos. Sin embargo, si un cuórum de los nodos de votación aptos en el clúster de WSFC no puede comunicarse entre sí o si el clúster de WSFC produce un error en la validación de estado, el clúster WSFC puede estar sin conexión.

Si el clúster de WSFC se desconecta debido a un desastre no planeado o debido a un error persistente de hardware o comunicaciones, se requiere la intervención administrativa manual para forzar un cuórum y poner los nodos de clúster supervivientes en línea en una configuración no tolerante a errores.

Después, también debe realizarse una serie de pasos para volver a configurar el clúster de WSFC, recuperar las réplicas de base de datos afectadas y volver a establecer un nuevo cuórum.

Para obtener más información, vea: Recuperación ante desastres de WSFC a través del cuórum forzado (SQL Server)

Relación de los componentes AlwaysOn de SQL Server con WSFC

Existen varias capas de relaciones entre las características y componentes de SQL Server AlwaysOn y WSFC.

Los grupos de disponibilidad AlwaysOn se hospedan en instancias de SQL Server. Una solicitud de cliente que especifica un nombre de red de listener del grupo de disponibilidad lógico para conectarse a una base de datos primaria o secundaria se redirige al nombre de red adecuado de la instancia subyacente de SQL Server o de la instancia de clúster de conmutación por error de SQL Server (FCI).

Las instancias de SQL Server se hospedan activamente en un solo nodo. Si está presente, una Instancia de SQL Server independiente reside siempre en un único Nodo con un nombre de red de instancia estático. Si está presente, una FCI de SQL Server está activa en uno de dos o más nodos de conmutación por error posibles con un único Nombre de red de instancia virtual.

Los nodos son miembros de un clúster de WSFC. Los metadatos de configuración de WSFC y el estado de todos los nodos se almacenan en cada nodo. Cada servidor puede proporcionar volúmenes de almacenamiento asimétrico o almacenamiento compartido (SAN) para bases de datos de usuario o sistema. Cada servidor tiene al menos una interfaz de red física en una o varias subredes IP.

El servicio WSFC supervisa el estado y administra la configuración de un grupo de servidores. El servicio Clúster de conmutación por error de Windows Server (WSFC) propaga los cambios en los metadatos y el estado de configuración de WSFC a todos los nodos del clúster. Los metadatos parciales y el estado pueden almacenarse en un recurso compartido de archivos remotos que actúa como testigo del cuórum de WSFC. Dos o más nodos o testigos activos constituyen un cuórum para votar sobre el estado del clúster de WSFC.

Las claves del Registro de grupos de disponibilidad AlwaysOn son subclaves del clúster de WSFC. Si elimina y vuelve a crear un clúster de WSFC, debe deshabilitar y volver a habilitar la característica Grupos de disponibilidad AlwaysOn en cada instancia de servidor habilitada para grupos de disponibilidad AlwaysOn en el clúster WSFC original. Para obtener más información, vea Habilitar y deshabilitar grupos de disponibilidad AlwaysOn (SQL Server).

Diagrama de contexto de componentes AlwaysOn de SQL Server

Tareas relacionadas

Contenido relacionado

Véase también

Instancias de clúster de conmutación por error AlwaysOn (SQL Server)Descripción general de los grupos de disponibilidad AlwaysOn (SQL Server)Modos de quórum de WSFC y configuración de votación (SQL Server)Directiva de conmutación por error para instancias de clúster Recuperación ante desastres de WSFC mediante quórum forzado (SQL Server)

Last updated on 2017-06-13

Compartir a través de