8) Bascule :
La mise en place d'un HACMP natif sur une configuration à simple redondance, tolère en général une seule panne à la fois.
Le cas le plus simple est celui d'une panne du CPU, les disques restant sous tension. La machine de secours prend
possession des disques et reprend l'exploitation.
Si une panne ne concerne que les disques, le problème est classique : ce n'est pas un problème HACMP. Il n'y a
pas d'arrêt d'exploitation (même pour quelques minutes). Le technicien de maintenance remplace le disque en panne.
L'administrateur AIX arrête le mirroring sur le disque en panne, enlève le disque en panne de la configuration AIX,
déclare le nouveau disque dans la configuration AIX et active le mirroring sur ce nouveau disque. L'exploitation n'est
normalement pas très ralentie pour les interactifs, et elle ne dure que le temps de resynchroniser les données (de l'ordre
de dix minutes par gigaoctets).
Dans le cas d'une panne totale de la première machine (disques et CPU), la seconde machine redémarre l'application. La
suite est en trois étapes.
a) Réparation Physique
b) Resynchronisation
c) Remise en sécurité.
b) La resynchronisation ne peut être faite que par la première machine, qui seule a la visibilité de tous les disques. En effet,
pour accélérer le basculement après crash, la seconde machine a déconfiguré tous les disques absents, a exporté le groupe de volume
et l'a réimporté à partir des seuls disques présents. La resynchronisation est faite automatiquement par HACMP pour les ressources
de type "cascading", elle est déclenchée manuellement dans le cas des ressources "rotating".
c) Un test consiste à provoquer un "take-over" vers la seconde machine puis une récupération des ressources par la première machine,
afin de vérifier qu'aucune des modifications de l'étape "réparation" n'a porté atteinte aux dispositifs assurant le redémarrage des
applications.
HACMP est naturellement réglé pour basculer en cas de gros crash. En particulier il bascule en cas de crash CPU.
Crash d'un noeud :
les ressources passent sur le noeud de reprise.
Défaillance réseau :
si la ligne de vie est présente, pas de bascule car les deux noeuds sont vivants.
Panne d'un contrôleur réseau de secours :
rien ne se passe, on perd un élément de redondance. Remplaçable à chaud.
Panne du contrôleur réseau principal :
l'adresse IP est reconfigurée sur le contrôleur réseau de secours.
Défaillance de l'application :
ce n'est pas un problème HACMP.
