четверг, 25 декабря 2008 г.

некоторые аспекты работы HA

Предположим, есть у нас пара шасси с блейдами. Штук по 6 в каждом.
На них, само собой, установлены ESX.
ESX включены в состав кластера HA.

И тут мы умудряемся уронить все лезвия в одном шасси - к примеру, в следствии кривой прошивки комутаторов все шасси оказывается полностью отрезанным от сети. Неприятно, но у нас же есть HA.
Опа. А оказывается, и нет - если среди упавших серверов оказались все 5, агенты HA на которых были назначены Primary - т.е. управляющими работой кластера.
Такое не исключено - когда мы включали сервера в кластер, в общем то, логично было сначала добавить все сервера с одного шасси, потом все с другого. И все 5 Primary оказались в первом.

Чтобы измежать подобных проблем, есть два подхода:
1) Делать не один кластер, а несколько.
2) Делать "Reconfigure for HA" после добавления всех хостов - тогда Primary переназначаться в случайном порядке. Проверить, что этот случайный порядок нас устраивает, можно так:

/opt/vmware/aam/bin/ftcli -domain vmware -connect YOURESXHOST -port 8042 -timeout 60 -cmd "listnodes"

Node Type State
----------------------- ------------ --------------
esx1 Primary Agent Running
esx2 Primary Agent Running
esx3 Secondary Agent Running
esx4 Primary Agent Running
esx5 Primary Agent Running
esx6 Secondary Agent Running
esx7 Primary Agent Running

Еще можно попробовать

“more /opt/LGTOaam512/log/aam_config_util_listnodes.log”
или
“more /var/log/vmware/aam/aam_config_util_listnodes.log”


По материалам Blade enclosures and HA.

0 коммент.:

Отправить комментарий