четверг, 16 апреля 2009 г.

Пример траблшутинга медленной работы сети на VMware ESX

Интересный и достаточно подробный пример трабшутинга ESX - Troubleshooting VMware ESX network performance.

за подробностями - по ссылке, я же опишу вкратце.

Ситуация: сервера IBM x336, на них ESX.
Все хорошо, кроме одного - производительность сети зачем то составляет порядка половины а то и трети от ожидаемой.

В принципе, достаточно, и по этому поводу особо не парились.
Но ситуация изменилась, когда эти сервера перевели на работу с iSCSI SAN, вместо FC.
Дополнительно смущало, что на серверах Dell практически идентичной конфигурации такого проседания сети не было и в помине.
так же, если установить и использовать PCI сетевушки, вместо набортных - скорость возрастала до правильных значений.

Оказалось, что зачем то на одном прерывании с набортным бродкомом висел драйвер usb. Т.к. этот драйвер принадлежал SC, это прерывание обрабатывалось лишь одним ядром, CPU0. Это ядро обслуживало и SC, и сетевой стек набортных сетевушек для гипервизора. частые смены контекста, большие накладные расходы - и вот тормоза сети.
После выгрузки соответствующего драйвера скорость сети сравнялась с ожидаемой.
Но без USB тоже плохо - сервисный контроллер удаленного управления IBM RSA, Remote Server Administrator - удаленные мышь и клаву подключал именно как usb.

Из ситуации вышли достаточно забавно - был написан скрипт, который выгружал драйвер usb через 5 мниут после загрузки хоста.
Таким образом, если RSA нужен для траблшутинга - сервер ребутается, 5 минут после старта usb работает - этого времени хватает чтобы убить скрипт.

1 комментарий:

  1. VSXi: изменил тип сетевушек на VMXNET2 (Enhanced) и проблема решилась.

    ОтветитьУдалить