воскресенье, 4 сентября 2011 г.

kernel latency


Первое, что начинает тормозить в виртуальной (или в любой?) инфраструктуре – это дисковая подсистема.
В первую очередь по той причине, что сделать быструю дисковую дорого.

Один из важных параметров, указывающих что тормозят таки диск это Latency.
Посмотреть эту величину можно, в частности, в esxtop – там мы можем увидеть примерно такую картинку:
latency01

Выделены несколько столбцов:
  • DAVG\cmd – это device latency, задержки между hba и системой хранения, т.е. за пределами хоста.
  • KAVG\cmd – это kernel latency, задержка между hba и гостем, т.е. “внутри гипервизора”.
  • GAVG\cmd – это guest latency, задержка между гостем и системой хранения, этот столбец является суммой первых двух.
Я всегда думал, что смотреть имеет смысл только на davg – и пинать админов стораджа если задержки больше порогового значения.
А недавно со мной поделились ситуацией, когда ситуация была совсем другая.
Вкратце
1) были тормоза
2) на стороне системы хранения статистика была ок
3) на стороне esx обнаружили что именно kernel latency была неприлично большой (вот тут я удивился – почему?)
4) проблема была решена путем увеличения глубины очереди hba контроллеров с 32 до 64 (вот тут я удивился второй раз – известная мне теория не объясняет почему это так).
Имейте в виду. Как делали:  VMware : Increasing the HBA / Device Queue Depth.

thx 2 Сергей Щадных

7 комментариев:

  1. Привет.
    Была аналогичная проблема с производительностью, те же симптомы.
    Решением была маскировка LUN с ID 0 - того, что EVA презентует как array controller.

    ОтветитьУдалить
  2. ага, буквально на прошлой неделе обсуждали такой момент. afaik у них не EVA.

    ОтветитьУдалить
  3. Да, иногда увеличение очереди на адаптере помогает.
    А вот, что делать когда периодически возникает высокая задержка счётчика QAVG?:)))

    ОтветитьУдалить
  4. >высокая задержка счётчика QAVG
    скорее всего вопросы к контроллеру стораджа

    ОтветитьУдалить
  5. где еще может быть затык в latency - если со стороны evaperf - всё хорошо (eva6100), а со стороны хоста esxi - DAVG большой периодически, доходит иногда аж до сотен ms.
    при этом KAVG в норме остается, тоесть не в очереди hba дело, к слову veeam мониторинг тоже кажет большие latency - от него и заинтересовался проблемой.

    ув. Corochunро, а про маскировку нулевого луна можете подробнее описать - логику за счет чего влияние на latency идет - не совсем понял.

    ОтветитьУдалить