ESXi local raid performance : Виртуализация. VMware vSphere

суббота, 10 марта 2012 г.

ESXi local raid performance

Интересный пост в одной из веток на официальном форуме VMware – Низкая производительность ESX на новых блейдах от HP на базе C3000 .

цитата:

Ну и в общем по теме, хочу поделитсья опытом, надеюсь кому-нибудь будет интересно.

Уже набралось энное количество опыта эксплуатации HP Smart Array контролеров для локальных датасторов на ESXi хостах. В основном это P410i и в 90% случаев там есть кэш (с батарейкой или флэшем)
За время эксплуатации на разных дисках регулярно вижу в событиях хоста и датастора (в vSphere клиенте) события двух видов:
1. Время отклика на датасторе "таком то" возросло с тысяч микросекунд до сотен тысяч.....
2. Хост временно потерял доступ к датастору (следом за этим событием обычно идет сообщение что хост восстановил доступ к датастору).
В большинстве случаев такие события наблюдались уже длительное время и не вызывали проблем.
А вот на двух более мощных серверах, где много памяти (и соответственно виртуалок) начались были проблемы. В рабочее время, в пик нагрузки, события о потере хостом доступа к датастору появлялись все чаще, вплоть до 2 раз в минуту... и потом начинались реальные проблемы... все виртуалки начинали тормозить, и все пользователи жаловаться.
Все графики производительности, доступные у вмваре, вместо плавно изменяющихся линий превратились в "расческу"( Все показатели, и сеть, и диск, и время отклика диска, и утилизация процессора).
После всех разбирательств пришел к такому выводу.
Перешивка контроллеров до последней версии ничего не дала, ошибки так и продолжали сыпаться. Обновления прошивок на всем сервере и обновление гипервизора тоже не решило проблемы.
Проведя ряд тестов (с помощью IOmeter генерировал нагрузку) я прошелся по всем вариантам настройки контроллеров.
Вывод у меня такой - для высоконагруженных по дисковым операциям датасторов нельзя собирать Raid6 и Raid5 - эти варианты ожидаемо снижают производительность, а кроме того увеличивают потенциальную нагрузку (больше места - больше виртуалок)
По результатам тестов (я использовал прессеты от сюда: http://vmktree.org/iometer/ , наиболее показательным считаю второй тест60% случайно, 60% чтения - , его результаты и приведу)
Например на HP SmartArray p410i (прошивка 5.06 и 5.14) массив собирал из 8x600GbSAS10k дисков.
raid6 - ~1300 IOps
raid5 - ~1800 IOps
raid10 - ~3000 IOps
Так вот по поводу неочевидного результата.
Во время проведения нагрузочных тестов я мониторил возникающие события на хостах\датасторах. И результат такой - у вариантов с Raid5 и особенно уRaid6 под нагрузкой возникают оба описанных выше события (повышение времени отклика и потеря доступа к датастору). А вот Raid10 держит нагрузку лучше, там под нагрузкой очень редко проскакивают события о повышении времени отклика, но потери доступа не происходит.
Я в итоге понял так, что контроллеру не хватает вычислительной мощности под высокой нагрузкой на Raid6, и в итоге сам контроллер перестает отвечать хосту (на доли секунды). А хот сразу считает что датастор пропал (один единственный путь к датастору сдал нерабочим). Свои выводы я "передал руководству".... сказали что создадут тикеты в обоих техподдержках... но что-то уже месяц тихо.
Ни подтвердить ни опровергнуть свою гипотезу не могу, так что я переделал все на Raid10 и теперь у меня все ОК

thx mazday.

15 комментариев:

Unknownсуббота, 10 марта, 2012
ИМХО при таких проблемах сразу необходимо обращаться в поддержку, а не заниматься тестами и т д.
ОтветитьУдалить
Ответы
Анонимныйсуббота, 10 марта, 2012
Очень интересно узнать, какие именно диски установлены? Конкретные модели.
ОтветитьУдалить
Ответы
Анонимныйвоскресенье, 11 марта, 2012
Заинтересовался как имеющий в хозяйстве С3000, но УЖ извините ни черта на понял. Что автор называет "датастором"? Два локальных диска одного блейда в составе НР С3000 Enclosure? Какой Рэйд 5 и 6 он собрал из 2 дисков - я не понял. Там собирается тупое зеркало и все, других вариантов кажется вообще нет. И на эти локальные диски ставится ESXi, а машины вообще-то полагается хранить на отдельном СХД. Имею С3000 с direct access хранилищем, выданном всем хостам-блейдам через виртмашину с HP Lefthand p4000 Virtual Appilance, и скорость работы у всех нормальная, проблемы только с клонированием машин - долго очень.

Что касается Рэйдов 5 и 6 - во многих документах НР встречал рекомендации не использовать эти вариатны массивов, а делать сразу 10, так что что ниче нового автор не открыл.

И еще - свежайшие прошивки железок очень часто являются злом, оптимальна какая-нибудь средняя прошивка, и если нет проблем - лучше вообще не заниматься этой сомнительной по эффективности процедурой. Пример из той же С3000 - в одной из версии прошивок блейда "потерялась" в ILO закладка о дисках, в другой версии - нашлась...
ОтветитьУдалить
Ответы
Анонимныйвоскресенье, 11 марта, 2012
Спасибо, будем учитывать.
ОтветитьУдалить
Ответы
Анонимныйпонедельник, 12 марта, 2012
2psix
Обращение в техподдержку не в моей зоне ответсвенности, там уже руководстсво отдела занималось, ну и как я писал - оттуда глухо.

2 adashko
По поводу модели дисков. Точно не помню, да и не имеет значения наверное - имхо просто нужно отказываться от raid5/6.
Сами события наблюдаются и на старых серверах и на новых, и на SAS и на SATA дисках.
Ну а конкретные проблемы наблюдались на нескольких новых серверах, осени 2011

2 Анонимный.
Под датасторами я имел в виду не два локальных диска на лезвии, прото так получилось что в ветке по C3000 начали обсуждать вообще работу КRAIDконтроллеров.

По поводу отказа от RAID 5 и 6 у меня сомнений нет давно. Просто вот на новом месте работы наткнулся на повсеместное их использование. В итоге еще раз укрепил свое мнение о выборе в пользу Raid10, ну и решил поделитсья с коммьюнити своими наблюдениями.

По поводу необходимости прошивки до последней версии, я с вами отчасти согласен. Если работает - лучше не трогать. Трогаю только если есть проблемы или сервер (железо) меняет свою роль (например после p2V), в таких случаях читаю и заливаю самое свежее. Да и с поддержкой у ХП есть нюанс, они начинают разбиратсья только если у вас уже зашиты последние версии прошивок (по крайней мене у меня такой опыт).
ОтветитьУдалить
Ответы
Анонимныйпонедельник, 12 марта, 2012
А вот техподдержка IBM(а скорее всего и остальных "гигантов") считает что ты должен регулярно обновлять прошивку. То что при этом есть реальный риск убить живые данные - твоя беда, сам должен был думать, прежде чем это чудо покупать.
В итого - ты к ним с проблемой, а они - вначале прошивку обнови, потом разговаривать будем.

Видел такие тормоза и паузу на IBM DS3400, причина - трапался/перезагружался один из 2х контроллеров стойки под рабочей нагрузкой, пауза - это лун переезжал на живой контроллер(система active/standby), вылечилось обновлением прошивки.

Сама эта стойка уходила в кому при любом уровне рейда, до эксплуатации пробовал и 0 и 5, главное - надо было все 12 дисков группу включить(array там называется) и навалиться iometer-ом, эффект - возникал практически сразу. Рекомендация - не больше 8 дисков, так и было сделано, вообще-то работает устойчиво.
ОтветитьУдалить
Ответы
Андрейпонедельник, 12 марта, 2012
ну а с другой стороны, у меня после обращения в тех поддержку и получения от туда фразы: "обновитесь..." и обновления до последней версии, некоторые ошибки исчезали. И HS22 находили потерянные 8 гигов оперативы.

raid5|6 - ЗЛО!!! (для V, не P)
ОтветитьУдалить
Ответы
Анонимныйвторник, 13 марта, 2012
Лучше купите нормальный внешний сторадж и не делайте датасторов на p410, ибо эта железка сама по себе зло.

ИМХО.
ОтветитьУдалить
Ответы
Анонимныйпонедельник, 16 апреля, 2012
Скажите а нужен ли вобще Raid1 для Esxi5, если планируется использовать решение VMware vSphere 5? Например есть три сервера DL380 G7 с двумя 1ТБ дисками на каждом. Планируется поднять виртуальную инфраструктуру на базе этих серверов, но жаба давит терять 3Тб пространства из за Raid1. Посоветуйте новичку как будет правильно сделать? Внешних хранилищ нет и не планируется.
ОтветитьУдалить
Ответы
Анонимныйпонедельник, 16 апреля, 2012
Для программного общего хранилища из локальных дисков, подойдет решение StarWind IP SAN? И нужне ли в таком случае Raid1?
ОтветитьУдалить
Ответы

Добавить комментарий

Примечание. Отправлять комментарии могут только участники этого блога.

Виртуализация. VMware vSphere

Страницы

Подпишись на обновления по RSS

Посты по email

Обо мне

Рекомендую

Последние комментарии

Популярные посты за месяц

Популярные посты за все время

Архив блога

Постоянные читатели

Ярлыки

суббота, 10 марта 2012 г.