понедельник, 23 января 2012 г.

к вопросу о резервном копировании ESXi с бесплатной лицензией

 

Из переписки:

 

Pavel Alexei:

Добрый день

Читаю уже давно Ваш блог.

Давно бьюсь с задачей backup free версии ESXi, которое бы воспринимало thin файлы. Все коммерческие продукты backup не работают с free версией ESXi, так как в ней отсутствует vStorage APIs for Data Protection.

К сожалению единственное на текущий момент решение, которое я нашел, это ghettoVCB, причем первой версии, которая работает как скрипт на консоли ESXi. Но и тут есть подвох, не могу «вытащить» куда-то на сторону thin vmdk файлы. Даже если монтировать в качестве внешнего datastore NFS шару, то и там -flat.vmdk в виде sparse файлов лежат. А хочется иметь возможность положить куда-то «далеко». Если NFS от линукс, то можно там, на месте, это зажать при помощи tar -S, тогда tar понимает что это sparse файл, и получаем то что хочется. Этот «маленький» tar можно переложить куда хочется.

НО, хочется большего :-) Хочется нормальный GNU tar под ESXi, чтоб делать все там, на месте. Есть где-то «нормальные» портированные gnu утилиты под ESXi?

 

я:

приветствую.

мне такого не встречалось.
впрочем, я и не искал - не вставало такой задачи.

 

Pavel Alexei:

По ходу я нашел. Совсем случайно

http://ftp.cica.es/mirrors/Linux/pramberger.at/vmware/esx4i/IPKGS/

правда установить через ipk не получилось, но зато смог вытащить, ipk это tar.gz.

Теперь могу

tar cvfzS XXX.tgz XXX.vmdk XXX-flat.vmdk

можно свободно переносить XXXX.tgz. Этот tar sparse он точно понимает, из 4GB «пустого» vmdk файла она создала 10KB tgz, хотя ls показывает 4GB

Тут же вижу есть rsync, понимающий sparse файлы.

И еще coreutils с кучей полезностей. 

Может еще пригодиться, чтоб не мучать по чем зря ssh/scp - ftp клиент для vmware (ftpput/ftpget)

http://www.magikmon.com/download/mksbackup/

block size


Тут был текст про размер блока IO. При попытке отредактировать его с помощью клиента текст пропал при падении клиента. Но оно и к лучшему - я ошибся, не надо было писать пост в час ночи :-)

уточню вопрос дополнительно, обновлю пост.

EVA P6500 на 100HDD

Из переписки:

у меня приехала EVA P6500 на 100HDD 600 10K и два хоста bl620g7 ESX5 Ent.
если есть время и желание, то в ближайшие пару дней я могу что-нить погонять...
у меня одна дисковая группа на 100 дисков.
поверх них можно нарезать разных Virtual Disks с разными Vraid'ами.
..

Вот что у меня получилось при тестирование io-analyzer'ом




Дополнительные материалы тестирования.
Есть возможность померять и в других конфигурациях, если есть идеи - предлагайте.

пятница, 13 января 2012 г.

В нашем полку прибыло - http://vladek.net


Новый, потенциально интересный блог от Владислава Кирилина. Пост – про зонирование / FibreChannel Zoning.

вторник, 10 января 2012 г.

Commands to monitor snapshot deletion


Как многие знают, снапшоты - штука такая, неоднозначная. Вот на русскоязычной ветке офффорума не напрягаясь можно найти описания случаев со всякими чудесами. И чудесами плохими.

Одна из характерных ситуаций - многочасовое удаление больших снапшотов. Ситуация неприятна тем, что ВМ заблокирована, индикации нет (часто большую часть времени прогрес бар находится в состоянии 99%), что происходит и происходит ли что-то вообще непонятно.

Углядел новую для себя статью базы знаний - Commands to monitor snapshot deletion. Правда, пятый ESXi не заявлен в списке продуктов, для которых это предназначено - так что надо будет проверить.

UPD. Альтернатива -Мониторим процесс удаления снапшот(а/ов) из командной строки.


ESXi 5 partition table


Хороший пост про структуру разделов на системном диске ESXi - Разделы VMware ESXi 5.0.

Полезные вещи на эту тему:

Creating a persistent scratch location for ESX - http://kb.vmware.com/kb/1033696.

если локальный VMFS был, но его удалили - то восстановить скорее всего получится только переустановкой ESXi - http://kb.vmware.com/kb/2000454. Кстати интересно - а подхватятся ли конфиги при переустановке той же версии поверх?

 partedUtil  - утилита для работы с разделами в локальной командной строке ESXi 5. Как с ней обращаться - http://kb.vmware.com/kb/1036609.

желательно настроить сбор логов ESXi на отдельной системе - http://www.vm4.ru/2011/10/vmware-syslog-collector.html. Или хотя бы перенаправить локальные логи на какой-то нелокальный VMFS - чтобы когда сервере станет нерабочим (тьфу-тьфу) - были шансы найти в логах "а что и почему?".
еще сюда же http://kb.vmware.com/kb/2003322.


PCoIP Log Viewer 2.0


Попробовал в деле новую утилиту - PCoIP Log Viewer 2.0.

Прикольно.

На машине где установлена java устанавливаем ее, запускаем.

В меню File –> New Connection указываем адрес виртуального десктопа – той ВМ, куда подключается пользователь.

После авторизации видим красивые графики:
image

в данный момент на этом десктопе имитируется офисная нагрузка при помощи VDI Sizing tool, о которой я уже упоминал в недавнем посте.

Как видно, при работе с офисном пакете нагрузка на сеть крайне мала.

Коллеги, было бы интересно узнать – а что показывает эта утилита для ваших пользователей, с той или иной рабочей нагрузкой?

получение инфы о настройка Distributed vSwitch


Углядел перловый скрипт, который запускается локально на хосте, для сбора и вывода данных о распределенном коммутаторе – Retrieving Information from a Distributed vSwitch.

Для конфигурирования dvSwitch из командной строки есть, неофициальные правда но вполне рабочие, модули PowerShell – PowerCLI + Distributed switch.

пятница, 30 декабря 2011 г.

Happy new year


Друзья.

С наступающим новым годом!

Всего всего.

Упомянуть всякую астрологическую, хммм... хрень, в техническом блоге, как то неловко. Но, вроде как, принято.

Как компромис процитирую порадовавшую меня цитату по этому поводу:

Обещают, что дети, рожденные в год Черного Дракона, будут творческими и активными. Но мы-то знаем, что главное для них - иммунитет к магии!

Прирост черных драконов удваивается*, так что можно будет ввязываться в бОльшие авантюры, и успешно их завершать ;-)

Удачи!

*Искреннее сорри тем, кому эта фраза ни о чем не говорит. Но, думаю, не игравших в HoMM среди нас не очень много :-)

понедельник, 26 декабря 2011 г.

Trasparent Memory page Sharing + Large Pages + Address Space Layout Randomization

 

В rss ридере проскочил пост на тему что некая фича ASLR (Address Space Layout Randomization), реализованная, в частности, для Windows начиная с Vista, может влиять на эффективность дедупликации памяти, TPS. В конце поста я приведу ссылки и выжимки.

 

Мне стало интересно – ранее  в таком контексте мне приходилось читать упоминания только про большие страницы, Large pages.

 

И я попробовал собрать свой собственный тестовый стенд.

Итак –

ESXi пятой версии, 16 ГБ ОЗУ.

Пять ВМ с Windows 7 (развернуты из одного шаблона). Внутри MS Office 2010. У каждой ВМ гигабайт памяти.

Эти ВМ запускаются, и я снимаю данные с показателя shared, отображающего эффективность TPS.

 

Притом, меня интересует сценарий простаивающих ВМ и ВМ под нагрузкой, и в случае разных комбинаций настроек.

 

Для создания нагрузки на эти ВМ я воспользовался утилитой VDI Sizing tool, которая довольно легко обеспечила имитацию офисной нагрузки для этих ВМ – в запущенных ею RDP-сессиях на мои Win7 запускались Word, Excel, Outlook, в них печатался текст, вставлялись картинки и т.д. и т.п. Выбор именно этой утилиты был обусловлен тем, что мне давно было интересно попробовать ее в деле.

 

К сожалению, в списке поддерживаемых для тестирования были заявлены только серверные Windows, а я использовал Windows 7. Но я заметил только две проблемы – Outlook 2010 требовал нажатия на ОК с вопросом об имени какого-то файла. Вторая проблема – данные со статистикой про латенси разных операций оказались непонятными – выделялись только графики пары-тройки показателей. Остальное то ли совпадало, то ли было в районе нуля, то ли что. Может у меня просто мало ВМ в тесте участвовало.

 

Данный стенд вряд ли потянет на супер-отличный-стенд-к-организации-которого-не-придраться, но и пофиг, правда? Зато я его сделал, и для понимания “на пальцах” он сойдет. Однако!!! Далеко идущие выводы из результатов стоит делать с осторожностью.

 

Случай номер один

 

ВМ без нагрузки. Все по умолчанию – большие страницы используются, ASLR включен.

Получившаяся ситуация:

 

С учетом избытка памяти на хосте (5 ВМ по гигабайту, на сервере всего 16), гипервизор выдал каждой ВМ  по 100% от максимума (гигабайт каждой), хотя активно используется лишь малая часть.

image

рис. 1-1.

 

Память не дедуплицируется вообще(!).

image

Рис. 1-2.

 

То же что и предыдущие данные, но обзорно. См. поле “Shared” в данных “Memory”.

image

Рис. 1-3.

 

Случай номер два

 

ВМ работают под нагрузкой. Все по умолчанию – большие страницы используются, ASLR включен.

 

Ситуация от предыдущей отличается только большей активно задействованной памятью. Обратите внимание – Windows 7 + Office 2010 потребляют порядка 400 МБ под нагрузкой от используемой мною утилиты, по крайней мере с настройками по умолчанию (правда, из доступной от нее документации нет ничего про какие-либо настройки уровня нагрузки).

image

Рис. 2-1.

 

Дедупликации по прежнему ноль.

image

Рис. 2-2.

 

image

Рис. 2-3.

 

На этом этапе теста я сообразил еще и в esxtop данные смотреть. Тут нас интересует строка c показателями PSHARE, shared, common, saving выше таблицы с данными по каждой ВМ. По идее, самый ценный показатель это saving – типа как раз “сколько TPS нам сэкономил”.

image

Рис. 2-4.

 

А вот это результаты работы VDI Sizing tools – эта утилита еще и графики по статистике рисует. К сожалению, на моем стенде данные не совсем мною поняты – многие графики, похоже, в районе нуля. И тяжело понять а синяя линия вот к чему именно относится?

У меня от бедности все ВМ лежат на одном диске, именно на одном физическом SATA диске – так что некоторые тормоза могут быть вызваны именно этим.

image

Рис. 2-5.

 

Случай номер три

 

ВМ без нагрузки. Выключены только большие страницы.

 

При сопоставимых значениях “активно используемой памяти” гипервизор тратит меньше “железной памяти” на каждого гостя.

image

Рис. 3-1.

 

Дедупликация заработала! График показан на этапе выхода на статичные показания.

image

Рис. 3-2.

 

На этих статичных показаниях дедуплицируется порядка 3 ГБ памяти этих 5 ВМ.

image

Рис. 3-3.

 

Нам экономят 2 ГБ из пяти, по данным esxtop.

image

Рис. 3-4.

 

Случай номер четыре

 

ВМ под нагрузкой. Большие страницы не используются.

 

Ситуация предсказуема – нагрузка есть, железной памяти выделяется не 100% от параметров ВМ.

image

Рис. 4-1.

 

Разделение памяти работает.

image

Рис. 4-2.

 

Порядка 2.5 ГБ разделяются.

image

Рис. 4-3.

 

Экономится чуть менее 2 ГБ.

image

Рис. 4-4.

 

Данные VDI Sizing tool. В первый раз какой-то один показатель достигал 30 секунд, потом опускался до 3. Сейчас он же, похоже, стабильно в районе 3 секунд. Остальное, как и было – в районе нуля.

Выводы – явным образом отключенные большие страницы тормозов не вызвали.

image

Рис. 4-5.

 

Случай номер пять

 

ВМ без нагрузки. Выключены и большие страницы, и ASLR.

Для выключения ASLR в реестре каждой ВМ был создан ключ DWORD со значением “0”, по адресу
\HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Memory Management\MoveImages

 

Хмм. Эффект похоже есть. Сравнивать следует с данными случая 3.

image

Рис. 5-1.

 

image

Рис. 5-2.

 

С включенным ASLR шарилось 2.95 ГБ. С выключенным – 3.76.

image

Рис. 5-3.

 

С ASLR esxtop показывал сохранение 2082 МБ.

image

Рис. 5-4.

 

Случай номер шесть

 

ВМ под нагрузкой, выключены и LP и ASLR

Сравнивать надо со случаем 4, когда ВМ под нагрузкой, но выключены только LP. Там ВМ занимали от 620 до 780 МБ.

image

Рис. 6-1.

 

Обратите внимание на пики переходного периода. Такой график может возникнуть вне зависимости от ASLR, это свойство TPS как такового. Я так предполагаю, что именно подобная нестабильность эффекта от TPS (обусловленная тем, что нагрузка на ВМ неравномерно меняется, а также тем что сами ВМ переезжают) и является причиной того, что VMware не рекомендует учитывать эффект от TPS в производственной среде. Впрочем, если состояние ВМ стабильно – то и эффект от TPS стабилен (см. все остальные графики #-2).

image

Рис. 6-2.

 

Расшаривается порядка 2.9 ГБ памяти. С ASLR – порядка 2.5.

image

Рис. 6-3.

 

Сэкономлено порядка 2.2 ГБ. С ASLR – порядка 1.8 ГБ.

image

Рис. 6-4.

 

Задержки одной из операций опять стали большие, для одной сессии. Непонятно, с чем это связано. Впрочем, учитывая что все остальное в районе нуля – похоже в моих масштабах от включения\выключения LP и ASLR не меняется ничего.

image

Рис. 6-5.

 

Случай номер семь

 

ВМ без нагрузки. ASLR выключен, большие страницы используются (т.е. настройки ESXi по умолчанию).

 

Экономия памяти по нулям.

image

Рис. 7-2.

 

Таким образом, в моем исследовании получается, что для TPS первично отключение больших страниц. Отключение ASLR способно дополнительно улучшить эффект от TPS. При больших страницах эффект от TPS никакой, вне зависимости от ASLR.

 

Материалы

 

Исходный пост, привлекший мое внимание – Windows 7 Transparent Page Sharing and the ASLR story

Там приводится краткое описание что такое Address Space Layout Randomization (ASLR) – это фича повышения безопасности. Типа какие-то адреса страниц памяти случайно меняются.

Отключение этой фичи однозначно не рекомендуется Microsoft – из общих соображений безопасности.

 

По вышеприведенной ссылке, тем не менее, попробовали отключить и провести тест TPS (мои стенд довольно похож, но здесь развертывалось 52 и больше ВМ с гигабайтом памяти каждая, на сервере с 48 ГБ ОЗУ).

По их данным, отключение ASLR давало порядка 30% повышения эффективности дедупликации памяти. Однако, большие страницы они, похоже, не отключали. У меня работа с большими страницами давала нулевой эффект дедупликации. Возможно дело в том, что они разворачивали ВМ на больше памяти чем есть на сервере – в таком случае ESXi автоматически отключает Large Pages, дедупликация начинает работать и отключенный ASLR повышает ее эффект.

 

Уже запустил у себя пул View для воспроизведения такой же ситуации – но уже хочется спать, напишу отдельным постом.

 

Доптвики для оптимизации TPS - Increase VDI consolidation ratio with TPS tuning on ESX.

 

Про отключение больших страниц от тех же авторов - TPS, Large Memory Pages and your VDI environment.

 

Про большие страницы у меня – TPS vs. Large Pages in real life.

 

Плохо ли отключение больших страниц – непонятно. Насколько я смог понять – в теории эффект есть, но на практике о пойманном эффекте “я отключил большие страницы и все стало плохо” не встретился.

Вот тут еще можно глянуть – boot storm. TPS vs. hardware MMU.

 

VDI Sizing tools произвела хорошее впечатление – завелась сразу, это веский довод Улыбка

Однако немного непорадовала документация – я с первого раза понял что куда устанавливать, но дискомфорт во время разбирательства был.