Всем привет.
РЕШЕНИЕ -
http://ask-ru.adaptec.com/app/answers/detail/a_id/17403/Проблема следующего характера, раз в 10-12 дней все виртуалки на сервере перестают быть доступными.
Сам гипервизор при этом какое-то время доступен, можно подключиться по ssh, но после введения пары команд консоль перестает отвечать.
Когда подключаешься через IPMI, то есть возможность ввести логин и пароль, успешно авторизоваться, но далее, как с в случае с ssh, тупняк - не раегирует ни на что.
Помогает, соответственно, только reset.
Настроил remote syslog сервер, там вижу следующее:
Jul 22 19:20:01 virtsrv1.domain.local hostd-probe: [FFBA97E0 quiet 'Default'] Successfully acquired hardware: X9DR3-F
Jul 22 19:20:01 virtsrv1.domain.local Hostd: [FFEB4B70 verbose 'SoapAdapter'] Responded to service state request
Jul 22 19:20:01 virtsrv1.domain.local hostd-probe: [FFC0CB70 info 'ThreadPool'] Thread delisted
Jul 22 19:20:01 virtsrv1.domain.local hostd-probe: [FFC8EB70 info 'ThreadPool'] Thread delisted
Jul 22 19:20:01 virtsrv1.domain.local hostd-probe: [FFC4DB70 info 'ThreadPool'] Thread delisted
Jul 22 19:20:01 virtsrv1.domain.local hostd-probe: [FFCCFB70 info 'ThreadPool'] Thread delisted
Jul 22 19:20:01 virtsrv1.domain.local hostd-probe: [FFBA97E0 info 'ThreadPool'] Thread delisted
Jul 22 19:20:01 virtsrv1.domain.local syslog[742749]: hostd probing is done.
Jul 22 19:20:01 virtsrv1.domain.local vmkernel: cpu0:34736)World: 14296: VC opID hostd-56fd maps to vmkernel opID ce32609f
Jul 22 19:20:20 virtsrv1.domain.local vmkernel: cpu6:34195)World: 14296: VC opID hostd-2dce maps to vmkernel opID 44f95eb7
Jul 22 19:20:33 virtsrv1.domain.local vmkernel: cpu0:33079)<3>aacraid: Host adapter abort request (7,0,0,0)
Jul 22 19:20:33 virtsrv1.domain.local vmkwarning: cpu0:33079)WARNING: LinScsi: SCSILinuxAbortCommands:1837: Failed, Driver aacraid, for vmhba2
Jul 22 19:20:33 virtsrv1.domain.local vmkernel: cpu0:33079)WARNING: LinScsi: SCSILinuxAbortCommands:1837: Failed, Driver aacraid, for vmhba2
Jul 22 19:20:33 virtsrv1.domain.local vmkernel: cpu0:33079)<3>aacraid: Host adapter abort request (7,0,1,0)
Jul 22 19:20:33 virtsrv1.domain.local vmkwarning: cpu0:33079)WARNING: LinScsi: SCSILinuxAbortCommands:1837: Failed, Driver aacraid, for vmhba2
Далее последние 5 строк постоянно повторяются еще в течение 15 минут.
Железо.
MB: Supermicro X9DRi-F
CPU: 2xIntel Xeon E5-2640v2
RAM 4x16GB 1600MHz DDR3 PC-12800 ECC Reg
RAID: Adaptec RAID 6805Q
HDD: 4xHitachi HUS724020ALA640 2Tb
SSD: 2xIntel SSD DC S3500 Series 160GB
ОС.
ESXi 5.5 Update 1 Build 1623387
Собраны:
RAID-1 из SSD, на нем система и storage под БД.
RAID-10 из HDD, storage под виртуалки и прочее.
В гугле советовали отключать Intel VT-d, пробовал, не помогло.
Переставлять контроллер в другой слот пока не пытался.
PS
В саппорт поставщику сервера писал, говорят открывайте кейс у vmware, доселе не доводилось, отпишите кто знает как там чего.
Внимание, решение:Вот такой солюшн предложили вчера Adaptec.
Пока ещё не имеется новый драйвер для Вашего контроллера под ESXi 5.5, но зато могу Вам предоставить решение проблемы довольно простым способом (см. ниже).
Сначало обновите драйвер контроллера на версию 40700, если этот драйвер ещё не установлен: http://www.adaptec.com/en-us/speed/raid/aac/linux/aacraid_vmware_drivers_1_2_1-40700_cert_tgz.php.
После обновления драйвера перезагрузите сервер.
Потом в консоле хоста введите следующую команду: esxcli system module parameters set -m aacraid --parameter-string 'msi=1'
Перезагрузите сервер. Войдите в консоль и проверьте, включен ли MSI с командами :
1. lspci | grep Adap
2. dmesg | grep MSI
Дайте системе поработать и сообщите нам результаты через пару дней.