Автор Тема: Есть тема немного подзаработать  (Прочитано 2570 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Morleys

  • Постоялец
  • ***
  • Сообщений: 375
  • Рейтинг: 12
  • Пол: Мужской
  • Мурр... Мяу!
    • morleys.ru
    • Просмотр профиля
  • Откуда: Питер!
Есть тема немного подзаработать
« : 03 августа 2019, 14:31:41 »
Не знаю куда пихать, поскольку из курилки никуда не хожу )))

Нужен спец по современным серверам и СХД чтобы ответить на пару вопросов.
Цитировать
Вводная такая:
Серверы QuantaGrid D51B-1U имеют недостатки на уровне платформы, а именно на уровне «SAS
Expander» и/или дальнейшей коммутации до непосредственно дисков; данное предположение мы
озвучиваем исходя из способа разрешения возникающих проблем, а именно: полная замена сервера D51B-
1U на сервер другого производителя, имеющий различия с сервером D51B-1U только в виде самой
платформы; все остальные компоненты (чипсет и т.д.) были полностью идентичны.

Вопросы примерно такие:
1
Может ли характер нагрузки (интенсивность обращений, абсолютный объём операций) на
дисковую подсистему приводить к аварийному завершению работы ОС/сервера?
Если может, то каковы возможные причины, и возможен ли нестабильный характер
воспроизведения подобной проблемы ?
Если возможен, то каковы причины нестабильности воспроизведения подобной проблемы?
2
Каковы возможные причины некорректной работы сервера А, при условии, что при перестановке
всех дисков/CPU/RAM в сервер B, имеющий аналогичную материнскую плату (motherboard) и все
компоненты на ней (chipset etc), некорректной работы не наблюдается?

Отвечать надо развернуто, желательно со ссылками на источники выводов. Информации и вопросов больше. Как договоримся - перешлю.

Конечно за денежку. Размер денежки обсуждаем. Предварительно 2-3 т.р. за ответ.

Оффлайн airdwarf

  • Постоялец
  • ***
  • Сообщений: 371
  • Рейтинг: 7
  • Пол: Мужской
    • Просмотр профиля
  • Откуда: Чесслово, нашел, гражданин начальник!
Есть тема немного подзаработать
« Ответ #1 : 03 августа 2019, 19:44:42 »
Очевидно, заявленная цена не предполагает проведения серьезной работы: анализа дампов, общения с вендором, тестирования железа etc.

А без этого по внешней симптоматике можно сказать только что мать помирает, где-то в районе южного моста. Мож кондеры беременные.
Кто чувствует несвободу воли, тот душевнобольной; кто отрицает ее, тот глуп. Один я умный в белом пальто стою красивый.
Вы тут серьёзно отстали от жизни. Админство, саппорт - это уже вчерашний день. Сейчас рулят микросервисная архитектура и continuous integration. Ну еще SAAS, конечно.

Онлайн Вьшекн

  • Старожил
  • ****
  • Сообщений: 758
  • Рейтинг: 13
  • Пол: Мужской
  • Подпись под аватаром
    • Просмотр профиля
  • Откуда: замкадбург
Есть тема немного подзаработать
« Ответ #2 : 03 августа 2019, 21:08:30 »
Мож кондеры беременные.
в серверной мамке? Ой вэй..

Онлайн Triangle

  • Модераторы
  • Олдфаг
  • *****
  • Сообщений: 7128
  • Рейтинг: 48
  • Пол: Мужской
  • Откуда: замкадыш
Есть тема немного подзаработать
« Ответ #3 : 04 августа 2019, 12:46:47 »
Я бы сверил прошивки на всём. Для начала , а потом задавал вопросы. Ну и опять же говорится о перебросе дисков, а есть ещё кроме матери бэкплейн, кабели.
Тетрис научил нас жизненно важному пониманию, успехи исчезают, ошибки накапливаются.

Оффлайн Sigurd

  • Пользователь
  • **
  • Сообщений: 57
  • Рейтинг: 2
  • Пол: Мужской
    • Просмотр профиля
  • Откуда: Earth
Есть тема немного подзаработать
« Ответ #4 : 05 августа 2019, 16:51:31 »
Посмотрел инфу по этому QuantaGrid D51B-1U в свободном доступе крайне скудна.
По первому вопросу, у здорового сервера -никогда, но интенсивность дисковых операций может приводить к "просадке напряжения питания" и следовательно к непредсказумым результатам, такое встречается, не часто, но бывает. По поводу кондеров, то у серверов "большой тройки" они обычно танталовые или ниобивые, вообщем не вздуваются и не сохнут со временем. У других да видел обычные "электролиты"  - бумага, фольга, глицерин. Но просадки питания случаются и не из-за кондеров. Похожая "болезнь" была у одной модели серверов одного именитого вендора.
Непредсказуемые рестарты и зависания, клиент вытащит все диски и приносит в сервис-центр, там обычно дисками их не набивают, воткнут один диск и гоняют диагностику, все хорошо, отдают клиенту, у клиента барахлит. Так как сервера дешевые, клиенты тоже маленькие, часто вообще 1-2 сервера на компанию. Мониторинга никакого нет, в IPMI обычно фиксируется рестарт. Настроили в IPMI SNMP trap, на один из компов поставили "приемник трапов", когда произошел очередной сбой, в "трапе" четко прописан сбой на шине 5 вольт. Обратились к вендору, те сразу сказали, что виновата плата распределения питания. Там такая конструкция была, "хот-плаг БП" втыкались в плату распределения питания, а с нее уже кабеля шли на "мать", "бэкплейн" итд. Потом, серверы с подобной проблемой стали попадатся все чаще и где то через год вендор распространил инфу среди сервис-центров, по этой проблеме. Ту плату распределения питания сняли с производства, заменили другим "партнамбером".

Из того что описал Morleys, происходит похожее, только на QuantaGrid D51B БП включаются прямо в "мать", хотя нельзя исключать дисковый "бэкплейн", кабеля и возможно БП. Неизвестно по какой схеме они работают. Обычно два БП работаюют "актив-актив", но схемы, когда один "актив", а второй "стендбай" также встречаются. Если активный БП отрубается, второй подхватывет нагрузку мнгновенно, но когда активный "глючит" так скажем, ждущий БП "думает" что все хорошо и перехватыввет нагрузку.
Вопрос к Morleys, а что мешает обратится в саппорт самого вендора? Возможно это типовая "болезнь" и там сразу назовут причины и способы устранения?

Оффлайн miskam

  • Начинающий
  • *
  • Сообщений: 46
  • Рейтинг: 1
  • Пол: Мужской
    • Просмотр профиля
  • Откуда: Новосибирск
Есть тема немного подзаработать
« Ответ #5 : 06 августа 2019, 05:28:36 »
а что мешает обратится в саппорт самого вендора?
Подозреваю, что отсутствие купленной/продленной поддержки.  :)

Оффлайн Morleys

  • Постоялец
  • ***
  • Сообщений: 375
  • Рейтинг: 12
  • Пол: Мужской
  • Мурр... Мяу!
    • morleys.ru
    • Просмотр профиля
  • Откуда: Питер!
Есть тема немного подзаработать
« Ответ #6 : 13 августа 2019, 18:05:22 »
а что мешает обратится в саппорт самого вендора?
Подозреваю, что отсутствие купленной/продленной поддержки.  :)

Насколько я понимаю, там идёт досудебное разбирательство именно между вендором и конечным покупаном. То есть одни говорят проблема у вас, другие ровно наоборот. Поэтому и нужна независимая экспертиза хотя бы по базовым моментам.

Оффлайн Sigurd

  • Пользователь
  • **
  • Сообщений: 57
  • Рейтинг: 2
  • Пол: Мужской
    • Просмотр профиля
  • Откуда: Earth
Есть тема немного подзаработать
« Ответ #7 : 14 августа 2019, 19:35:08 »
/quote]
Насколько я понимаю, там идёт досудебное разбирательство именно между вендором и конечным покупаном. То есть одни говорят проблема у вас, другие ровно наоборот. Поэтому и нужна независимая экспертиза хотя бы по базовым моментам.
[/quote]
Раз разбирательство, значит саппорт все же есть.
Тут экспертиза нужна скорее юридическая, чем техническая, что и как прописано в контракте. В гарантию входят не только обязательства вендора, но и покупателя по эксплуатации, я незнаю как в этих серверах, но обычно IPMI собирает и записывает в свой журнал все события от повышения температуры, до зависания ОС, какие компоненты ставились-вынимались и все это подписывается цифровой подписью, так что внести изменения невозможно. Весь этот лог скачивается и отправляется в саппорт вендора, а те решают, кто виноват, бывали случаи отказа от выполнения гарантии, по разным причинам, диски не от вендора или другие компоненты, неподдерживемая ОС. Так тоже бывает, вендор предъявляет документ со списком ОС для этого сервера, если у клиента стоит не из этого списка, какой-то условно "NN Linux" и он крашится или виснет так же посылают. С версиями VMWare так бывает. Конкретно в этом случае все указвыет на "материнку", но возможно есть какие-то ньюансы, позволяющие вендору "зацепится" за отказ от выполнения гарантии.
Был такой случай, принесли сервер, не видит ни одного диска, как оказалось "сгорел" бекплаин, на нем микросхему разорвало как "розочку", вместе с ним сгорели все 8 дисков, со всей информацией. Сервак на гарантии, клиент выкатил иск за потерю "информационного актива", простой и недополученную прибыль итд. Однако представитель вендора извлек из логов данные о повышение температуры выше допустимого, а значит клиент нарушил  условия эксплуатации и гарантия "тю-тю". Очень легко послали этого клиента со всеми его исками. Потом их админ рассказывал, что было так, в серверной отключились сразу два кондея, почему это другой вопрос, все перегрелось и отрубилось, как и положено. Пока ждали ремонтников, начальство потребовало любой ценой запустить именно этот сервер, ну очень срочно надо, он поставил в серверную вентилятор, как то продул, включил сервак, тот поработал и отрубился, но опять его включил, тот отрубился через некоторое время и в итоге включился и уже не загружается, дисков не видит.
Конечно никакой вендор не хочет заменять компоненты за свой счет, но если причин отказать нет, то стараются  выполнить, репутация важнее денег.
Не всегда и не для всех конечно.
Надо тщательно проверить что написанно в документации по гарантийным обязательствам и нет ли каких-либо нарушений со стороны клиента.