Автор Тема: Статистика по отказам HDD/SSD в зависимости от вендора.  (Прочитано 10056 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн shurutov

  • Постоялец
  • ***
  • Сообщений: 326
  • Рейтинг: 3
  • Пол: Мужской
    • mshurutov@jabber.ru
    • Просмотр профиля
  • Откуда: СССР
Компания Backblaze, развивающая online-сервис резервного копирования данных, опубликовала статистику по отказам жестких дисков, накопленную в результате эксплуатации 35 тысяч НЖМД, используемых для хранения более 100 петабайт данных. Если прошлогодний отчёт рассматривал корреляцию между выходами из строя и сроком эксплуатации дисков, то в нынешнем отчёте рассматривается надёжность дисков от разных производителей. Выявлено, что 3TB диски Seagate выходят из строя значительно чаще (9-15%), чем диски 3TB Western Digital (4-7%). Для всех моделей дисков Hitachi, а также для Seagate 4.0TB и Western Digital 1.0TB частота сбоев существенно ниже.



Годный материал, я считаю. И как-то совсем не удивляют результаты.
С уважением,
Шурутов Михаил.

Онлайн Flyer_SPb

  • Модератор
  • Ветеран
  • *****
  • Сообщений: 1019
  • Рейтинг: 26
  • Пол: Мужской
  • Ветеран войны с Kilrathi
    • Просмотр профиля
  • Откуда: 2:5030
Там по моделям смотреть надо, иначе практического смысла немного.
А про 11 и 14 Барракуды и так все в курсе. Вот WD Red удивили.

Диски там десктопные, на заметную нагрузку не рассчитанные

По моим 2.5" 10K 900GB SAS:
из 48 ST9900805SS, отходивших по 10-15 тыс. часов - все живы
из 42 HUC109090CSS600, отходивших по 7-10 тыс. часов - меняю уже второго (правда, нагрузка на них побольше идёт)
They stole my gun, my beautiful Steltek gun!

Оффлайн shurutov

  • Постоялец
  • ***
  • Сообщений: 326
  • Рейтинг: 3
  • Пол: Мужской
    • mshurutov@jabber.ru
    • Просмотр профиля
  • Откуда: СССР
Диски там десктопные, на заметную нагрузку не рассчитанные

Это самое интересное. Потому что дорогие серверные диски домой я, например, брать не собираюсь, от слова совсем.


Updated: 24 September 2014, 15:10:21

Кино продолжается. Нерепрезентативная выборка по наработке на отказ. С хабра.
После 1,5 ПБ записи в живых остались два SSD-накопителя

Вчера инженеры из Backblaze обновили статистику по надёжности HDD. За пару дней до этого стали известны результаты ещё одного интересного эксперимента — на выживание SSD-накопителей.

Компьютерное издание The Tech Report в августе прошлого года начало тестирование SSD-накопителей. Цель — проверить, сколько циклов перезаписи выдержит каждый из шести экземпляров. Эксперимент шёл целый год: после записи 1 петабайта в живых осталось три накопителя, а после 1,5 петабайта отвалился ещё один.

На старт марафона вышли Corsair Neutron GTX 240GB, Intel 335 Series 240GB, Samsung 840 Series 250GB, Samsung 840 Pro 256GB и два Kingston HyperX 3K 240GB.

Для тестирования выбрали программу Storage Utilities от Anvil

В результате, все шесть накопителей превысили показатель работы на отказ, указанный в технических спецификациях, а три смогли преодолеть отметку в петабайт.

Первые потери:
Kingston HyperX 3K 240GB – 728 ТБ
Intel 335 Series 240GB — 750 ТБ (вышел из строя добровольно по достижении запрограммированного показателя циклов записи, хотя флэш-память была в хорошем состоянии)
Samsung 840 Series 250GB — 900 ТБ

К удивлению автора эксперимента, следующим отключился Corsair Neutron GTX 240GB. По достижении 1,1 ПБ у него было всего три сбойных сектора. Но вскоре появились сообщения SMART об ошибках и количество сбойных секторов резко выросло.

В живых остались Samsung 840 Pro и второй Kingston HyperX 3K.

Samsung 840 Pro постепенно накапливал сбойные секторы: он уже потерял секторов на 5 ГБ (по 1,5 МБ каждый).

Но данные SMART говорили, что имеется ещё 60% резерва на перемещение секторов.

Что касается Kingston HyperX 3K, то ему пришлось проще. Благодаря функции предварительного архивирования в реальности во флэш-память записывалось меньше информации.

К моменту записи 1,5 ПБ в этом накопителе было перемещено всего 12 секторов.

Два накопителя преодолели 1,5 ПБ, практически не проявляя признаков скорого выхода из строя. Однако, такие признаки проявил сам автор. Через год нагрузочного тестирования накопителей он сказал, что сдаётся.

SSD Endurance Experiment на этом завершён. Хотя шесть экземпляров — явно недостаточная статистическая выборка, но все 6 накопителей на сотни терабайт превысили заявленный в характеристикам срок эксплуатации. Результаты показали, что современные SSD-накопители даже потребительского уровня обладают исключительно высокой надёжностью.

Напоследок, несколько диаграмм с замерами производительности.


Оригинал
Там картинок не много, а очень много. Тупо времени нет их вставлять. :(
« Последнее редактирование: 24 сентября 2014, 14:10:21 от shurutov »
С уважением,
Шурутов Михаил.

Онлайн Flyer_SPb

  • Модератор
  • Ветеран
  • *****
  • Сообщений: 1019
  • Рейтинг: 26
  • Пол: Мужской
  • Ветеран войны с Kilrathi
    • Просмотр профиля
  • Откуда: 2:5030
Я по своим уже показывал, вот текущее по самому "заслуженному":
Model Family:     Intel 710 Series SSDs
Device Model:     INTEL SSDSA2BZ200G3
...
Firmware Version: 6PB10362
User Capacity:    200,049,647,616 bytes [200 GB]
Sector Size:      512 bytes logical/physical
...
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  3 Spin_Up_Time            -----K   100   100   000    -    0
  4 Start_Stop_Count        ----CK   100   100   000    -    0
  5 Reallocated_Sector_Ct   -O--CK   100   100   000    -    0
  9 Power_On_Hours          -O--CK   100   100   000    -    15310
 12 Power_Cycle_Count       -O--CK   100   100   000    -    10
170 Reserve_Block_Count     PO--CK   100   100   010    -    0
171 Program_Fail_Count      -O--CK   100   100   000    -    0
172 Erase_Fail_Count        -O--CK   100   100   000    -    0
174 Unexpect_Power_Loss_Ct  -O--CK   100   100   000    -    7
183 SATA_Downshift_Count    ----CK   100   100   000    -    0
184 End-to-End_Error        -O--CK   100   100   090    -    0
187 Reported_Uncorrect      -O--CK   100   100   000    -    0
190 Airflow_Temperature_Cel -O--CK   076   068   000    -    24 (Min/Max 18/31)
192 Unsafe_Shutdown_Count   -O--CK   100   100   000    -    7
194 Temperature_Celsius     -O--CK   100   100   000    -    29
199 UDMA_CRC_Error_Count    ----CK   100   100   000    -    0
225 Host_Writes_32MiB       -O--CK   100   100   000    -    15373003
226 Workld_Media_Wear_Indic -O--CK   100   100   000    -    4210477
227 Workld_Host_Reads_Perc  -O--CK   100   100   000    -    0
228 Workload_Minutes        -O--CK   100   100   000    -    88551118
232 Available_Reservd_Space PO--CK   100   100   010    -    0
233 Media_Wearout_Indicator -O--CK   090   090   000    -    0
241 Host_Writes_32MiB       -O--CK   100   100   000    -    15373003
242 Host_Reads_32MiB        -O--CK   100   100   000    -    16196215
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning
...
Device Statistics (GP Log 0x04)
Page Offset Size         Value  Description
  1  =====  =                =  == General Statistics (rev 2) ==
  1  0x008  4               10  Lifetime Power-On Resets
  1  0x010  4            15310  Power-on Hours
  1  0x018  6    1007485139082  Logical Sectors Written
  1  0x020  6       3633814734  Number of Write Commands
  1  0x028  6    1061435181728  Logical Sectors Read
  1  0x030  6       2586281414  Number of Read Commands
  4  =====  =                =  == General Errors Statistics (rev 1) ==
  4  0x008  4                0  Number of Reported Uncorrectable Errors
  4  0x010  4                0  Resets Between Cmd Acceptance and Completion
  5  =====  =                =  == Temperature Statistics (rev 1) ==
  5  0x008  1               24  Current Temperature
  5  0x010  1               23  Average Short Term Temperature
  5  0x018  1               22  Average Long Term Temperature
  5  0x020  1               32  Highest Temperature
  5  0x028  1               15  Lowest Temperature
  5  0x030  1               27  Highest Average Short Term Temperature
  5  0x038  1               19  Lowest Average Short Term Temperature
  5  0x040  1               25  Highest Average Long Term Temperature
  5  0x048  1               20  Lowest Average Long Term Temperature
  5  0x050  4                0  Time in Over-Temperature
  5  0x058  1               70  Specified Maximum Operating Temperature
  5  0x060  4                0  Time in Under-Temperature
  5  0x068  1                0  Specified Minimum Operating Temperature
  6  =====  =                =  == Transport Statistics (rev 1) ==
  6  0x008  4              179  Number of Hardware Resets
  6  0x010  4               29  Number of ASR Events
  6  0x018  4                0  Number of Interface CRC Errors
  7  =====  =                =  == Solid State Device Statistics (rev 1) ==
  7  0x008  1               10  Percentage Used Endurance Indicator

С ним в зеркале другой 710 и ещё пара 3700 на другом сервере, поновее.
У всех всё примерно так же.
Работают кэшем нагруженных массивов.
They stole my gun, my beautiful Steltek gun!

Онлайн Retif

  • Администраторы
  • Олдфаг
  • *****
  • Сообщений: 9059
  • Рейтинг: 88
  • Пол: Мужской
  • Афтар
    • Просмотр профиля
    • Мой блог
  • Откуда: Орёл
Про 3-терабайник Seagate Barracuda ST3000DM001: http://habrahabr.ru/post/251941/



:scare:


У меня дома такой пока жив, год отработал.

Онлайн Triangle

  • Модераторы
  • Олдфаг
  • *****
  • Сообщений: 7128
  • Рейтинг: 48
  • Пол: Мужской
  • Откуда: замкадыш
Тетрис научил нас жизненно важному пониманию, успехи исчезают, ошибки накапливаются.

Оффлайн VanDyke

  • Модераторы
  • Ветеран
  • *****
  • Сообщений: 1800
  • Рейтинг: 73
  • Пол: Мужской
  • Network Warrior
    • Просмотр профиля
  • Откуда: Destination network unreachable
ST3000DM001
ГОРИ В АДУ СУКА  :negodue:
ЗЫ это личное  :D
Not as ultimate as 42, but pretty close...

Онлайн Retif

  • Администраторы
  • Олдфаг
  • *****
  • Сообщений: 9059
  • Рейтинг: 88
  • Пол: Мужской
  • Афтар
    • Просмотр профиля
    • Мой блог
  • Откуда: Орёл
У меня пока так:

Оффлайн VanDyke

  • Модераторы
  • Ветеран
  • *****
  • Сообщений: 1800
  • Рейтинг: 73
  • Пол: Мужской
  • Network Warrior
    • Просмотр профиля
  • Откуда: Destination network unreachable
Retif, у тебя Power on Time count в часах чтоли? Так это на год ваще не тянет..


Updated: 02 March 2015, 21:23:04

А вот B7 эт вроде Runtime bad block  ;)
Not as ultimate as 42, but pretty close...

Онлайн Retif

  • Администраторы
  • Олдфаг
  • *****
  • Сообщений: 9059
  • Рейтинг: 88
  • Пол: Мужской
  • Афтар
    • Просмотр профиля
    • Мой блог
  • Откуда: Орёл
Retif, у тебя Power on Time count в часах чтоли? Так это на год ваще не тянет..

Не знаю я, в чем там. У меня домашний комп, он круглыми сутками не работает же, по вечерам только.

А вот B7 эт вроде Runtime bad block  ;)

И что это значит? 94 бэда?

Оффлайн Вьшекн

  • Старожил
  • ****
  • Сообщений: 758
  • Рейтинг: 13
  • Пол: Мужской
  • Подпись под аватаром
    • Просмотр профиля
  • Откуда: замкадбург
эмм. у нас тоже на работе корзину со всеми яйцами принесли.. посмотрю завтра что за.. если не отдали..
точно 3тб и вроде бы тож сигейт...

Оффлайн VanDyke

  • Модераторы
  • Ветеран
  • *****
  • Сообщений: 1800
  • Рейтинг: 73
  • Пол: Мужской
  • Network Warrior
    • Просмотр профиля
  • Откуда: Destination network unreachable
И что это значит? 94 бэда?
нет, абсолютное значение это 6. Правда это параметр "Всегда пройдено" - знач заявлено вендором как неособо критичный. Но приятного мало, ближе к 2-3к часов думаю начнет сыпаться.
Not as ultimate as 42, but pretty close...

Онлайн Retif

  • Администраторы
  • Олдфаг
  • *****
  • Сообщений: 9059
  • Рейтинг: 88
  • Пол: Мужской
  • Афтар
    • Просмотр профиля
    • Мой блог
  • Откуда: Орёл
VanDyke, то есть то, что за это время появилось уже 6 бэдов - это уже плохо?

Онлайн Flyer_SPb

  • Модератор
  • Ветеран
  • *****
  • Сообщений: 1019
  • Рейтинг: 26
  • Пол: Мужской
  • Ветеран войны с Kilrathi
    • Просмотр профиля
  • Откуда: 2:5030
Retif, гоняй его активнее, чтобы до конца гарантии не дожил.
They stole my gun, my beautiful Steltek gun!

Онлайн Retif

  • Администраторы
  • Олдфаг
  • *****
  • Сообщений: 9059
  • Рейтинг: 88
  • Пол: Мужской
  • Афтар
    • Просмотр профиля
    • Мой блог
  • Откуда: Орёл
Flyer_SPb, дожить он доживет, наверно, вопрос, заберут ли его по гарантии, если им SMART с неким количеством бэдов предъявить. А гонять я не смогу, использую, как есть, так есть.