Мониторинг HDD използващи smartctl

SMART - акроним означава анализиране на самостоятелно следене и отчетност технологии. Към днешна дата, SMART подкрепа, обявена от много производители на твърди дискове. С тази технология, можете да се идентифицират следните проблеми:






  • проблеми магнитна глава сглобяване
    Физически щети логически грешки
    Проблеми на задвижващата система за позициониране
    електронната част от проблема (на борда)
    Излишната температура
Инсталацията не е тривиален:
Изходът е 2 приложения: smartctl и smartd.
  • smartctl (Контрол и монитор Utility за SMART Дискове) - поддържа ATA, IDE, SATA и SCSI-3 устройства.
    smartd - това е демон smartclt, опитвайки се да включите SMART мониторинг ATA устройства (smartctl -s на) разпитвал устройството на всеки 30 минути (по подразбиране), грешки logiruya диск и промените атрибутите на файл / реактивна / дневник / Syslog. Smartd може да бъде конфигуриран да изпраща предупреждения e'mail ако се открие проблем.
За да се разбере дали има подкрепа за твърдите дискове от извършване на:
Ако е забранено, Активиране на интелигентен, можете да:
За пълна информация на твърдия диск изпълнява:

На твърдия диск е ОК, най-висока температура, но това не е от решаващо значение за това е постигнато само HDD.

Подробна заключение smartctl:

RAW_VALUE - Всеки атрибут има сурово стойност 6 байт стойност.

Вършее - минимална възможна стойност на атрибута, при която надеждна работа е гарантирано съхранение.

VALUE - един байт стойност "нормализирани" варира от 0 до 255 (дадени от производителя). Една малка стойност показва бързо разграждане на диска или на възможен непосредствена недостатъчност. т.е. толкова по-висока стойност, толкова по-добре.
Например в случай на параметъра "Airflow_Temperature_Cel" RAW_VALUE магазини температурата на диск (50), както и минималната и максималната температура (Lifetime Min / Max 23/51), при което ефективността на устройството се поддържа. ROM Firmware RAW_VALUE преобразува нормализирана стойност (стойност) в диапазона от 1 до 253. Ако нормализирана стойност (стойност) е по-малка или равна на вършее, Умение счита неуспешно и се показва WHEN_FAILED колона, както в настоящия случай, неуспехът се за атрибута Airflow_Temperature_Cel.

Най-лошия - минималната нормализирана стойност, която се достига от момента, в SMART дисково пространство.

TYPE - има 2 вида атрибути:
  • Предварително се провали -kritichnye атрибути
  • Old_age - некритични атрибути (СТОЙНОСТ стойност, разпределена на производителя MTBF).
Ако СТОЙНОСТ малко вършее в случай на Pre-провалят атрибут - има голяма вероятност, че дискът ще лети в следващите 24 часа.






Ако СТОЙНОСТ малко вършее ако Old_age атрибут - има голяма вероятност, че дискът ще лети като Развива ресурс, но когато това се случи, не е известен. Критични атрибути:
  • Raw_Read_Error_Rate - процентът на грешки при четене на данни от диска, произходът на които е причинена от хардуера на устройството.
  • Spin_Up_Time - промоция време от диска определен от място до скорост на работа. При изчисляване на стойността на стойност практически път, когато се сравнява с референтна стойност, създадена в завода. Не влошава без максимална стойност при Spin Up Retry Count Value = макс (Raw = 0) не казва нищо лошо. Разликата от референтната време може да бъде причинено от няколко причини, например усвояване на напрежението на електрозахранването.
  • Spin_Retry_Count - брой на повторните опити промоция закара до работна скорост, ако първият опит е бил неуспешен. Различна от нула Raw (съответно nonmaximality Value) показва проблеми в механичната част на устройството.
  • Seek_Error_Rate - честота на грешки в позиционирането на конструкцията на главата. Суровини висока стойност показва, че има проблеми, които могат да бъдат серво увреждане, прекомерно устройство топлинно разширение, механични проблеми при позициониране блок, и др. Постоянна стойност висока стойност казва, че всичко е добре.
  • Reallocated_Sector_Ct - броя на секторите за смяна на операции. SMART в съвременните устройства могат да анализират стабилността на сектора "в движение", а в случай, че е обявен за провал, се уверете, преназначаването му.
Некритичните атрибути:
  • Start_Stop_Count - общият брой на започва / спира на шпиндела. Гарантирано мотор може да се движи само на определен брой цикли на включване / изключване. Тази стойност се избира като Treshold. Първите модели със скорост на въртене на дискове на 7200 оборота / минута имаше ненадежден на двигателя, могат да се движат само малък брой, и бързо се провалиха.
  • Power_On_Hours - броя на часовете, прекарани в ON. Като праг паспорт MTBF (MBTF), избран за него. Обикновено MBTF стойност е огромна, и това е малко вероятно, че този параметър достига критичен праг. Но дори и в този случай, провала на диск напълно задължително.
  • Power_Cycle_Count - общ брой на Спирателна цикли на диска. На тази и предходната атрибут може да се определи, например, като се използва за задвижване на покупка.
  • Temperature_Celsius - индикации топлинен сензор се съхраняват тук. Температурата има огромно въздействие върху живота на диска (дори и да е в рамките на диапазон). По-скоро не влияе на срока на експлоатация на диска и на честотата на някои видове грешки, които засягат целия период на експлоатация.
  • Current_Pending_Sector - Броят на сектори, които са кандидати за замяна. Те дори не са изрично толкова лошо, но да ги четат се различава от четенето на стабилен сектор, така наречените подозрителни или нестабилни сектори.
  • Offline_Uncorrectable - броят на грешките при достъп до сектора, които не са били коригирани. Възможни причини за повреди могат да бъдат механика или повредят повърхността.
  • UDMA_CRC_Error_Count - броят на грешките, които възникват по време на трансфер на данни на външен интерфейс. Те могат да бъдат причинени от лошото качество кабели, нестандартни режими на работа.
Конфигуриране на демон smartd: когато:
  • първата колона - устройство
  • -S autorecord включва атрибути
  • -о включва автоматично тестване оф-лайн,
  • -показва smartd монитор всички SMART параметрите на диска,
  • -I означава 194 да се игнорира атрибут # 194 (т.е., температура), защото температура на диска се променя често и то няма смисъл от сеч,
  • -м показва къде да изпрати предупредителни съобщения.
стартиране на обслужващата:

В SMART III въвежда функция, която ви позволява да прозрачно за потребителя да преминава лошия сектор.