Seminarium

Proste pytania: Co to jest SMART i co robi?

Wielu z nas doświadczyło awarii dysku twardego; niektórzy z nas nawet próbowali dowiedzieć się więcej o niezawodności dysków twardych i ich głęboko ukrytej funkcji przewidywania, która jest częścią technologii o nazwie SMART. Można argumentować, że SMART nie jest tak niezawodny, jak nie przewiduje porażki we wszystkich przypadkach. Fakt ten jest częściowo prawdziwy, ale rzeczywiste wewnętrzne działanie tego systemu samokontroli nie jest takie proste. Spróbujemy więc zaradzić tej niepewnej sytuacji i zbadać, jak działa SMART. Zacznijmy:

SMART - trochę historii

SMART, czasami napisany jako SMART (Self-Monitoring, Analysis and Reporting Technology) to system, który monitoruje wewnętrzne informacje o twoim napędzie. Został opracowany na początku 1992 roku i jest obecnie dostępny we wszystkich nowoczesnych dyskach twardych IDE i Serial ATA (HDD). Oczywiście jest to funkcja dostępna również w dyskach półprzewodnikowych (SSD).

Jego historia obejmuje szereg nazw takich jak Predictive Failure Analysis lub IntelliSafe oraz dane wejściowe od wszystkich głównych producentów dysków twardych: IBM, Seagate, Quantum, Western Digital. Wreszcie, jego dokumentacja została zaprezentowana po raz pierwszy w 2004 r. W standardzie Parallel ATA i otrzymywała regularne poprawki do 2008 r.

Jego stworzenie opierało się na potrzebie monitorowania statusu dysku i prawdopodobnie powie Ci, czy dysk twardy jest bliski śmierci. Chociaż możesz pomyśleć, że SMART będzie magicznie odgadywał, czy dysk jest zdrowy, w rzeczywistości pokazuje serię zmiennych, których liczba i typ różnią się w zależności od dysku, które są wskaźnikami jego niezawodności. Aby uzyskać pełną listę atrybutów, ponieważ jest ich około 50 (na przykład, wskaźnik błędów odczytu surowego, czas rozpędzania, zgłoszone błędy niemożliwe do skorygowania, czas włączenia, licznik cykli ładowania, itp.), Można uzyskać tutaj.

Oprócz pojedynczych prób (Google, Backblaze) większość danych SMART jest nieudokumentowana. System dostarcza wiele wewnętrznych danych, ale istnieje wiele niespójności w statystykach, głównie dlatego, że wielu producentów dysków twardych używa różnych definicji i pomiarów. Na przykład niektórzy producenci przechowują moc razy jako godziny, podczas gdy inni mierzą w minutach lub sekundach. Ponadto żaden z nich nie próbuje wyjaśnić, które z różnych atrybutów lub zmiennych są warte naszej uwagi, co powoduje, że toniemy w danych.

Przed próbą zrozumienia, który z atrybutów jest istotny, musimy najpierw rozróżnić główne rodzaje niepowodzeń: przewidywalne i nieprzewidywalne. Pierwszy typ obejmuje awarie pojawiające się w czasie i spowodowane wadliwą mechaniką dysku lub uszkodzeniem powierzchni dysku. Problemy z czasem nasilają się, a dysk w końcu się nie powiedzie. Nieprzewidziane awarie są spowodowane nagłymi zdarzeniami, o których możemy wspomnieć na przykład nagłe skoki napięcia.

UWAGA: Ważne jest zrozumienie, że SMART może tylko pomóc w wykryciu przewidywalnych awarii.

Ważne atrybuty SMART

Stan zdrowia dysku twardego jest stale monitorowany za pomocą wielu czujników. Wartości są mierzone za pomocą typowych algorytmów, a następnie odpowiednie atrybuty są modyfikowane zgodnie z wynikami.

W każdym programie monitorującym użyjesz wszystkich atrybutów SMART będą miały następujące pola:

Identyfikator: definicja atrybutu. Zwykle ma on standardowe znaczenie i jest oznaczone liczbą od 1 do 250 (na przykład 9 to liczba włączenia zasilania). Mimo to wszystkie narzędzia do monitorowania i testowania dysków zawierają nazwę i tekstowy opis atrybutu.
Próg: minimalna wartość atrybutu. Jeśli ta wartość zostanie osiągnięta, Twój dysk twardy wkrótce się zawiedzie.
Wartość: bieżąca wartość atrybutu. Algorytm oblicza tę liczbę na podstawie nieprzetworzonych danych. Nowy dysk twardy będzie miał dużą liczbę, teoretyczne maksimum (100, 200 lub 253 w zależności od producenta), które zmniejszy się w całym okresie eksploatacji dysku twardego.
Najgorsza: najmniejsza wartość zarejestrowanego atrybutu.
Dane: surowe wartości pomiarowe dostarczane przez czujnik lub licznik. Jest to dane wykorzystywane przez algorytm zaprojektowany przez producenta dysku twardego. Jego zawartość zależy od atrybutu i producenta dysku twardego. Zwykli użytkownicy powinni to pominąć.
Flagi: cel atrybutu. Zazwyczaj jest to ustawiane przez producenta i dlatego będzie się różnić w zależności od dysku. Każdy z atrybutów jest krytyczny i może przewidzieć nadchodzące niepowodzenie (na przykład liczba sektorów ponownie przydzielonych ID 5) lub statystyczny bez bezpośredniego wpływu na status (na przykład liczba nieoczekiwanych strat mocy ID 174).

UWAGA: Zawsze pamiętaj, próbując zrozumieć status dowolnego atrybutu SMART sprawdź wartości tych trzech pól: wartość, próg i flagi. Pamiętaj również, że mniejsze wartości wskazują na spadek niezawodności.

Temperatura dysku jest bardzo dyskutowanym parametrem. Uważa się jednak, że wartości powyżej 60 ° C skracają żywotność dysku twardego i zwiększają prawdopodobieństwo uszkodzenia. Zalecamy użycie wentylatora, aby obniżyć temperaturę twardych dysków i może przedłużyć ich żywotność.

Jak wspomniano powyżej, nie wszystkie atrybuty SMART są krytyczne dla przewidywania awarii. Dwa wyżej wymienione badania dotyczące wskaźników awarii dysków twardych i innych źródeł zgadzają się, że ważną pomoc w identyfikowaniu dysków uszkodzonych to liczba sektorów przydzielonych ponownie do identyfikatora 5. Realokacja ma miejsce, gdy logika napędu remapuje uszkodzony sektor, w wyniku powtarzających się błędów miękkich lub twardych, do nowego sektora fizycznego z zapasowych. Ten atrybut odzwierciedla liczbę przypadków ponownego mapowania i wskazuje na zużycie powierzchni dysku twardego.

Kolejnym użytecznym atrybutem do monitorowania jest ID 197- Bieżąca liczba sektorów oczekujących. To zlicza sektory "niestabilne", czyli uszkodzone z błędami odczytu, które czekają na remapowanie, rodzaj systemu "próbnego". Algorytmy SMART mają mieszane odczucia na temat tego konkretnego atrybutu, ponieważ czasami jest to nieprzekonujące, ale stwierdzono, że może on dostarczyć wcześniejsze ostrzeżenie o możliwych problemach.

Ostatnim z tych wskaźników, które muszą być monitorowane, jest ID 187 - Zgłoszono niemożliwe do skorygowania błędy. Jest to liczba błędów, których nie można odzyskać i jest przydatna, ponieważ wydaje się, że ma to samo znaczenie dla wszystkich producentów.

UWAGA: Wszystkie wyżej wymienione atrybuty SMART mają wartość łatwą do interpretacji. Jeśli zgłaszają liczbę 1 lub więcej, bardzo prawdopodobne jest, że dysk się nie powiódł, dlatego lepiej rozpocząć tworzenie kopii zapasowej. Mimo to, mimo że są to użyteczne wskaźniki niezawodności napędu, nie są one niezawodne i należy je porównać z zaleceniami wybranego narzędzia do monitorowania dysków twardych.

Wniosek

To była nasza krótka analiza na temat działania SMART i jego możliwości monitorowania i przewidywania awarii dysków twardych. Główny punkt widzenia należy pamiętać, że ten system samokontroli pomoże ci sprawdzić status twojego dysku twardego. Jeśli chcesz użyć tych danych SMART, aby sprawdzić, czy Twój dysk ma problemy, przeczytaj artykuły zalecane poniżej.