Wydarzenia

Awaria serwera

Opublikowane

Wielu z was pewnie zastanawia się, dlaczego nasza strona nie była dostępna w ubiegłym tygodniu i gdzie podziały się ostatnie wpisy. Awarię zafundowała nam firma VMLine, na której serwerach znajdują się nasze dane.  Jak można przeczytać na jej stronie, gwarantuje ona czas działania serwera na poziomie 99,8% w skali miesiąca oraz ma setki zadowolonych klientów. Łatwo przeliczyć, że według tych gwarancji nasz serwer może być niedostępny maksymalnie przez około 2 godziny w miesiącu. Niestety, ostatnia awaria trwała łącznie 2 dni, 6 godzin, i 41 minuty.

Co tak naprawdę wydarzyło się na serwerze Krzeszowiceone.pl?

Rozegrały się prawdziwe dantejskie sceny, a walka o nasze dane była bardzo zacięta. Wszystko rozpoczęło się od niewinnej awarii serwera w czwartek (4.04.2013), VMline poinformowało na stronie NOC, że wystąpił problem z systemem. Dwie godziny później okazało się, że macierz RAID zaczęła umierać i sytuacja jest poważniejsza, niż myślano. Na szczęście po godzinie reanimacji wszystko wróciło do normy. Admini VMline nie wiedzieli jednak, że wszystko jeszcze przed nimi…

W piątek serwer ponownie zniknął z sieci, a kilka godzin później w serwisie NOC pojawiła się dramatyczna informacja, że większość danych wyparowała wraz z przegotowanymi dyskami. Firma ONTRACK została wezwana, aby uratować dane wszystkich klientów. Oczywiście, my  nie zostaliśmy poinformowani o tym, czy nasze dane poleciały w kosmos, czy nie. Dowiedzieliśmy się tylko, że pewna macierz na serwerze jest niesprawna, ale nie dowiedzieliśmy się, jaka i czy na niej są nasze pliki. Jak to zwykle bywa, klient musi  dobijać się do usługodawcy. Po interwencji otrzymaliśmy komunikat, że najnowsze informacje pojawią się w sobotę o godzinie 10.00.

Sobota, godzina 12:16. (tylko 2 godziny poślizgu) VMline otrzymało dyski od ONTRACK i okazuje się, że nasze dane są nietknięte i nasz serwer może wrócić do sieci. Wydaje się, że tym razem mamy farta!

Ale nie na długo… chwilę później nasz serwer znowu pada, a na stronie NOC pojawia się informacja, że awaria jest bardzo poważna i los płata firmie  figle. Cytuję słowa głównego admina: „Zasada – jak się sypie, to wszystko – niestety nas dopadła.”.

Niedziela wygląda dość spokojnie. Firma deklaruje, że już w poniedziałek wprowadzi nowy tryb archiwizowania serwerów. Czy tak się stało? Nie! Ale o tym później.

Wtorek wieczór, kolejny pad serwera, na NOC pojawia się informacja, że firma przeprowadza testy… a z samego rana wszystko będzie działać.

Środa, godzina 10, oczywiście nic nie działa, dlatego ponownie kontaktuję się z  VMline. Tym razem jest to ostry email informujący ich, że z mojej perspektywy nie dochowują gwarantowanego czasu działania serwera.

Szybka odpowiedź administratora: „Czekamy tylko na nowe dyski i stawiamy nowy serwer gdzie skończą się wszelkie problemy.”  Serwer ma być sprawny już tego samego dnia od godziny 13, jednak nie jest. Pewnie kurier nie przyjechał, a wszystkie sklepy komputerowe z dyskami są zamknięte.

Czwartek, 11 kwietnia, godzina 22:43

NOC: „Host vps26 jest offline. Testujemy nowy sprzęt i wszystkie VPS w dniu jutrzejszym zostaną zmigrowane na nową maszynę.
Z samego rana wszystkie VPS zostaną uruchomione jeszcze na node vps26, a od godziny 12-13 VPSy będą już działać na node vps36.”

Host vps26 to nasz serwer, a migracja oznacza skopiowanie naszych danych z jednego komputera na drugi (nowy) vps36!

Piątek, godzina 10:00. Serwer dalej nie działa, strona nie działa i nic nie wiadomo. Nawiązuję ponowny kontakt z usługodawcą, a ten informuje mnie, że dane bardzo powoli się kopiują, ale niebawem serwer będzie online.

Piątek, godzina 16:21

Po raz pierwszy od początku całej awarii przychodzi email z inicjatywy usługodawcy, o bardzo interesującej treści:

„Witam,
niestety utraciliśmy dane bezpowrotnie z maszyny v26 i niemożliwe było zmigrowanie kopii.
Stracilismy 70% kopii z wtorku i niestety Państwa danych nie udało się odzyskać. (…)”

Cóż chcieć więcej, w tym momencie wiedziałem już, że muszę zmienić plany na piątek wieczór. Zamiast spotkać się ze znajomymi czy obejrzeć film, odzyskiwałem utracone dane z kopii zapasowych. Jak wspomniałem wcześniej, nie mamy szczęścia do hostingów. Już drugi raz musiałem odtwarzać stronę Krzeszowiceone.pl, korzystając z własnego archiwum. Wcześniej rozrywkę zafundowała nam firma Rootnode, tym razem było to VMline.

Jeżeli wielu z was zastanawia się, gdzie podziały się ich wczorajsze wpisy, to niestety mam złe wieści. Nie udało mi się ich odtworzyć, ponieważ kopie wykonywane są tylko raz dziennie.  Przywrócone dane pochodzą z zapisu wykonanego 11 kwietnia o godzinie 1:00.

Dzięki kopii zapasowej strona jest już online, odtwarzanie zajęło mi godzinę. Czy to dobry czas? Na pewno krótszy od tego, który przeznaczyłbym na tworzenie strony od nowa. Dlatego, korzystając z okazji, polecam wszystkim czytelnikom przeznaczenie paru chwil w ten weekend na wykonanie kopii zapasowej swoich danych.

(*) Obrazek „VMLine niezawodna linia serwerów VPS” pochodzi ze strony Facebook.

14 komentarzy

Najpopularniejsze

Exit mobile version