Aby uzyskać dostęp do statystyk odwiedzin czy licznika ruchu należy podać login i hasło takie samy jak przy dostępie do FTP. Klienci nie uprawnieni do używania FTP proszeni są o kontakt z działem wsparcia technicznego[1], założymy dla nich specjalne konta dostępowe.
Monitor transferu danych
Strony utrzymywane w iCenter mają przydzielony limit transferu danych, zatem może się zdarzyć że duża oglądalność witryny może spowodować zablokowanie strony. Ilość przesłanych danych możemy odczytać za pomocą specjalnego monitora dostępnego po dopisaniu /transfer-www do adresu Twojej domeny np. http://hokuspokus.pl/transfer-www. Poniżej zamieściliśmy przykładowe wyświetlenie statystyk:
Objaśnienia najważniejszych parametrów:
- time to refresh - czas do najbliższego wyzerowania licznika
- Total Limit/Slice/Used - informacja jak duża część limitu została wykorzystana
- kbps Limit/Current - aktualny transfer w kilobitach na sekundę
Statystyki odwiedzin
Statystyki są dostępne w postaci strony WWW pod adresem powstałym z dopisania do Twojego adresu /stats np: http://www.hokuspokus.pl/stats/. Dostęp do informacji zawartych pod tym adresem wymaga uwierzytelnienia za pomocą loginu i hasła nadanego przy rejestracji serwera (dane używane do łączenia się przez FTP). Statystyki odświeżane są raz dziennie (w nocy), zatem oglądane zestawienie dotyczy dnia poprzedniego
Używamy systemu popularnych i sprawdzonych statystyk o nazwie Webalizer[2], na poniższej ilustracji widać fragment przykładowych statystyk:
Skąd pochodzą dane do statystyk?
Przypuśćmy, że odwiedzam Twoją stronę WWW. Klikam w link z innego serwisu prowadzący do Twojej głównej strony, oglądam kilka podstron, po czym klikam w jakiś link prowadzący do innego serwera.
A zatem, co w tym momencie wiesz o mnie? Najpierw dokonałem zapytania o stronę główną. W logach odwiedzin Twojego serwera pojawia się wpis zawierający datę i czas połączenia, nazwę wysyłanego pliku, adres IP mojego komputera. Często możesz też uzyskać informację o odsyłaczu i typie mojej przeglądarki. Nie masz możliwości uzyskania mojego imienia albo adresu e-mail.
Następnie przeglądarka sprawdza, czy istnieją jakieś grafiki na stronie, której zażądałem. Jeśli tak - wysyła ona kolejne zapytania w celu ich pobrania. Jedno zapytanie przypada więc na każdy plik - niezależnie czy jest to plik typu HTML, GIF, JPG czy ZIP. Załóżmy, że strona zawierała 10 rysunków - jak dotychczas wysłałem 11 zapytań do Twojego serwera.
Po jakimś czasie odwiedzam inne Twoje strony wysyłając nowe zapytanie z każdym plikiem, który ściągam (tekst, grafika). Wreszcie klikam w link prowadzący do innego serwera. Nigdy nie wiesz o tym, że to zrobiłem. Rozłączam się nie informując Ciebie o tym.
Mity na temat statystyk - jakich informacji nie da się uzyskać?
- Nie możesz zidentyfikować swoich klientów. O ile nie wymagasz od użytkowników uprzedniego logowania się do Twojej strony poprzez podanie identyfikatora i hasła - nie możesz precyzyjnie stwierdzić kto się łączył i jaki był jego adres e-mail.
- Nie możesz stwierdzić ilu miałeś użytkowników. Możesz zgadywać patrząc na liczbę różnych hostów, które łączyły się do Twojego serwera. Ale zwykle nie jest to dobre oszacowanie z następujących przyczyn:
- buforowanie - przeglądarka może przechowywać najczęściej odwiedzane strony na lokalnym dysku. Ponadto istnieją usługi typu w3cache które pośredniczą między użytkownikiem a Internetem przechowując najpopularniejsze strony. W obydwu przypadkach Twój serwer nie jest informowany, że oglądam stronę, ponieważ została ona pobrana z innego źródła.
- firewall - w wielu firmach jest zainstalowane urządzenie/program, którego zadaniem jest ochrona sieci wewnętrznej przed intruzami z Internetu. Zwykle wszystkie komputery z sieci wewnętrznej widziane są na zewnątrz pod jednym, wspólnym numerem IP. Zatem kilku użytkowników może pozornie mieć ten sam adres IP.
- dynamiczne IP - wielu dostawców udostępnia Internet przez łącza modemowe. Użytkownik łączący się modemem otrzymuje na początku sesji sieciowej losowo wybrany numer IP z pewnej puli i po rozłączeniu się numer ten wraca do puli gotowych do przydzielenia. Ten sam użytkownik może wystąpić pod kilkoma adresami IP, jeśli często łączy się i rozłącza z Internetem.
- Nie możesz obliczyć ile miałeś odwiedzin. Wiele programów, pod naciskiem firm reklamowych, definiuje wizytę (lub sesję) jako sekwencję zapytań pochodzących od tego samego hosta do momentu kiedy nie nastąpi półgodzinna przerwa. Metoda ta jest niepewna z kilku powodów. Po pierwsze, zakłada ona, że jeden host przypisany jest jednej osobie i na odwrót. W rzeczywistości nie jest to prawdą - objaśniono to w poprzednim punkcie. Po drugie, zakłada też, że nigdy nie ma dłuższej przerwy niż pół godziny między kolejnymi odwołaniami. To również nieprawda. Często klikam na link prowadzący do innego serwera i potem wracam do Twojej strony kontynuując przeglądanie. Chyba nie powinno mieć znaczenia czy dokonam tego 29 czy 31 minut później.
- Ciastka (cookies[3]) nie są rozwiązaniem problemu. Niektórzy próbują liczyć odwiedziny przy pomocy cookies. Ale zadziała to tylko wtedy, jeśli odmówisz przeczytania stron przeglądarkom, które nie zaakceptowały cookie.
- Nie możesz wyśledzić precyzyjnie ścieżki, jaką ktoś wędrował przez Twoje strony. Nawet jeśli założysz, że danej osobie odpowiada tylko jeden host, nie jesteś w stanie określić jego ścieżki w obrębie serwisu. Bardzo często ludzie wracają do stron, które ściągnęli już wcześniej. Nie dowiesz się o tych kolejnych wizytach, ponieważ przeglądarka pobiera dane z cache. W związku z tym nie możesz precyzyjnie śledzić drogi użytkowników.
- Często nie możesz stwierdzić którędy użytkownik dostał się do Twojej strony ani skąd zdobył adres. Jeśli używa on cache, często będzie mógł ściągnąć stamtąd główną stronę, ale podstrony zwykle będzie pobierał z Twojego serwera. Zatem, pierwsza strona, o której będziesz wiedział zostanie ściągnięta w połowie prawdziwej wizyty.
- Nie dowiesz się w jaki sposób użytkownik opuścił Twoją stronę ani jaki adres odwiedził później. Nigdy nie jesteś informowany o połączeniu do innego serwera - więc nie możesz uzyskać takich danych.
- Trudno obliczyć ile czasu spędził ktoś oglądając Twoją stronę. Użytkownik mógł w tym czasie otworzyć inną stronę, obejrzeć stronę ściągniętą wcześniej lub też pograć w jakąś grę. Tego po prostu nie wiesz.
Podsumowując powyższe punkty należy zwrócić uwagę na fakt, że HTTP[4] jest protokołem bezstanowym. Użytkownicy nie logują się w celu ściągnięcia kilku dokumentów; wykonują osobne połączenia dla każdego z nich. Nie zachowują się oni również w sposób typowy dla protokołów "z logowaniem " (telnet, FTP). Stąd takie programy jak analog unikają stosowania terminu "wizyta" na rzecz "zapytania". Jakie dane można łatwo uzyskać z serwera WWW?
- Liczbę, czas zapytań do serwera.
- Nazwy pobieranych plików.
- Nazwy hostów łączących się do serwera.
- Przeglądarki WWW, z których korzystają użytkownicy.
- Odsyłacze - adresy stron, na których znajduje się link do Twojej strony.
Należy pamiętać o tym, że niektóre przeglądarki nie podają swojej prawdziwej nazwy, jak też nie pozwalają na przekazywanie adresów odsyłaczy.
Jak interpretować dane z systemu statystyk?
System statystyk posługuje się wieloma pojęciami, które mogą na pierwszy rzut oka wydać się niezrozumiałe. Poniżej przytaczam listę słów kluczowych używanych przez ten program - zarówno w wersji polskiej jak i angielskiej.
- Zapytania/Wywołania (Hits)
Ilość żądań wysłanych przez przeglądarki do serwera WWW w badanym okresie. Należy pamiętać, że każdy plik - zarówno HTML, JPEG jak i ZIP jest liczony jako zapytanie.
- Pliki (Files)
Jest to liczba zapytań zrealizowanych przez serwer w badanym okresie. Dlaczego jest ona zwykle niższa niż liczba zapytań? Odpowiedź na to pytanie znajdziemy w szczegółowych statystykach dla danego miesiąca w tabeli
- Zapytania wg. kodu odpowiedzi (Hits by response code)
Kod 200 odpowiada standardowemu zrealizowaniu zapytania, pozostałe pełnią funkcję informacyjną, jeśli plik nie został przesłany. Przyczyną tego może być błąd (np. brak na serwerze żądanego pliku - kod 404), ale w większości wypadków znaczna różnica między ogólną liczbą zapytań a liczbą wysłanych plików ukrywa się w pozycji 304 (Nie zmodyfikowany). Jest to normalna sytuacja wynikająca z opisywanego już wcześniej zjawiska cache'owania plików. Przeglądarka lub serwer w3cache[5] może sprawdzać okresowo czy plik, który przechowuje na lokalnym dysku nie zmienił się w międzyczasie na serwerze, wysyłając odpowiednio sformatowane zapytanie. Serwer odpowiada wówczas odpowiednim kodem - zmodyfikowany bądź nie zmodyfikowany. Duża liczba innych kodów - np. 404 (Nie znaleziony) może świadczyć o źle skonstruowanych stronach zawierających puste linki, czyli nie prowadzące do istniejących plików.
- Strony (Pages)
Ponieważ nie zawsze interesuje nas informacja dotycząca plików ozdobnych np. GIF, ta liczba pokazuje ilość pobranych stron WWW, przy czym administrator statystyk może regulować jakie pliki traktowane są jako strony. Zwykle wybierane są nazwy o rozszerzeniach .html i .htm.
- Wizyty (Visits)
To pojęcie omówiłem już dokładnie rozdział wcześniej. System statystyk stara się wyróżnić poszczególne sesje danego użytkownika mierząc czas między kolejnymi zapytaniami od danego komputera. Jeśli czas ten jest dłuższy niż pół godziny (można tę wartość regulować) sesja uznawana jest za zakończoną i doliczana jest jedna wizyta w statystykach. Jak już stwierdziłem wcześniej, dane te należy traktować jako pewne przybliżenie prawdziwej liczby wizyt.
- Hosty/Lokalizacje (Sites)
Trudno znaleźć krótkie, proste tłumaczenie tego wyrazu - chodzi o komputer podłączony do Internetu. Nie ma w tym wypadku znaczenia, czy pełni on funkcję klienta czy serwera; czy jest podłączony tymczasowo czy na stałe. Podstawowym wyróżnikiem hosta jest jego numer IP (np. 212.244.218.129) oraz nazwa w DNS[6] (np. vito.mwd.com.pl). Na tej podstawie tworzone są tabele ze szczegółowego miesięcznego raportu dotyczące hostów i krajów, z których łączą się użytkownicy. Jak wcześniej wyjaśniłem - jeden host nie musi oznaczać jednego użytkownika.
- KB (KBytes)
Suma wielkości wszystkich ściągniętych w danych okresie plików wyrażona w kilobajtach. Jest miarą obciążenia serwera i łącza.
- URL
Uniform Resource Locator[7] - kompletny adres zasobu wyrażony w konwencji: protokół://adres.serwera:port/katalog/nazwa.pliku. Liczba URLi to liczba różnych plików pobranych z serwera w badanym okresie. Jest to zatem pewna miara wielkości serwisu - w długim okresie powinna ona być zbliżona do całkowitej liczby plików znajdujących się na serwerze.
- Odsyłacze (Referrers)
Jeśli trafiamy na jakąś stronę w wyniku kliknięcia w link na innej stronie przeglądarka może informować serwer o adresie, który nas zaprowadził w to miejsce. Można ocenić w ten sposób np. skuteczność indeksowania naszych stron przez wyszukiwarki (google.com[8], yahoo.com[9]). Niestety nie zawsze działa to prawidłowo - nie każda przeglądarka obsługuje ten standard, jak też serwery WWW wymagają specjalnych ustawień.
- Przeglądarki (User agents)
Nazwa programu używanego przez klienta, np.:
Opera 9.02 (Windows NT 5.1)
Jak widać jest to dość pełna informacja nie tylko o typie przeglądarki (Opera 9.02), ale również o systemie operacyjnym (Windows NT 5.1). Jest to zwykły użytkownik komputera, zdarzają się jednak również programy. Zazwyczaj są są to roboty internetowe (pająki) zajmujące sie indeksowaniem danych w wyszukiwarkach. Wpis odwiedzin robota wyszukiwarki google.pl[10] wygląda następująco:
Googlebot/2.1 (+http://www.google.com/bot.html)
- Strony wejściowe (Entry pages)
Strony, które zwykle są otwierane na początku sesji - pierwsze na jakie trafia użytkownik. Podobnie jak liczba wizyt ta wartość jest obarczona dużym błędem.
- Strony wyjściowe (Exit pages)
Ostatnie strony jakie są zwykle oglądane podczas sesji. Po ich obejrzeniu użytkownik nie korzysta przez dłuższy czas z naszego serwisu. Wartość jest oczywiście przybliżona.
- Wyrażenia wyszukiwawcze (Search strings)
System statystyk potrafi wyciągnąć z pola Odsyłacz (Referrer) informację jakie wyrażenie wprowadził użytkownik w celu wyszukania naszego serwisu w jednej z popularnych wyszukiwarek. Obecnie obsługiwane są takie serwery jak google.com[11], yahoo.com[12] i inne.
