Krótki kurs archeologii Internetowej

Liczbę stron internetowych istniejących obecnie szacuje się na blisko dwa miliardy. Co sekundę pojawiają się nowe, co widać w serwisie Live Stats, rejestrującym na żywo rozwój internetu za pomocą serii, nieustannie obracających się liczników. Powstawanie nowych obiektów, na przykład stron na WWW, jest często połączone z kasowaniem obiektów starszych. Jeśli starsze wersje nie zostały nigdzie zapisane, to znikają bez powrotu. Zapisywanie wszystkich starszych obiektów to nie taka oczywista sprawa, bo miejsce na dyskach kosztuje. Czy jest jakiś sposób za odzysk dawniejszych wersji? Są takie możliwości, ale, wszystko wskazuje na to, że każdy z nich pozwala na to jedynie częściowo, do pewnego stopnia.

Fot. (CC) Juan Vargas.jpg via Pexels

Ćwierć wieku temu, gdy Internet zaczynał na dobre gościć w naszym życiu, nie zastanawialiśmy się nad tym, czy wszystko, co wówczas powstaje, strony, bazy danych, projekty, dokumenty i obrazy, zostanie z nami na stałe lub „na zawsze”. Wszystko wówczas było zbyt nowe, by myśleć o sieci jako o obszarze eksploracji dla archeologów.

Po dwu dekadach okazuje się, że przetrwanie różnego rodzaju artefaktów wczesnego, ale nawet tego nieco późniejszego Internetu, wcale nie było takie oczywiste. Okazało się, że wiele stron czy publikacji, jeśli nikt nie zadbał o ich utrwalenie, zapis czy chociażby zrobienie zrzutu ekranowego, istnieje jedynie w pamięci ludzi, którzy je widzieli i czytali. Są narzędzia, które specjalizują się w gromadzeniu danych archiwalnych, które pomagają w archeologii dawnej sieci, ale nie ma w nich wszystkiego, nie można powiedzieć, że za ich pomocą dotrzemy do dowolnej starej treści, strony, czy wiadomości.

Odzysk z Google’a

Liczbę stron internetowych istniejących obecnie szacuje się na blisko dwa miliardy. Co sekundę pojawiają się nowe, co widać w serwisie Live Stats, rejestrującym na żywo rozwój Internetu za pomocą serii, nieustannie obracających się liczników. Powstawanie nowych obiektów, na przykład stron na WWW, jest często połączone z kasowaniem obiektów starszych. Jeśli starsze wersje nie zostały nigdzie zapisane, to znikają bez powrotu. Zapisywanie wszystkich starszych obiektów to nie taka oczywista sprawa, bo miejsce na dyskach kosztuje. Czy jest jakiś sposób za odzysk dawniejszych wersji? Są takie możliwości, ale, wszystko wskazuje na to, że każdy z nich pozwala na to jedynie częściowo, do pewnego stopnia.

Istnieje na przykład coś takiego jak Cache Google’a, czyli pamięć podręczna wyszukiwarki. Google zapisuje zrzuty wszystkich stron internetowych, by wyświetlać je, gdy bieżące wersje nie są dostępne. Strony te zostają zapisane w pamięci podręcznej Google. Trzeba w wynikach wyszukiwani kliknąć w link „Kopia”, by zobaczyć poprzednią zapisaną wersję strony.

Trudno jednak uznać to narzędzie za rzeczywiście przydatne do prawdziwej archeologii internetu. Cache podaje wersję poprzednią, wykonaną wtedy, kiedy ostatni raz Googlebot odwiedził stronę, indeksując jej zawartość. A zatem pamięć podręczna Google nie pozwala nam kopać wystarczająco głęboko dla prawdziwego amatora internetowych wykopalisk. Daje nam jedynie dostęp do najnowszej wersji strony, która w 99 proc. przypadków będzie dokładnie tą samą stroną, która działa w danej chwili.

Machina sieciowego czasu

Archeolog Internetu potrzebuje nie czegoś, co odsłoni najwyżej to, co było wczoraj, lecz chciałby wkopać się znacznie głębiej. Crawlery Internet Archive w odróżnieniu od robotów indeksujących Google’a skupiają się nie na wyszukiwaniu najnowszych wersji, lecz na „zatrzymywaniu w kadrze” i zapisie wersji historycznych. Serwis prowadzony jest przez organizację non-profit, która podjęła się zadania zachowania informacji cyfrowej dla przyszłych pokoleń. Gromadzi ona wszelkiego rodzaju dane - skany książek, filmy, nagrania audio, obrazy, a nawet programy komputerowe. A co najważniejsze dla nas, Internet Archive daje nam dostęp do sięgającej lat 90-tych historii sieci, mając już w bazie grubo prawie sześćset miliardów zapisanych stron internetowych. Można je przeszukiwać za pomocą strony internetowej Wayback Machine.

Serwis powstał w 1996 roku, czyli we właściwym, można powiedzieć, momencie. Upubliczniony został w 2001 roku, po pięciu latach zbierania danych. W 2016 roku pojawiła się bardziej zaawansowana wersja serwisu. Jak wspomniano wcześniej, Wayback Machine, trochę podobnie do Google, wykorzystuje bota do archiwizacji stron. Nawiguje on między stronami, korzystając z linków. I zapisuje wszystko, co znajdzie w tym procesie. Im więcej linków kierujących do strony z innych domen, tym większa szansa, że strona ta zostanie odkryta, czyli znów analogia do Google, ale z innym punktem ciężkości niż w wyszukiwarce. Dlatego duże i popularne strony mają większe szanse na bycie zapisanymi w sposób automatyczny. Natomiast niewielki blog osobisty może umknąć temu mechanizmowi. Dlatego Internet Archive zaprasza wszystkich do zgłaszania swoich stron do archiwum.

Aby znaleźć zarchiwizowane wersje jakiejś strony, trzeba wpisać jej adres URL w pasku wyszukiwania w Wayback Machine. Jeśli nie znamy dokładnego adresu, można spróbować wyszukać po słowach kluczowych, które powinien zawierać. Wynik ma postać graficznego kalendarza z zaznaczeniami. Demonstruje to, ile migawek danej strony zostało utworzonych w ciągu jednego roku. Po wybraniu roku, na kalendarzu poniżej osi czasu pojawiają się kropki, różnej wielkości i barwy. Kropka oznacza, że strona została zarchiwizowana w danym punkcie czasu, a wielkość kropki wskazuje, ile zrzutów zostało wykonanych dla danej daty. Dokładną liczbę można zobaczyć po prostu najeżdżając na kropkę. Kropki mogą mieć cztery różne kolory. Niebieska kropka wskazuje, że obiekt (adres URL) został pomyślnie odwiedzony i zarchiwizowany. Zielony punkt oznacza, że obiekt zawiera przekierowanie do innego snapshota (lub do innego obiektu, który może nie być dostępny w archiwum). Pomarańczowa kropka oznacza, że bot odwiedzając dany URL natrafił na błąd http. Czerwona zaś kropka to wskaźnik, że pojawił się błąd serwera, gdy bot próbował dotrzeć do oryginalnego adresu URL. Jedynymi więc kropkami, które zawierają przechowywane archiwa, są niebieskie. Pozostałe kolory mogą informować o napotkanych problemach lub zmianach w strukturze strony.

To co archeolog sieci otrzymuje po wejściu w zarchiwizowany punkt czasowy może być dość zbliżone do oryginalnej strony, jednak nie będzie to kopia jeden do jednego. Widać CSS i HTML oryginalnej strony, ale brakuje m. in. możliwości obsługi JavaScript. Innymi słowy, jeśli strona jest dynamiczna, oparta na skryptach, nie otrzymamy dokładnej kopii. Ponadto archiwum często ma problem z przechowywaniem obrazów. Pomimo swoich ograniczeń, narzędzie jest nadal niezwykle użyteczne i daje możliwość zbadania historii pojedynczej strony i jej ewolucji na przestrzeni lat (pod warunkiem, że istnieje wystarczająca ilość zarchiwizowanych danych). Można również uzyskać dostęp do podsumowania historii strony.

Zapiski na temat stron WWW

Internet Archive uchodzi za najbogatsze repozytorium historii Internetu. Ma jednak swoje ograniczenia i, jak wspominaliśmy nie pokazuje wszystkiego. Narzędzi przydatnych dla archeologów sieciowych jest więcej, ale jasno trzeba sobie powiedzieć, że każde ma ograniczenia i za pomocą żadnego pojedynczego narzędzia nie dotrzemy do całości zasobów historycznych WWW. Pomijając kwestię, czy zamierzenie znalezienia wszystkiego co kiedykolwiek ukazało się w sieci, jest w ogóle wykonalne, dość łatwo dojść do wniosku, że zwiększymy zakres znalezisk, jeśli skorzystamy nie z jednego a z kilku narzędzi, dodając kolejne obszary oferowane przez różne narzędzia.

Nie tyle alternatywą, ile innym sposobem utrwalania archiwaliów jest odpłatny serwis Stillio, który wykonuje regularne automatyczne zrzuty ekranowe stron internetowych. Jest to zasadniczo serwis komercyjny stworzony z myślą o webmasterach, specjalistach SEO itp., ale przez to, że gromadzi bazę wersji stron jest również narzędziem dla archeologów sieci. Podobnymi do Stillio rozwiązaniami są PageFreezer lub Domain Tools, w którym można również sprawdzić rekordy Whois, aby ustalić dane kontaktowe właściciela witryny, datę rejestracji domeny, jej historię IP i wiele innych.

Archiwa i muzea Internetu

Narzędziem do badania historii serwisów i domen jest archive.today. W porównaniu z Internet Archive nacisk kładzie się tu nie tylko na aspekty tekstowe, ale również przechowanie obrazów, o których każdy użytkownik Wayback Machine wie, że znikają znacznie częściej niż tekst. Serwis jest darmowy w użyciu, prosi jednak o darowizny bez których nie może funkcjonować.

Interfejs programistyczny API archive.today i Internet Archive jest wykorzystywany przez inne szperacze historyczne, np. Memento TimeTravel. Istnieją też lokalizowane wersje repozytoriów archiwalnych takie jak budowane przez British Library ukierunkowany na Internet brytyjski serwis - www.webarchive.org.uk, lub archiwum portugalskie arquivo.pt, które jak się w praktyce okazuje, potrafi również serwować polskie zasoby internetowe z dawnych lat.

Można się spodziewać, że z biegiem czasu i starzeniem się Internetu, rola historycznych archiwów, narzędzi pozwalających wejrzeć w dawne strony, zamierzchłe wersje i zapomniane publikacje, będzie rosła. Niewykluczone, że archeologia, historia i badanie dziejów sieci stanie się tak samo poważną dziedziną nauki jak historia wojen czy ekonomii a ludzie chętnie będą odwiedzać muzea artefaktów dawnego Internetu.

Z pewnością jej rola i umiejętności związane z przekopywaniem sieciowych archiwaliów zyskują i będą zyskiwać na znaczeniu.

O Autorze

Mirek Usidus Redaktor

Redaktor naczelny miesięcznika m.technik ("Młody Technik"). Dziennikarz i przedsiębiorca. Weteran Internetu. Współtwórca „Rzeczpospolitej" Online, portalu TVP, i wielu innych serwisów internetowych, ostatnio przede wszystkim fact-checkingowego - #FakeHunter.

Wybierz kontynent

powiem
polsce

powiem
polsce

Krótki kurs archeologii Internetowej

O Autorze

© PowiemPolsce.pl

Miejsca Polaków na świecie

Jesteś tutaj

powiem
polsce

Wybierz kontynent

powiem polsce

Krótki kurs archeologii Internetowej

O Autorze

© PowiemPolsce.pl

SAS wprowadza pakietowe modele AI do rozwiązań branżowych

PKO Bank Polski rozwija hiperpersonalizację, by tworzyć dla klientów indywidualne oferty

Hillstone Networks otrzymuje wyróżnienie reprezentatywnego dostawcy usług w przewodniku Gartner® Market Guide w segmencie rozwiązań z zakresu wykrywania i reagowania na zagrożenia w sieci

Bybit ustanawia wysokie standardy branżowe dzięki audytowi Proof of Reserves: zweryfikowano 40 tokenów

Miejsca Polaków na świecie

Zapisz się do newslettera

Jesteś tutaj

powiem
polsce