Historia Internetu sięga 1969 roku kiedy w ramach eksperymentu w czterech amerykańskich uniwersytetach zainstalowano pierwsze węzły sieci komputerowej o nazwie arpanet



Pobieranie 13.61 Kb.
Data02.05.2016
Rozmiar13.61 Kb.
Historia Internetu sięga 1969 roku kiedy w ramach eksperymentu w czterech amerykańskich uniwersytetach zainstalowano pierwsze węzły sieci komputerowej o nazwie ARPAnet. Jego celem było zbadanie możliwości zbudowania sieci bez kontrolującej ją komputera nadrzędnego, miało to zapewnić działanie sieci pomimo awarii części węzłów. Eksperyment zakończył się sukcesem. W roku 1971 Ray Tomlison jeden z inżynierów pracujących nad rozwojem ARPAnet tworzy program do przesyłania wiadomości elektronicznych (e-mail). Przez kolejne lata dodawano do niej nowe węzły, a w roku 1973 ARPAnet staje się globalna po przyłączeniu węzłów w Wielkiej Brytanii i Norwegii. W roku 1979 przedstawiono USENET pierwowzór wszystkich grup dyskusyjnych stosowanych w Internecie. Kolejnym ważnym wydarzeniem w historii Internetu było opracowanie protokołu TCP który umożliwił szybsze oraz bardziej efektywne przesyłanie danych w sieci, dzięki temu komunikacja wewnątrz sieci stała się bardziej zaawansowana. ARPAnet nie była siecią dostępną dla wszystkich, dlatego w 1981 powstaje sieć dla naukowców uniwersyteckich CSNET (Computer Science NETwork). Krokiem milowym było opracowanie w 1982 protokołów internetowych znanych pod nazwą TCP/IP i zastosowanie ich w ARPAnet, wiąże się z tym jedna z wczesnych definicji Internetu będącym zbiorem sieci. W tym samym czasie w Europie powstała sieć EUnet, udostępniająca swoim użytkownikom usługi USENET i e-mail. Za początek Internetu w dzisiejszym kształcie uważany jest rok 1984 w którym ARPAnet i CSNET zostają połączone za pomocą protokołu TCP/IP. W październiku 1991 roku zostaje przedstawiona najpopularniejsza usługa Internetu – World Wide Web, często mylnie utożsamiana z samym Internetem. W końcu lat 90 XX wieku Internet przeżywa prawdziwy boom, liczba stron internetowych zaczyna gwałtownie rosnąć, a dostęp do Internetu ma coraz więcej użytkowników.

World Wide Web możemy podzielić na dwa rozłączne zbiory zasobów „Surface Web” oraz „Deep Web”. Pierwszy zbiór odnosi się do części WWW która jest indeksowana przez konwencjonalne wyszukiwarki internetowe. Druga grupa zawiera zasoby ukryte przed wyszukiwarkami takie jak:



  • zasoby generowane dynamicznie,

  • zasoby do których nie ma linków,

  • zasoby zabezpieczone hasłem,

  • zasoby nietekstowe (np. obrazy, wideo)

  • zasoby których przeszukiwanie zostało zabronione.

WWW to ogromny wolumen danych którego faktyczne rozmiary są nieznane, możliwa jest jednak aproksymacja jego rozmiaru. Szacowana liczba dokumentów „Deep Web” w 2000 roku to 550 miliardów, rozmiar przechowywanych danych to 7,500 terabajtów.1 Szacunki oparte na badaniach Uniwersytetu Kalifornijskiego w Berkeley podają, że obszar WWW niedostępny dla wyszukiwarek to 91000 terabajtów, dla porównania „Surface Web” szacowany jest na 167 terabajtów danych2, niestety źródło nie podaje do którego roku odnoszą się te liczby. Ogrom informacji jakie udostępnia nam WWW na dzień dzisiejszy oddaje najlepiej informacja z 25 lipca 2008 podana na oficjalnym blogu wyszukiwarki internetowej Google o ponad 1 bilionie (1,000,000,000,000) unikatowych adresów URL na które natrafił system do przeszukiwania Internetu3, nie należy jednak mylić tej liczby z liczbą dokumentów. Dobrą aproksymacją może być również liczba stron zindeksowanych przez tą przeglądarkę: w 1998 roku było to 26 milionów, w 2000 roku 1 miliard, a w 2006 roku ok. 25 miliardów. Podane liczby świadczą również o tendencji do bardzo szybkiego wzrostu liczby stron internetowych. Kolejną interesującą statystyką jest liczba serwerów zawierających strony internetowe comiesięczny przegląd prowadzony jest przez Netcraft począwszy od 1995 roku. Ilość serwerów w Grudniu 2008 wynosiła ok. 186 milionów.



Wykres 1. Liczba serwerów WWW

Na powyższym wykresie możemy zauważyć systematyczny i szybki wzrost ilości serwerów WWW w Internecie. W kolejnych latach spodziewać się możemy dalszego wzrostu zarówno liczby dokumentów jak i liczby serwerów.

Tak duża ilość informacji oraz ich ciągły wzrost wymuszają na użytkownikach Internetu korzystanie z wyszukiwarek internetowych, umożliwiają one praktycznie natychmiastowy dostęp do pożądanych informacji. Niestety przy częstym korzystaniu z współczesnych wyszukiwarek można zauważyć pewne ich mankamenty. Preferowane są duże serwisy, często powtarzają się pewne strony internetowe dla różnych zapytań, które mogą nie zawierać żadnych wartościowych informacji. Dużym problemem są strony „udające”, że posiadają informacje na dany temat, które tak naprawdę są zbiorami bezwartościowych linków i reklam (to wyświetlanie reklam jest tak naprawdę przyczyną ich umieszczenia w Internecie). Powodem takiego zachowania typowych wyszukiwarek jest tak zwane wyszukiwanie poziome, po podaniu hasła przeszukiwany jest cały zbiór zindeksowanych przez nią stron bez uwzględnienia konkretnej kategorii stron które nas interesują, w rezultacie otrzymujemy bardzo duży, niewygodny w przeglądaniu zbiór wyników. Zupełnie pominięty przez twórców wyszukiwarek jest kontekst historyczny który mógłby być pomocny dla użytkowników Internetu. Interesującą funkcją byłoby zaznaczenie przy wyniku źródeł dla danej strony, tzn. stron internetowych które również zawierają dane hasło i do których dana strona zawiera odnośnik.

W odpowiedzi na problemy powstałe w wyniku przeszukiwania poziomego rosnącą popularnością w ostatnim czasie cieszą się tak zwane wyszukiwarki wertykalne (pionowe), które ograniczają się do wyszukiwania w pewnym konkretnym zbiorze kategorii lub stron internetowych, mamy np. wyszukiwarki przepisów kulinarnych, wyszukiwarkę artykułów w Wikipedii itp. Nie opracowano jednak jak dotąd wyszukiwarki wertykalnej rozwiązującej problem braku kontekstu czasowego.

W związku z powyższym koniecznością wydaje się stworzenie algorytmów przeszukiwania Internetu w głąb z uwzględnieniem zarówno czasu utworzenia danych stron w Internecie, jak i powiązań między nimi. Algorytm taki pozwalałby nie tylko na rozszerzenie funkcjonalności wyszukiwarek, ale także na analizę rozprzestrzeniania się danego pojęcia w Internecie, co byłoby szczególnie ciekawe.

Celem pracy było zaprojektowanie i implementacja wertykalnej wyszukiwarki internetowej nazwanej GeoTracker Past pozwalającej na analizę rozprzestrzeniania się pojęć w Internecie. Zaprojektowany system podzieliliśmy na trzy moduły: moduł zbierający dane, moduł przetwarzający dane oraz moduł wizualizacyjny. Pierwszy z nich zawiera w sobie pająka implementującego algorytm pionowego przeszukiwania Internetu, zbiera on dane odnośnie daty powstania dokumentu, powiązań między dokumentami a także położenia geograficznego serwera (szerokość i długość geograficzna). Analiza danych zebranych przy pomocy opracowanego przez nas algorytmu, ujawniła pewne podstawowe modele rozprzestrzeniania się informacji w Internecie, które można z powodzeniem porównać do modeli rozprzestrzeniania się chorób zakaźnych. Zebranie odpowiednio dużej liczby danych przyporządkowanych do konkretnych wzorców umożliwiłoby predykcje dalszego rozprzestrzeniania się danego pojęcia w Internecie. Ponadto moduł zbierający jest rozbudowany o możliwość pozyskania podstawowych statystyk dla Wikipedii jeśli dane pojęcie się w niej znajduje. Moduł wizualizacyjny to aplikacja internetowa która pozwala na wyświetlenie przetworzonych wyników wyszukiwania. Przedstawia ona w postaci strony internetowej wizualizację wyników wyszukiwania w intuicyjny i przejrzysty dla użytkownika końcowego sposób.

Tezą naszej pracy inżynierskiej jest istnienie wzorców rozprzestrzeniania sie pojęć w Internecie.

Struktura dokumentu jest następująca… [TODO]



[Podział pracy]

1 Bergman, Michael K. (August 2001). "The Deep Web: Surfacing Hidden Value". The Journal of Electronic Publishing

2 http://en.wikipedia.org/wiki/Deep_web

3 http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html


©absta.pl 2016
wyślij wiadomość

    Strona główna