Jak działają roboty wyszukiwarek ?

Żeby ktokolwiek mógł znaleźć nasza stronę przy pomocy wyszukiwarki internetowej najpierw musi ona znaleźć się w indeksie wyszukiwarki, czyli inaczej mówiąc musi zostać zaindeksowana przez specjalny program zwany robotem (inna nazwa: bot, pająk, crawler). Roboty wyszukiwarek mają za zadanie nieustannie przeszukiwanie Internetu. Wyszukiwarka wysyła robota na konkretną stronę, robot odczytuje jej zawartość, a następnie podąża za linkami umieszczonymi na stronie, odczytując zawartość witryn, do których linki te prowadzą.

Zebrane informacje są indeksowane, katalogowane i umieszczane w bazach danych wyszukiwarki. W indeksie wyszukiwarki umieszczane są również kopie stron. Umożliwia to wyświetlenie strony z pamięci podręcznej wyszukiwarki. Należy pamiętać jednak, że kopia odtwarzana z pamięci podręcznej może różnić się od aktualnej strony. Niektóre wyszukiwarki indeksują zawartość całej strony WWW, inne tylko strony głównej. Aby indeksy wyszukiwarek pozostały aktualne, roboty regularnie, co jakiś czas ustalany przez algorytm wyszukiwarki odwiedzają wszystkie strony. Strony gdzie treść zmienia się często np. serwisy informacyjne mogą być odwiedzane przez roboty nawet, co 5–10 minut. Serwisy, które rzadziej aktualizują swoją treść, nie są stale monitorowane. Robot może odwiedzić je raz na dzień lub raz na kilka dni. Każde wejście robota na daną stronę nazywamy crawl. Zmiany są zapisywane i uwzględniane w zaktualizowanym indeksie.

Informacje zebrane przez roboty podczas crawlingu poddawane są analizie specjalnym algorytmom opracowującym wynik, który jest zwracany w wyszukiwarkach internetowych. Algorytmy wyliczają wagę serwisu rozwiązując równania nawet z 500 milionami zmiennych i 2 miliardami terminów.

Podstawowym kryterium jest liczba odnośników prowadzących do danej strony. Każdy z nich jest liczony jako jeden głos. Oprócz analizy wyników "metody głosowania" brana jest np. pod uwagę zależność między wyrazami ze strony głównej i podstronami serwisu.

Algorytmy analizujące są pilnie strzeżoną tajemnicą firmy rozwijającej daną wyszukiwarkę. Można jedynie domyślać się, na co zwracana jest uwaga i jaka jest tego waga podczas analizy. Bardzo duże znaczenie dla wysokiej oceny ma częstotliwość aktualizacji, wiek serwisu, a także charakter witryny.

Głównymi czynnikami wpływającymi na pozycję strony w większości popularnych wyszukiwarek internetowych są:

  • Liczba i jakość linków prowadzących do strony
  • Słowa kluczowe w linkach prowadzących do strony
  • Budowa kodu strony (np.: stosunek treści do kodu)
  • Treść strony (np.: hierarchia nagłówków)
  • Popularność domeny głównej

Oczywiście różne wyszukiwarki stosują różne algorytmy, stąd też wyniki wyszukiwania dla tych samych kryteriów różnią się w różnych wyszukiwarkach. Nie tylko algorytmy, ale również sposób działania robotów poszczególnych wyszukiwarek może się różnić. Jedne wyszukiwarki będą przeglądały większą liczbę stron inne z kolei mogą częściej aktualizować treść na stronach.

Kolejną sprawą, o której należy pamiętać to zamieszczanie przekazywanych treści w innej postaci niż tekst. Wyszukiwarki mają problemy z niektórymi elementami strony:

  • Grafika – wyszukiwarki nie widzą słów kluczowych i tekstu zawartego w obrazkach czy menu graficznym. To ważne w przypadku, jeśli budujesz bogatą w grafikę stronę.
  • Strony wykonane w technologii flash – niektóre wyszukiwarki odczytują flash jako grafikę, przez co roboty nie mogą odczytać tekstu i skategoryzować strony wg słów kluczowych. Dodatkowo wyszukiwarki często „mylą” przekierowania ze stron flash ze spamem. Podczas projektowania własnej strony należy pamiętać, że strony zbudowane w technologii flash są efektowne, ale z punktu widzenia pozycjonowania - nieefektywne.
  • PDF-y – dokumenty w formacie PDF rzadko pojawiają się w wynikach wyszukiwania. Dzieje się tak, dlatego, że zazwyczaj występują one również w wersji HTML, a wyszukiwarki wolą unikać duplikujących się wyników wyszukiwania.

Aby zobaczyć jak robot „widzi” stronę, należy wyświetlić stronę z pamięci podręcznej (CACHE:adres_strony), a następnie kliknąć odnośnik „Wersja tekstowa”. Wiele stron źle napisanych witryn (np. stosujących menu graficzne) ładnie wyglądają dla człowieka, ale są kompletnie nieczytelne dla robota wyszukiwarki.

Dodatkowo należy sobie uświadomić, że roboty nie potrafią indeksować niepoliniowanych plików, więc ominą te, które leżą sobie "luzem" w katalogach na serwerze.

Pliki, do których prowadzą linki zostaną zaindeksowane przez robota chyba, że zażyczymy sobie inaczej. Webmaster może kontrolować, które pliki są odwiedzane przez roboty edytując plik robots.txt (który znajduje się na serwerze), bądź też implementując odpowiednie meta tagi.