Przygotowując stronę internetową bardzo ważnym elementem jest jej promocja. Najpopularniejszą metodą promocji stron internetowych dzisiaj próba podniesienia jej pozycji w wyszukiwarkach internetowych, takich jak Bing czy Google. Taki proces nazywa się SEO, czyli z angielskiego Search Engine Optimization. Jak już sama nazwa wskazuje, cały proces jest skierowany na optymalizację strony w taki sposób, żeby jak najlepiej była rozpoznawalna przez wyszukiwarki. Bardzo istotnym elementem takiego procesu jest plik robots i na nim skupimy się tym artykule.
Czym są roboty wyszukiwarek i jak się z nimi komunikować
Jeżeli zastanawiasz się w jaki sposób odbywa się indeksowanie stron internetowych przez silniki wyszukiwarek to odpowiedź masz w tytule. Wyszukiwarki posługują się robotami, które wędrują po czeluściach Internetu, wyszukując treści, do której potem mogą linkować. Robot taki, odwiedzając stronę internetową, stara się pozyskać możliwie najwięcej informacji o witrynie i o podstronach, które należą do tej witryny właśnie. Oczywiście przekazywanie informacji robotom nie odbywa się w języku naturalnym. Właśnie w tym celu używamy pliku robots.txt, który powinien być zgodny ze standardem Robot Exclusion Protocol. W tym właśnie pliku umieszczamy informacje o tym w jakim kierunku bot powinien poruszać się po naszej witrynie, a co ważniejsze, jakie podstrony i elementy należy pomijać. Warto jednak w tym miejscu zaznaczyć, że pomimo ogromnych możliwości jakie daje ten plik, w pracy z nim należy zachować dużą ostrożność. Aby poprawnie go używać należy znać strukturę witryny, ponieważ możemy nieświadomie zablokować botom dostęp do całej strony.
Tworzenie pliku robots. txt
No dobrze, to skoro już sobie powiedzieliśmy jak bardzo istotnym plikiem jest robots. txt to może teraz warto zastanowić się w jaki sposób możemy go stworzyć. W tym miejscu mam bardzo dobrą wiadomość, mianowicie praktycznie nigdy nie tworzy się tego pliku ręcznie. Istnieje bardzo duża liczba programów typu robots.txt generator, które w błyskawiczny sposób generują podstawowy plik robots. txt. Co więcej, większość systemów zarządzania stroną internetową ma takie programy wbudowane. Jeżeli, na przykład, mówimy o stronie opartej o WordPress to mamy do wyboru bardzo wiele wtyczek typu generator robots.txt WordPress, które automatycznie tworzą i aktualizują plik robots.txt. Wszystko to sprawia, że stworzenie pliku robots. txt jest banalnie proste, a często nie wymaga nawet od nas żadnego wysiłku.
To co warto wiedzieć o tym pliku?
Pomimo tego, że bardzo prosto jest stworzyć taki plik, nie powinno to nas w żadnym razie zniechęcać do zapoznania się ze strukturą samego pliku. Wiąże się to z faktem, że często się zdarza sytuacja, w której możemy mieć wątpliwości co do jego poprawnego działania, a wtedy warto by było mieć możliwość otworzyć ten plik i zrozumieć czy jest powód, żeby się martwić.
Reguła I: User-agent
Pierwszą regułą, którą znajdziemy w pliku jest User-agent, który określa adresata komendy. Tutaj podajemy nazwę bota do którego adresujemy plik. Wystarczy jednak wpisać w tym miejscu symbol gwiazdki (‘*’), aby przekazać informację, że chcemy komunikować się ze wszystkimi botami.
Reguła II: Disallow
Kolejną regułą znajdującą się w pliku jest reguła Disallow, przy której trzeba zachować szczególną ostrożność. Nieodpowiednio napisana formuła, może doprowadzić do sytuacji, w której nasz plik powie botowi Disallow All, przez co nic na naszej stronie nie będzie indeksowane. W tej regule powinno się podawać katalogi lub pliki, które chcemy ukryć przed botem. Katalogi możemy blokować poprzez zapis typu: Disallow: /katalog/ – dzięki któremu zablokujemy dostęp do całego katalogu, lub inaczej: Disallow: /katalog/plik.html, przez co zablokujemy dostęp do pojedynczego pliku.
Reguła III: Allow
Reguła Allow, pozwala nam na odblokowanie pojedynczych katalogów lub plików w katalogach, które zablokowaliśmy w poprzedniej regule. Jeżeli reguła poprzednia pozostanie pusta, to nie ma potrzeby dodawania informacji do tej reguły, żeby bot zrozumiał, że witryna ma status Allow All, czyli udostępnia do skanowania całą swoją zawartość.
Reguła IV: Sitemap
Ostatnią regułą, którą możemy, ale nie musimy podawać jest reguła robots.txt sitemap, czyli podanie ścieżki do mapy naszej witryny internetowej. Sitemap, czyli mapa witryny to plik zawierający informacje o wszystkich adresach URL naszej witryny. Plik ten pozwala na ułatwienie robotom analizy naszej witryny.
Co dalej z plikiem, kiedy jest już gotowy?
Kiedy skończymy już pracę nad plikiem robots.txt, to możemy sprawić czy nie pojawi się żaden błąd, kiedy sprawdzimy naszą witrynę przy pomocy programu walidator w3c. Kiedy upewnimy się, że wszystko jest poprawnie, to plik robots.txt umieszczamy w głównym katalogu naszej witryny. Dostęp do niego powinien być dostępny z linku: http://www.AdresNaszejStrony.pl/robots.txt .
Jako, że największe wyszukiwarki, takie jak Google czy Bing stosują się do instrukcji zebranych w pliku robots.txt, to bez wątpienia warto poświęcić czas na poprawne przygotowanie pliku.