Robots.txt
Domena zazwyczaj zawiera kilka katalogów i stron. Jednak nie wszystkie strony i katalogi powinny być indeksowane przez wyszukiwarki. Za pomocą pliku robots.txt można wykluczyć te treści.
Co to jest plik robots.txt?
Plik robots.txt jest prostym plikiem tekstowym. W tym pliku, webmasterzy mogą zdefiniować, które strony domeny mogą być indeksowane przez roboty indeksujące wyszukiwarek, takie jak Google bot, a które strony mają być wykluczone. Za pomocą tych plików całe domeny, poszczególne strony lub katalogi i podkatalogi mogą zostać wyłączone z indeksowania przez boty wyszukiwarek.
Tworzenie i zawartość pliku robots.txt
Plik tekstowy robotów może być utworzony za pomocą dowolnego edytora tekstu i zapisany w formacie zwykłego tekstu. Plik robots zawiera dwa komponenty. Po pierwsze, specyfikacja agenta użytkownika, dla którego przeznaczone są poniższe instrukcje. Po tym następuje instrukcja „disallow”, a następnie określenie stron lub katalogów, które mają być wykluczone z indeksowania.
Najprostsza struktura pliku tekstowego robotów
User-agent: Googlebot
Nie zezwalaj: /
Zawartość ta uniemożliwia botowi Googleprzeszukiwanie całej domeny.
Inne roboty, którym można przekazać instrukcje
- Googleobraz bota z Google
- Slurp z Yahoo
- Bingbot z Bing
- Adsbot z Google Ads
Plik robots.txt musi być zawsze przechowywany w katalogu głównym domeny. Jest to jedyne miejsce, w którym crawlery szukają tego pliku.
Więcej informacji na ten temat można znaleźć tutaj:
https://support.google.com/robots.txt
https://support.google.com/google-crawler
https://support.google.com/googlebot-image
https://help.yahoo.com/slurp
https://www.bing.com/toolbox/bingbot
Masz jeszcze jakieś pytania?