Testuj reguły robots.txt natychmiast. Wklej plik, wybierz robota i zobacz dokładnie, które URL‑e są dozwolone lub zablokowane.
| Line | Directive | Value | Applies To | Status |
|---|
Idź dalej niż testowanie. OneStepToRank stale monitoruje, jak wyszukiwarki przeszukują i indeksują Twoją witrynę, informując Cię o zmianach w rankingach w całym obszarze usług.
RozpocznijPlik robots.txt to prosty dokument tekstowy umieszczony w katalogu głównym Twojej witryny, który przekazuje instrukcje indeksowania botom wyszukiwarek. Gdy robot taki jak Googlebot odwiedza Twoją stronę, pierwszą rzeczą, którą sprawdza, jest https://yoursite.com/robots.txt. Plik informuje robota, które strony lub katalogi może odwiedzić, a które powinien pominąć. Mechanizm ten jest znany jako Robots Exclusion Protocol, standard używany od 1994 roku.
Chociaż robots.txt nie wymusza kontroli dostępu (złośliwy bot może go zignorować), wszystkie główne wyszukiwarki i renomowane roboty AI szanują go. Poprawne skonfigurowanie robots.txt jest kluczowe dla kontrolowania tego, co jest indeksowane, ochrony wrażliwych katalogów, zarządzania budżetem indeksacji oraz zapobiegania wykorzystywaniu Twoich treści do treningu modeli AI.
To narzędzie analizuje Twój robots.txt zgodnie z tymi samymi zasadami, które stosuje Googlebot, w tym następujące kluczowe zachowania:
User-agent: *.*) pasuje do dowolnej sekwencji znaków. Znak dolara ($) przytwierdza wzorzec do końca URL. Na przykład Disallow: /*.pdf$ blokuje wszystkie URL‑e kończące się na .pdf.User-agent, Disallow) nie rozróżniają wielkości liter, ale ścieżki URL są dopasowywane z uwzględnieniem wielkości liter.Wraz ze wzrostem popularności dużych modeli językowych, wielu właścicieli witryn chce zapobiec wykorzystywaniu ich treści jako danych treningowych. Główne firmy AI wprowadziły specyficzne ciągi user-agent, które możesz zablokować:
Możesz zablokować wszystkie roboty AI, jednocześnie pozwalając robotom wyszukiwarek indeksować Twoją witrynę. Skorzystaj z tego testera, aby zweryfikować działanie reguł, oraz z naszego Generatora robots.txt, aby od podstaw stworzyć prawidłowo sformatowany plik.
Nawet doświadczeni webmasterzy popełniają te błędy w robots.txt:
Disallow: /admin blokuje zarówno /admin, jak i /admin/page, ale także /administrator. Użyj /admin/, aby być bardziej precyzyjnym.Połącz tego testera z naszym Generatorem Schema oraz Podglądem SERP, aby zapewnić, że wyszukiwarki mogą zarówno uzyskać dostęp, jak i atrakcyjnie wyświetlać Twoje treści.
Plik robots.txt to zwykły plik tekstowy umieszczony w katalogu głównym Twojej witryny (np. example.com/robots.txt), który informuje roboty wyszukiwarek, które strony mogą, a które nie mogą odwiedzić. Opiera się na protokole Robots Exclusion Protocol i jest pierwszym plikiem, który roboty sprawdzają przed skanowaniem witryny.
Robots.txt obsługuje dwa znaki wildcard: gwiazdka (*) dopasowuje dowolną sekwencję znaków, a znak dolara ($) przytwierdza dopasowanie do końca URL. Na przykład „Disallow: /*.pdf$” blokuje wszystkie URL‑e kończące się na .pdf, natomiast „Disallow: /private*” blokuje każdą ścieżkę URL zaczynającą się od /private.
To zależy od Twojej strategii treści. Blokowanie robotów AI zapobiega wykorzystywaniu Twoich treści do trenowania modeli językowych. Wielu wydawców blokuje te roboty, aby chronić oryginalne materiały, podczas gdy inni pozwalają im na szerszą widoczność. Możesz selektywnie blokować roboty AI, jednocześnie zezwalając tradycyjnym robotom wyszukiwarek.
Nie całkowicie. robots.txt uniemożliwia robotom odczytanie treści Twojej strony, ale Google może nadal zindeksować sam URL, jeśli inne witryny do niego linkują. Wynik pojawi się z informacją, że opis jest niedostępny. Aby całkowicie zapobiec indeksowaniu, użyj meta tagu „noindex” lub nagłówka X-Robots-Tag w dodatku do robots.txt.