Darmowe narzędzie do testowania robots.txt | OneStepToRank

Tester robots.txt

Testuj reguły robots.txt natychmiast. Wklej plik, wybierz robota i zobacz dokładnie, które URL‑e są dozwolone lub zablokowane.

Wklej swój robots.txt

1

Test Result

Podświetlony robots.txt

Analiza reguł

Line Directive Value Applies To Status

Wskazówki analizy

Monitoruj Zdrowie indeksacji

Idź dalej niż testowanie. OneStepToRank stale monitoruje, jak wyszukiwarki przeszukują i indeksują Twoją witrynę, informując Cię o zmianach w rankingach w całym obszarze usług.

Rozpocznij

Czym jest plik robots.txt?

Plik robots.txt to prosty dokument tekstowy umieszczony w katalogu głównym Twojej witryny, który przekazuje instrukcje indeksowania botom wyszukiwarek. Gdy robot taki jak Googlebot odwiedza Twoją stronę, pierwszą rzeczą, którą sprawdza, jest https://yoursite.com/robots.txt. Plik informuje robota, które strony lub katalogi może odwiedzić, a które powinien pominąć. Mechanizm ten jest znany jako Robots Exclusion Protocol, standard używany od 1994 roku.

Chociaż robots.txt nie wymusza kontroli dostępu (złośliwy bot może go zignorować), wszystkie główne wyszukiwarki i renomowane roboty AI szanują go. Poprawne skonfigurowanie robots.txt jest kluczowe dla kontrolowania tego, co jest indeksowane, ochrony wrażliwych katalogów, zarządzania budżetem indeksacji oraz zapobiegania wykorzystywaniu Twoich treści do treningu modeli AI.

Jak działa parser robots.txt

To narzędzie analizuje Twój robots.txt zgodnie z tymi samymi zasadami, które stosuje Googlebot, w tym następujące kluczowe zachowania:

  • Dopasowanie User-agent: Parser najpierw szuka sekcji skierowanej do wybranego konkretnego robota. Jeśli nie znajdzie takiego dopasowania, przechodzi do sekcji z wildcardem User-agent: *.
  • Priorytet Allow vs. Disallow: Gdy zarówno reguła Allow, jak i Disallow pasują do tego samego URL, zwycięża najdokładniejsza reguła (ta o najdłuższej pasującej ścieżce). Jeśli mają taką samą długość, priorytet ma Allow.
  • Obsługa wildcardów: Gwiazdka (*) pasuje do dowolnej sekwencji znaków. Znak dolara ($) przytwierdza wzorzec do końca URL. Na przykład Disallow: /*.pdf$ blokuje wszystkie URL‑e kończące się na .pdf.
  • Rozróżnianie wielkości liter: Nazwy dyrektyw (User-agent, Disallow) nie rozróżniają wielkości liter, ale ścieżki URL są dopasowywane z uwzględnieniem wielkości liter.

Blokowanie robotów AI w robots.txt

Wraz ze wzrostem popularności dużych modeli językowych, wielu właścicieli witryn chce zapobiec wykorzystywaniu ich treści jako danych treningowych. Główne firmy AI wprowadziły specyficzne ciągi user-agent, które możesz zablokować:

  • GPTBot i ChatGPT-User – roboty OpenAI służące do treningu modeli i przeglądania sieci przez ChatGPT.
  • ClaudeBot i Claude-Web – roboty Anthropic używane do zbierania danych treningowych Claude oraz dostępu do sieci.
  • CCBot – bot Common Crawl, którego zestaw danych jest wykorzystywany do trenowania wielu modeli open‑source.
  • Google-Extended – opcja Google umożliwiająca wyłączenie z treningu Gemini AI (oddzielna od indeksowania przez Googlebot).
  • PerplexityBot – robot Perplexity AI używany w ich produkcie wyszukiwania.
  • Bytespider – bot ByteDance, powiązany z działaniami AI TikTok.

Możesz zablokować wszystkie roboty AI, jednocześnie pozwalając robotom wyszukiwarek indeksować Twoją witrynę. Skorzystaj z tego testera, aby zweryfikować działanie reguł, oraz z naszego Generatora robots.txt, aby od podstaw stworzyć prawidłowo sformatowany plik.

Typowe błędy w robots.txt

Nawet doświadczeni webmasterzy popełniają te błędy w robots.txt:

  • Blokowanie plików CSS i JS: Google musi renderować Twoje strony, aby zrozumieć ich zawartość. Blokowanie arkuszy stylów lub JavaScript może zaszkodzić Twoim pozycjom.
  • Używanie robots.txt zamiast noindex: robots.txt zapobiega crawlowaniu, a nie indeksowaniu. Strona zablokowana w robots.txt może nadal pojawiać się w wynikach wyszukiwania (bez fragmentu), jeśli inne witryny do niej linkują.
  • Zapominanie o ukośniku na końcu: Disallow: /admin blokuje zarówno /admin, jak i /admin/page, ale także /administrator. Użyj /admin/, aby być bardziej precyzyjnym.
  • Brak testów po zmianach: Jedna literówka może przypadkowo zablokować całą witrynę. Zawsze testuj przy użyciu narzędzia takiego jak to po edycji.

Połącz tego testera z naszym Generatorem Schema oraz Podglądem SERP, aby zapewnić, że wyszukiwarki mogą zarówno uzyskać dostęp, jak i atrakcyjnie wyświetlać Twoje treści.

Najczęściej zadawane pytania

Czym jest plik robots.txt?

Plik robots.txt to zwykły plik tekstowy umieszczony w katalogu głównym Twojej witryny (np. example.com/robots.txt), który informuje roboty wyszukiwarek, które strony mogą, a które nie mogą odwiedzić. Opiera się na protokole Robots Exclusion Protocol i jest pierwszym plikiem, który roboty sprawdzają przed skanowaniem witryny.

Jak działają wildcardy w robots.txt?

Robots.txt obsługuje dwa znaki wildcard: gwiazdka (*) dopasowuje dowolną sekwencję znaków, a znak dolara ($) przytwierdza dopasowanie do końca URL. Na przykład „Disallow: /*.pdf$” blokuje wszystkie URL‑e kończące się na .pdf, natomiast „Disallow: /private*” blokuje każdą ścieżkę URL zaczynającą się od /private.

Czy powinienem blokować roboty AI, takie jak GPTBot i ClaudeBot?

To zależy od Twojej strategii treści. Blokowanie robotów AI zapobiega wykorzystywaniu Twoich treści do trenowania modeli językowych. Wielu wydawców blokuje te roboty, aby chronić oryginalne materiały, podczas gdy inni pozwalają im na szerszą widoczność. Możesz selektywnie blokować roboty AI, jednocześnie zezwalając tradycyjnym robotom wyszukiwarek.

Czy robots.txt zapobiega wyświetlaniu stron w Google?

Nie całkowicie. robots.txt uniemożliwia robotom odczytanie treści Twojej strony, ale Google może nadal zindeksować sam URL, jeśli inne witryny do niego linkują. Wynik pojawi się z informacją, że opis jest niedostępny. Aby całkowicie zapobiec indeksowaniu, użyj meta tagu „noindex” lub nagłówka X-Robots-Tag w dodatku do robots.txt.