Co je to robots.txt a jak ho správně nastavit pro SEO i AI vyhledávání

Robots.txt je drobný textový soubor, který má obrovskou moc. Jedna špatně napsaná řádka v něm dokáže váš web doslova vymazat z Googlu – a v roce 2026 také z odpovědí ChatGPT, Perplexity nebo Claude. V tomto článku si vysvětlíme, co robots.txt je, jak funguje, co dělá v éře AI vyhledávání a jak ho nastavit ve WordPressu.

Co je to robots.txt jednoduše vysvětleno

Představte si, že máte dům s mnoha místnostmi a před vchodem visí cedule: „Vítejte. Do obývacího pokoje a kuchyně volně, do ložnice a sklepa nechoďte.“ Slušný návštěvník to respektuje, neslušný ne – ale alespoň ví, co od něj očekáváte.

Přesně tohle je robots.txt. Je to obyčejný textový soubor v kořenovém adresáři vašeho webu, který říká vyhledávacím a AI robotům, kam smí a kam ne. Najdete ho vždy na adrese:

https://vasedomena.cz/robots.txt

Důležité: Robots.txt je dobrovolný standard. Roboti ho mohou (a slušní také respektují), ale technicky donutit je k tomu nemůžete. Pro skrytí citlivého obsahu robots.txt nestačí – na to potřebujete heslo nebo serverovou ochranu.

Jak robots.txt vypadá

Základní robots.txt může vypadat takhle jednoduše:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://vasedomena.cz/sitemap_index.xml

Co jednotlivé řádky znamenají:

User-agent: – kterého robota se pravidlo týká. Hvězdička (*) znamená „všichni roboti“.
Disallow: – cesta, kam robot nesmí
Allow: – výjimka v rámci zakázané cesty (smí dovnitř)
Sitemap: – odkaz na vaši sitemapu (důležité pro objevení obsahu)

K čemu robots.txt slouží

1. Šetří crawl budget

Každý robot má omezený čas, který vašemu webu věnuje. Pokud ho zaměstnáte procházením administrace, technických stránek nebo duplicitních filtrů v e-shopu, na důležitý obsah už mu nemusí zbýt.

2. Skryje technické a interní stránky

Administrační rozhraní WordPressu, košík, výsledky vyhledávání na webu, testovací stránky – všechno to patří mimo veřejné výsledky vyhledávání.

3. Říká robotům, kde najdou sitemapu

Řádek Sitemap: v robots.txt slouží jako rozcestník. Roboti tak hned vědí, kde najít kompletní seznam stránek webu.

4. Nově: řídí přístup AI robotů

Tohle je největší změna posledních dvou let. Vedle klasických vyhledávačů na vás web posílají AI nástroje desítky vlastních robotů. Robots.txt je hlavní nástroj, kterým rozhodujete, kdo z nich má přístup.

AI roboti, které dnes potkáte

Tady je důležité vědět zásadní věc: AI firmy mají často dva nebo tři různé roboty. Jeden sbírá data pro trénování modelů, druhý vyhledává obsah pro odpovědi v reálném čase. Blokovat se dají nezávisle.

OpenAI (ChatGPT)

GPTBot – sbírá data pro trénování modelů
OAI-SearchBot – indexuje obsah pro vyhledávání v ChatGPT
ChatGPT-User – načítá stránky v reálném čase, když se ptá uživatel

Anthropic (Claude)

ClaudeBot – trénovací data pro modely Claude
Claude-SearchBot – indexace pro vyhledávání
Claude-User – načítání stránek na vyžádání uživatele

Google

Googlebot – klasický vyhledávač (NEBLOKOVAT)
Google-Extended – odděleně řídí trénování Gemini, neovlivňuje vyhledávání

Další významní

PerplexityBot – Perplexity (AI vyhledávač)
CCBot – Common Crawl, zdroj trénovacích dat pro mnoho AI modelů
Bytespider – ByteDance (TikTok)
Applebot-Extended – Apple Intelligence
Meta-ExternalAgent – Meta AI

Strategická volba: blokovat, povolit, nebo rozlišovat?

V roce 2026 už neplatí jednoduché „všechno blokovat“ nebo „všechno povolit“. Klíčové rozhodnutí stojí takto:

Vadí vám, že AI trénuje modely na vašem obsahu? Blokujte trénovací roboty (GPTBot, ClaudeBot, CCBot, Google-Extended).
Chcete, aby vás AI nástroje citovaly v odpovědích uživatelům? Povolte vyhledávací roboty (OAI-SearchBot, Claude-SearchBot, PerplexityBot).

Pokud blokujete všechno, vystřelujete si do vlastní nohy. Studie z roku 2026 ukazují, že weby, které blokují trénovací bot OpenAI, často omylem blokují i vyhledávací bot – a tím přicházejí o citace v ChatGPT odpovědích.

Tři typické scénáře

Scénář A: Marketingový web nebo e-shop (chci maximální viditelnost)

Povolte všechny roboty. Vaše obchodní stránky chtějí být vidět, citace v AI nástrojích znamenají potenciální klienty.

Scénář B: Vydavatel, který chrání obsah (chci být citován, ale ne použit pro trénování)

Zablokujte trénovací roboty (GPTBot, ClaudeBot, CCBot, Google-Extended), ale povolte vyhledávací (OAI-SearchBot, Claude-SearchBot, PerplexityBot, Googlebot).

Scénář C: Maximální ochrana (vůbec nechci AI na webu)

Blokujte všechny AI roboty. Vědomě se vzdáváte viditelnosti v AI nástrojích.

Praktické příklady robots.txt

Maximální AI viditelnost (běžná firma, e-shop)

User-agent: *
Allow: /
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://vasedomena.cz/sitemap_index.xml

Vyvážený přístup (povolit AI vyhledávání, blokovat trénování)

# Povolit standardní vyhledávače
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Povolit AI vyhledávací roboty (citace v odpovědích)
User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

# Blokovat trénovací roboty
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

# Standardní WordPress pravidla
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://vasedomena.cz/sitemap_index.xml

Plná blokace AI (vydavatel chrání obsah)

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-SearchBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Applebot-Extended
Disallow: /

# Klasické vyhledávání zachováno
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://vasedomena.cz/sitemap_index.xml

Jak robots.txt nastavit ve WordPressu

1. Vestavěný virtuální robots.txt

WordPress automaticky generuje základní virtuální robots.txt. Pokud na serveru fyzicky soubor robots.txt neexistuje, WordPress ho vytvoří dynamicky. Pro většinu webů je ale lepší mít vlastní – buď fyzicky nahraný, nebo upravený přes plugin.

2. Přes SEO plugin (doporučeno)

Hlavní SEO pluginy umějí robots.txt upravit přímo z administrace WordPressu:

Yoast SEO – Nástroje → Editor souborů → robots.txt
Rank Math – Obecná nastavení → Upravit robots.txt
All in One SEO – Tools → Robots.txt Editor

3. Ručně přes FTP

Vytvořte na svém počítači textový soubor s názvem robots.txt a nahrajte ho FTP klientem (FileZilla, WinSCP) nebo přes File Manager hostingu do kořenového adresáře webu (obvykle public_html/ nebo www/).

Jak robots.txt otestovat

Po každé úpravě si soubor ověřte – chyba v robots.txt může mít fatální dopad na viditelnost.

Otevřete v prohlížeči: vasedomena.cz/robots.txt – soubor musí být dostupný (HTTP 200) a obsah viditelný
Google Search Console – v sekci Nastavení → robots.txt vidíte, jestli ho Google čte správně
Bing Webmaster Tools – obdobný validátor pro Bing
Online robots.txt testery – například technicalseo.com/tools/robots-txt

Časté a nebezpečné chyby

Disallow: / pro všechny roboty. Nejhorší možná chyba. Klasicky vzniká při přechodu z testovací verze na produkci. Web zmizí z Googlu během dní.
Blokování CSS a JS souborů. Google potřebuje vidět styly a skripty, aby správně vyhodnotil mobilní použitelnost. Nikdy neblokujte /wp-content/ nebo /wp-includes/ jako celek.
Sitemapa s relativní URL. Vždy uvádějte absolutní URL: Sitemap: https://vasedomena.cz/sitemap.xml, ne /sitemap.xml.
Blokování stránek, které mají být deindexovány. Pokud chcete stránku vyhodit z indexu, použijte noindex meta tag, ne robots.txt. Když ji blokujete v robots.txt, Google se k noindex tagu nedostane a stránka v indexu zůstane.
Spoléhání na robots.txt jako bezpečnostní opatření. Robots.txt je veřejný soubor – kdokoli si ho může přečíst. Když do něj napíšete Disallow: /tajne-data/, sami říkáte, kde tato data hledat.
Záměna User-agent jmen. Roboti rozlišují velká a malá písmena v některých částech. Vždy používejte přesné názvy z oficiální dokumentace (GPTBot, ne gptbot nebo GPT-Bot).
Subdomény bez vlastního robots.txt. Každá subdoména (např. blog.vasedomena.cz) potřebuje svůj soubor. Robots.txt z hlavní domény pro subdoménu neplatí.

Robots.txt vs. další nástroje pro řízení robotů

Robots.txt není jediný způsob, jak řídit přístup. Pro úplný obraz:

Robots.txt – říká, kam smí robot vstoupit (před stažením stránky)
Meta tag noindex – říká, že stránku má robot stáhnout, ale neindexovat
Canonical tag – řeší duplicitní obsah (ukazuje hlavní verzi stránky)
HTTP heslo / .htaccess – skutečná ochrana citlivého obsahu
llms.txt – nový formát pro AI nástroje, neslouží k blokování, ale k navigaci

Závěr

Robots.txt je drobný soubor s velkými následky. V roce 2026 už neslouží jen k řízení Googlebota – stal se hlavním nástrojem, kterým rozhodujete, jak se vaším obsahem nakládá v éře AI. Špatně nastavený soubor vás může smazat z Googlu, nebo naopak udělat neviditelnými v ChatGPT a Perplexity.

Doporučení pro většinu firemních webů a e-shopů: povolte všechny vyhledávací a AI roboty, blokujte jen administraci a interní stránky. Pokud máte specifický důvod chránit obsah před trénováním AI modelů, zablokujte cíleně trénovací roboty, ale ponechte přístup vyhledávacím – ať vás AI nástroje můžou citovat.

Pravidlo na závěr: vždy si po každé změně otevřete vasedomena.cz/robots.txt v prohlížeči a přečtěte, co tam reálně je. Většina katastrofických chyb se dala odhalit za třicet vteřin.