Co je to robots.txt a jak ho správně nastavit pro SEO i AI vyhledávání
Robots.txt je drobný textový soubor, který má obrovskou moc. Jedna špatně napsaná řádka v něm dokáže váš web doslova vymazat z Googlu – a v roce 2026 také z odpovědí ChatGPT, Perplexity nebo Claude. V tomto článku si vysvětlíme, co robots.txt je, jak funguje, co dělá v éře AI vyhledávání a jak ho nastavit ve WordPressu.
Co je to robots.txt jednoduše vysvětleno
Představte si, že máte dům s mnoha místnostmi a před vchodem visí cedule: „Vítejte. Do obývacího pokoje a kuchyně volně, do ložnice a sklepa nechoďte.“ Slušný návštěvník to respektuje, neslušný ne – ale alespoň ví, co od něj očekáváte.
Přesně tohle je robots.txt. Je to obyčejný textový soubor v kořenovém adresáři vašeho webu, který říká vyhledávacím a AI robotům, kam smí a kam ne. Najdete ho vždy na adrese:
https://vasedomena.cz/robots.txt
Důležité: Robots.txt je dobrovolný standard. Roboti ho mohou (a slušní také respektují), ale technicky donutit je k tomu nemůžete. Pro skrytí citlivého obsahu robots.txt nestačí – na to potřebujete heslo nebo serverovou ochranu.
Jak robots.txt vypadá
Základní robots.txt může vypadat takhle jednoduše:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://vasedomena.cz/sitemap_index.xml
Co jednotlivé řádky znamenají:
- User-agent: – kterého robota se pravidlo týká. Hvězdička (*) znamená „všichni roboti“.
- Disallow: – cesta, kam robot nesmí
- Allow: – výjimka v rámci zakázané cesty (smí dovnitř)
- Sitemap: – odkaz na vaši sitemapu (důležité pro objevení obsahu)
K čemu robots.txt slouží
1. Šetří crawl budget
Každý robot má omezený čas, který vašemu webu věnuje. Pokud ho zaměstnáte procházením administrace, technických stránek nebo duplicitních filtrů v e-shopu, na důležitý obsah už mu nemusí zbýt.
2. Skryje technické a interní stránky
Administrační rozhraní WordPressu, košík, výsledky vyhledávání na webu, testovací stránky – všechno to patří mimo veřejné výsledky vyhledávání.
3. Říká robotům, kde najdou sitemapu
Řádek Sitemap: v robots.txt slouží jako rozcestník. Roboti tak hned vědí, kde najít kompletní seznam stránek webu.
4. Nově: řídí přístup AI robotů
Tohle je největší změna posledních dvou let. Vedle klasických vyhledávačů na vás web posílají AI nástroje desítky vlastních robotů. Robots.txt je hlavní nástroj, kterým rozhodujete, kdo z nich má přístup.
AI roboti, které dnes potkáte
Tady je důležité vědět zásadní věc: AI firmy mají často dva nebo tři různé roboty. Jeden sbírá data pro trénování modelů, druhý vyhledává obsah pro odpovědi v reálném čase. Blokovat se dají nezávisle.
OpenAI (ChatGPT)
- GPTBot – sbírá data pro trénování modelů
- OAI-SearchBot – indexuje obsah pro vyhledávání v ChatGPT
- ChatGPT-User – načítá stránky v reálném čase, když se ptá uživatel
Anthropic (Claude)
- ClaudeBot – trénovací data pro modely Claude
- Claude-SearchBot – indexace pro vyhledávání
- Claude-User – načítání stránek na vyžádání uživatele
- Googlebot – klasický vyhledávač (NEBLOKOVAT)
- Google-Extended – odděleně řídí trénování Gemini, neovlivňuje vyhledávání
Další významní
- PerplexityBot – Perplexity (AI vyhledávač)
- CCBot – Common Crawl, zdroj trénovacích dat pro mnoho AI modelů
- Bytespider – ByteDance (TikTok)
- Applebot-Extended – Apple Intelligence
- Meta-ExternalAgent – Meta AI
Strategická volba: blokovat, povolit, nebo rozlišovat?
V roce 2026 už neplatí jednoduché „všechno blokovat“ nebo „všechno povolit“. Klíčové rozhodnutí stojí takto:
- Vadí vám, že AI trénuje modely na vašem obsahu? Blokujte trénovací roboty (GPTBot, ClaudeBot, CCBot, Google-Extended).
- Chcete, aby vás AI nástroje citovaly v odpovědích uživatelům? Povolte vyhledávací roboty (OAI-SearchBot, Claude-SearchBot, PerplexityBot).
Pokud blokujete všechno, vystřelujete si do vlastní nohy. Studie z roku 2026 ukazují, že weby, které blokují trénovací bot OpenAI, často omylem blokují i vyhledávací bot – a tím přicházejí o citace v ChatGPT odpovědích.
Tři typické scénáře
Scénář A: Marketingový web nebo e-shop (chci maximální viditelnost)
Povolte všechny roboty. Vaše obchodní stránky chtějí být vidět, citace v AI nástrojích znamenají potenciální klienty.
Scénář B: Vydavatel, který chrání obsah (chci být citován, ale ne použit pro trénování)
Zablokujte trénovací roboty (GPTBot, ClaudeBot, CCBot, Google-Extended), ale povolte vyhledávací (OAI-SearchBot, Claude-SearchBot, PerplexityBot, Googlebot).
Scénář C: Maximální ochrana (vůbec nechci AI na webu)
Blokujte všechny AI roboty. Vědomě se vzdáváte viditelnosti v AI nástrojích.
Praktické příklady robots.txt
Maximální AI viditelnost (běžná firma, e-shop)
User-agent: *
Allow: /
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://vasedomena.cz/sitemap_index.xml
Vyvážený přístup (povolit AI vyhledávání, blokovat trénování)
# Povolit standardní vyhledávače
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Povolit AI vyhledávací roboty (citace v odpovědích)
User-agent: OAI-SearchBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
# Blokovat trénovací roboty
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
# Standardní WordPress pravidla
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://vasedomena.cz/sitemap_index.xml
Plná blokace AI (vydavatel chrání obsah)
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-SearchBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Applebot-Extended
Disallow: /
# Klasické vyhledávání zachováno
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://vasedomena.cz/sitemap_index.xml
Jak robots.txt nastavit ve WordPressu
1. Vestavěný virtuální robots.txt
WordPress automaticky generuje základní virtuální robots.txt. Pokud na serveru fyzicky soubor robots.txt neexistuje, WordPress ho vytvoří dynamicky. Pro většinu webů je ale lepší mít vlastní – buď fyzicky nahraný, nebo upravený přes plugin.
2. Přes SEO plugin (doporučeno)
Hlavní SEO pluginy umějí robots.txt upravit přímo z administrace WordPressu:
- Yoast SEO – Nástroje → Editor souborů → robots.txt
- Rank Math – Obecná nastavení → Upravit robots.txt
- All in One SEO – Tools → Robots.txt Editor
3. Ručně přes FTP
Vytvořte na svém počítači textový soubor s názvem robots.txt a nahrajte ho FTP klientem (FileZilla, WinSCP) nebo přes File Manager hostingu do kořenového adresáře webu (obvykle public_html/ nebo www/).
Jak robots.txt otestovat
Po každé úpravě si soubor ověřte – chyba v robots.txt může mít fatální dopad na viditelnost.
- Otevřete v prohlížeči:
vasedomena.cz/robots.txt– soubor musí být dostupný (HTTP 200) a obsah viditelný - Google Search Console – v sekci Nastavení → robots.txt vidíte, jestli ho Google čte správně
- Bing Webmaster Tools – obdobný validátor pro Bing
- Online robots.txt testery – například technicalseo.com/tools/robots-txt
Časté a nebezpečné chyby
- Disallow: / pro všechny roboty. Nejhorší možná chyba. Klasicky vzniká při přechodu z testovací verze na produkci. Web zmizí z Googlu během dní.
- Blokování CSS a JS souborů. Google potřebuje vidět styly a skripty, aby správně vyhodnotil mobilní použitelnost. Nikdy neblokujte
/wp-content/nebo/wp-includes/jako celek. - Sitemapa s relativní URL. Vždy uvádějte absolutní URL:
Sitemap: https://vasedomena.cz/sitemap.xml, ne/sitemap.xml. - Blokování stránek, které mají být deindexovány. Pokud chcete stránku vyhodit z indexu, použijte
noindexmeta tag, ne robots.txt. Když ji blokujete v robots.txt, Google se k noindex tagu nedostane a stránka v indexu zůstane. - Spoléhání na robots.txt jako bezpečnostní opatření. Robots.txt je veřejný soubor – kdokoli si ho může přečíst. Když do něj napíšete
Disallow: /tajne-data/, sami říkáte, kde tato data hledat. - Záměna User-agent jmen. Roboti rozlišují velká a malá písmena v některých částech. Vždy používejte přesné názvy z oficiální dokumentace (GPTBot, ne gptbot nebo GPT-Bot).
- Subdomény bez vlastního robots.txt. Každá subdoména (např. blog.vasedomena.cz) potřebuje svůj soubor. Robots.txt z hlavní domény pro subdoménu neplatí.
Robots.txt vs. další nástroje pro řízení robotů
Robots.txt není jediný způsob, jak řídit přístup. Pro úplný obraz:
- Robots.txt – říká, kam smí robot vstoupit (před stažením stránky)
- Meta tag noindex – říká, že stránku má robot stáhnout, ale neindexovat
- Canonical tag – řeší duplicitní obsah (ukazuje hlavní verzi stránky)
- HTTP heslo / .htaccess – skutečná ochrana citlivého obsahu
- llms.txt – nový formát pro AI nástroje, neslouží k blokování, ale k navigaci
Závěr
Robots.txt je drobný soubor s velkými následky. V roce 2026 už neslouží jen k řízení Googlebota – stal se hlavním nástrojem, kterým rozhodujete, jak se vaším obsahem nakládá v éře AI. Špatně nastavený soubor vás může smazat z Googlu, nebo naopak udělat neviditelnými v ChatGPT a Perplexity.
Doporučení pro většinu firemních webů a e-shopů: povolte všechny vyhledávací a AI roboty, blokujte jen administraci a interní stránky. Pokud máte specifický důvod chránit obsah před trénováním AI modelů, zablokujte cíleně trénovací roboty, ale ponechte přístup vyhledávacím – ať vás AI nástroje můžou citovat.
Pravidlo na závěr: vždy si po každé změně otevřete vasedomena.cz/robots.txt v prohlížeči a přečtěte, co tam reálně je. Většina katastrofických chyb se dala odhalit za třicet vteřin.