AiPress
Připravte svůj WordPress na AI éru.

Indexovatelnost: jak ovládat canonical tagy, sitemap a noindex ve WordPressu

Můžete mít skvělý obsah, perfektní design a dokonalé SEO – ale pokud Google a AI nástroje nemohou vaše stránky najít a zařadit do indexu, nikdo se k nim nedostane. Indexovatelnost je technický základ celého SEO. V roce 2026 jsou indexační signály ještě důležitější díky AI vyhledávačům, které si vybírají, koho citovat, podle kanonických URL a strukturovaných dat. V tomto článku si vysvětlíme, jak fungují canonical tagy, kdy použít noindex, jak udržet sitemap.xml čistý a jak ve WordPressu kontrolovat, co se indexuje a co ne.

Co je indexovatelnost

Než se dostaneme k technickým detailům, vyjasníme si tři pojmy, které se často zaměňují:

  • Crawlability (procházatelnost) – jestli vyhledávací roboti vůbec mohou na vaši stránku dorazit. Řídí se přes robots.txt a interní odkazy.
  • Indexability (indexovatelnost) – jestli mohou vaši stránku přidat do svého indexu (databáze stránek, ze které vybírají výsledky). Řídí se přes meta robots, canonical tagy, status kódy.
  • Ranking – jestli a jak vysoko se vaše stránka zobrazí ve výsledcích. Řídí se stovkami faktorů.

Tyto tři vrstvy jdou v pořadí: bez crawlability není indexability, bez indexability není ranking. Web může selhat na kterékoli z nich. Většina technických SEO auditů najde problémy hned na první nebo druhé úrovni.

Klíčové pravidlo: blokovat stránku v robots.txt nezabrání její indexaci. Pokud na ni vede nějaký odkaz, Google ji může indexovat, jen nebude znát její obsah. Pro skutečné zabránění indexaci slouží noindex direktiva.

Canonical tagy: která verze je „originál“

Canonical tag je krátký kus HTML kódu, který říká Googlu: „Z těchto podobných nebo identických stránek je tahle ta hlavní.“ Vypadá takto:

<link rel="canonical" href="https://vasedomena.cz/clanek/" />

Umístí se do hlavičky <head> dokumentu.

Kdy canonical tag potřebujete

  • Stránky s URL parametry. vasedomena.cz/produkt/?ref=email vs. vasedomena.cz/produkt/ – obsahově identické, technicky dvě URL.
  • Filtry a třídění v e-shopu. ?color=red, ?sort=price – mohou generovat tisíce variant.
  • Variantní produkty. Stejné triko v 5 barvách jako 5 různých URL.
  • HTTP vs. HTTPS, www vs. non-www. Technicky čtyři různé URL pro stejnou stránku.
  • Tracking parametry z UTM. ?utm_source=newsletter – obsahově nic nemění.
  • Print/PDF verze stránky, pokud existují.
  • Syndikovaný obsah. Když svůj článek publikujete na partnerském webu, oba mají canonical na váš originál.

Self-referencing canonical

Každá stránka by měla mít canonical tag i sama na sebe (tzv. self-referencing canonical):

<!-- Stránka https://vasedomena.cz/clanek/ má v <head>: -->
<link rel="canonical" href="https://vasedomena.cz/clanek/" />

Vypadá to redundantně, ale je to správně. Self-canonical chrání před náhodnými duplicitami (např. když někdo přidá tracking parametr do URL).

Pravidla pro canonical targets

URL, na kterou canonical odkazuje, musí splňovat:

  • Vrátit HTTP 200 (nesmí to být 404, redirect ani 410)
  • Nesmí být blokovaná v robots.txt
  • Nesmí mít noindex direktivu
  • Měla by být indexovatelná a finální verze

Důležité: Canonical je doporučení, ne příkaz. Google může váš canonical ignorovat, pokud ostatní signály (interní odkazy, sitemap, redirecty) říkají něco jiného. Proto musí být všechny signály konzistentní.

Pagination v roce 2026: zásadní změna

Pokud máte na webu stránkování (seznam článků/produktů rozdělený na stránky 1, 2, 3…), pravidla se v posledních letech zásadně změnila.

Co už neplatí

  • rel="prev" a rel="next" – Google oficiálně přestal tyto signály používat. Nepoškozují, ale ani nepomáhají.
  • Canonical všech paginovaných stránek na stránku 1 – velká chyba! Říkáte tím Googlu, že stránky 2, 3, 4… jsou duplicity stránky 1, a obsah na nich Google nezindexuje.

Co platí v roce 2026

  • Každá paginovaná stránka má self-canonical na sebe samotnou:
<!-- /blog/page/2/ má v <head>: -->
<link rel="canonical" href="https://vasedomena.cz/blog/page/2/" />
  • Každá paginovaná stránka je indexovatelná (žádný noindex)
  • Mezi stránkami jsou viditelné HTML odkazy (ne jen JavaScript)

Důvod: pokud máte v archivu 200 článků a v paginated pages 2, 3, 4 jsou unikátní články, které by jinak Google nenašel, tyto stránky musí být indexovatelné. Jinak ztrácíte discoverability hloubkového obsahu. Stejně to platí pro AI nástroje – když všechny paginated URL canonicalizujete na stránku 1, AI nástroje vidí jen první stránku obsahu.

Meta robots: noindex, nofollow a další direktivy

Meta robots tag je instrukce pro vyhledávače umístěná v hlavičce stránky:

<meta name="robots" content="noindex, follow" />

Obsahuje dvě hlavní instrukce: jestli stránku indexovat a jestli následovat odkazy z ní.

Čtyři základní kombinace

  • index, follow – výchozí stav. Indexovat stránku a následovat odkazy. Většina stránek.
  • noindex, follow – neindexovat stránku, ale následovat odkazy. Pozor: Google v dlouhodobém horizontu interpretuje „noindex, follow“ stejně jako „noindex, nofollow“. Po čase přestane odkazy sledovat.
  • noindex, nofollow – neindexovat ani nesledovat odkazy. Pro úplně skryté stránky.
  • index, nofollow – indexovat, ale nesledovat odkazy. Vzácně používané (např. sponzorovaný obsah).

Kdy použít noindex

  • Děkovací stránky po odeslání formuláře nebo objednávce
  • Admin a login stránky (pokud nejsou už blokované)
  • Filtrované URL v e-shopu (?color=red, ?size=L)
  • Interní vyhledávací výsledky (/?s=hledany-text)
  • Tagové archivy, pokud generují tenký obsah
  • Staging a testovací prostředí
  • Duplicitní stránky, kde nemůžete použít canonical (např. dvě úplně různé stránky o podobném tématu)
  • Stránky s tenkým obsahem, které nepřinášejí hodnotu

X-Robots-Tag: noindex přes HTTP hlavičku

Pro non-HTML soubory (PDF, obrázky, video) nemůžete použít meta tag. Místo toho server pošle informaci v HTTP hlavičce:

X-Robots-Tag: noindex, nofollow

Užitečné když chcete například skrýt PDF dokumenty z vyhledávání. Ve WordPressu se nastavuje přes .htaccess nebo plugin (např. Yoast SEO Premium).

Robots.txt vs. noindex: zásadní rozdíl

Tohle pochopit je klíčové, protože tady spousta lidí dělá chybu.

  • robots.txt říká: „Tuto stránku nenavštěvuj.“ Roboti tam nepůjdou, ale URL může být známá z odkazů jinde a může být v indexu uvedená (jen bez obsahu).
  • noindex říká: „Stránku navštívíš, ale nezařadíš ji do indexu.“ Robot stránku navštíví, přečte direktivu a stránku nezindexuje.

Klasická chyba: Chcete stránku odstranit z Googlu, tak ji blokujete v robots.txt. Výsledek: Google na ni nemůže ani dorazit, takže neuvidí váš noindex tag a stránka může v indexu zůstat dál.

Správný postup:

  1. Přidejte na stránku noindex meta tag
  2. Počkejte, až Google stránku znovu navštíví a noindex načte
  3. poté, co stránka vypadne z indexu, můžete ji případně blokovat v robots.txt

Sitemap.xml: přesný seznam toho, co chcete indexovat

Sitemap.xml je strukturovaný seznam URL, které chcete, aby vyhledávače znaly. Pomáhá hlavně velkým a komplexním webům, ale i malým ulehčuje práci.

Co MUSÍ a NESMÍ být v sitemap

Sitemap by měl obsahovat:

  • Pouze URL, které vrací HTTP 200
  • Pouze canonical, indexovatelné URL
  • Pouze HTTPS verze
  • Přesné lastmod datum (kdy se obsah skutečně změnil, ne dnešní datum vždy)

Sitemap by NEMĚL obsahovat:

  • Stránky s noindex direktivou
  • URL s redirecty (301, 302)
  • 404 a 410 stránky
  • Stránky blokované v robots.txt
  • Non-canonical varianty (parametry, filtry)

Pokud máte víc než 50 000 URL, rozdělte sitemap do více souborů a propojte je sitemap indexem.

Sitemap ve WordPressu

WordPress od verze 5.5 generuje vestavěný sitemap na /wp-sitemap.xml. Pro většinu webů je to dostačující, ale SEO pluginy nabízí pokročilejší kontrolu:

  • Yoast SEO – generuje rozdělený sitemap (post, page, kategorie, tagy)
  • Rank Math – pokročilá kontrola, můžete vyloučit konkrétní typy obsahu
  • All in One SEO – obdobné funkce

Po každé větší změně sitemapu jej znovu odešlete v Search Console → Sitemapy.

Indexovatelnost ve WordPressu: praktické tipy

Kontrola „Discourage search engines“

Naprosto nejčastější WordPress chyba: v Nastavení → Čtení je zaškrtnuté „Vyžádat si od vyhledávačů, aby tento web neindexovaly“. Po launchi nového webu se na to zapomene a celý web zůstane neviditelný.

Vždy po spuštění zkontrolujte:

  1. Toto pole musí být odškrtnuté
  2. Otevřete zdrojový kód libovolné stránky a zkontrolujte, že NENÍ <meta name="robots" content="noindex">

Canonical přes SEO plugin

Všechny moderní SEO pluginy (Yoast, Rank Math, AIOSEO) automaticky generují self-referencing canonical pro každou stránku. Můžete je v editoru přepsat:

  • Yoast SEO: v editoru → záložka Pokročilé → Canonical URL
  • Rank Math: v editoru → SEO panel → Pokročilé → Canonical URL

Noindex přes SEO plugin

Pro jednotlivé stránky:

  • Yoast: záložka Pokročilé → Povolit vyhledávačům zobrazit tento příspěvek? → Ne
  • Rank Math: SEO panel → Pokročilé → Robots Meta → No Index

Pro celé typy obsahu (např. všechny tagy):

  • Yoast: SEO → Search Appearance → Taxonomies → Tags → Show Tags in search results → No
  • Rank Math: Titles & Meta → Taxonomies → Tags

Co typicky noindexovat ve WordPressu

  • Author archives, pokud máte jediného autora
  • Datumové archivy (/2024/01/, /2024/)
  • Tag archives s méně než 3–5 příspěvky
  • Search results page (/?s=...)
  • Děkovací stránky po formulářích
  • Stránky s tenkým obsahem, které nemůžete vylepšit

Jak ověřit, co je v indexu

Google Search Console

Hlavní zdroj informací:

  • Indexace stránek – přehled, kolik stránek je indexovaných a proč ne
  • Sitemapy – stav vašich odeslaných sitemapů
  • URL Inspection Tool – kontrola konkrétní URL: jestli je indexovaná, kdy byla naposledy procházena, jaký je její canonical

Site: operátor

Rychlá kontrola v Googlu:

site:vasedomena.cz

Ukáže (přibližně), které stránky vašeho webu má Google v indexu. Pro konkrétní URL:

site:vasedomena.cz/clanek/

Specializované crawlery

  • Screaming Frog SEO Spider – sekce „Directives“ ukazuje canonical, noindex a další tagy napříč celým webem
  • Sitebulb – vizualizace indexovatelnosti
  • Ahrefs Site Audit – přehled indexačních problémů

Indexovatelnost a AI vyhledávače

V éře AI vyhledávání má kanonikalizace ještě jeden rozměr. AI nástroje (ChatGPT, Perplexity, Google AI Overviews) potřebují jednoznačně určit, která verze obsahu je „pravá“:

  • Citace správné URL. Když AI nástroj cituje váš obsah, musí citovat tu správnou (canonical) URL, ne variantu s parametrem.
  • Konsolidace autority. AI nechce váhat mezi pěti URL s podobným obsahem – chce jasný hint, kterou považovat za zdroj.
  • Eliminace duplicit. AI prochází limitované množství stránek. Když je polovina vašeho webu duplicita, AI vidí jen polovinu reálného obsahu.

Obsah, který nemá jasnou kanonickou URL, AI nástroje typicky neciuje – preferují jasné, autoritativní zdroje.

Časté chyby v indexovatelnosti

  • Globální noindex po launchi. Klasika. WordPress má v Nastavení → Čtení zaškrtnutý „Discourage search engines“ a celý web je neviditelný.
  • Canonical na noindex stránku. Říkáte tím Googlu „indexuj tuhle URL“, ale ta má noindex. Konflikt, který zmate algoritmus.
  • Canonical na 404 nebo redirect. Cíl canonical musí vrátit 200.
  • Rozporné signály. Sitemap obsahuje URL, která má noindex. Interní odkazy směřují na variantu, kterou jste canonicalizovali jinam.
  • Blokování v robots.txt místo noindex. Klasická chyba popsaná výše.
  • Zapomenutý noindex po staging migraci. Vývojář nasadil web ze staging prostředí a zapomněl noindex odstranit.
  • Pagination canonicalizovaná na stránku 1. Ztráta hloubkového obsahu.
  • Canonical přes JavaScript. Funguje, ale ne spolehlivě. Vždy v initial HTML.
  • Sitemap obsahuje 404 a redirecty. Plýtvá crawl budgetem.
  • Indexace tagů a kategorií s tenkým obsahem. Snižuje celkovou kvalitu webu v očích Googlu.

Akční audit indexovatelnosti

  1. Search Console → Indexace stránek. Kolik stránek je indexovaných? Kolik je v „Vyloučeno“? Co tvoří hlavní problémy?
  2. Spusťte Screaming Frog a zkontrolujte sekci Directives. Jsou všechny canonical správně? Není někde nečekaný noindex?
  3. Porovnejte sitemap s realitou. Obsahuje jen indexovatelné URL? Žádné 404, redirecty, noindex?
  4. Zkontrolujte WordPress → Nastavení → Čtení. „Discourage search engines“ musí být odškrtnuté.
  5. Auditujte robots.txt. Neblokuje nějakou důležitou sekci? Neblokuje CSS/JS soubory?
  6. Vyřešte konflikty. Sitemap × noindex, canonical × noindex, robots.txt × noindex.
  7. Noindexujte tenký obsah. Tagy s 1–2 příspěvky, prázdné kategorie, search results.

Závěr

Indexovatelnost je jako traffic dispatcher pro vyhledávače – říkáte jim, co indexovat, co ignorovat a kterou verzi považovat za hlavní. V roce 2026 jsou tyto signály ještě důležitější díky AI nástrojům, které citují konkrétní kanonické URL a potřebují jasnou strukturu vašeho obsahu.

Klíč je v konzistenci všech signálů: canonical, sitemap, interní odkazy, robots.txt a meta robots se musí shodovat. Když jsou v rozporu, Google si vybere podle vlastního uvážení – a to často není to, co byste chtěli.

Akční plán:

  1. Zkontrolujte WordPress nastavení (Discourage search engines vypnuté)
  2. Implementujte self-referencing canonical na všech stránkách (přes SEO plugin)
  3. Auditujte sitemap.xml – obsahuje jen indexovatelné URL?
  4. Noindexujte tenký nebo duplicitní obsah
  5. Zkontrolujte pagination – self-canonical, ne odkaz na stránku 1
  6. Sledujte Search Console → Indexace stránek měsíčně
  7. Po každé větší změně proveďte crawl Screaming Frogem
  8. Vyřešte konflikty mezi signály (canonical × noindex × sitemap)

Pravidlo na závěr: indexovatelnost je o jasnosti komunikace s vyhledávači. Když jim řeknete přesně, co chcete a co nechcete v indexu, dostanete čistší ranking, lepší crawl efficiency a vyšší AI viditelnost. Když jim posíláte rozporuplné signály, vybírají si sami – a často špatně.