AiPress

Jak AI vyhledávače vybírají zdroje: co rozhoduje o tom, koho ChatGPT a Perplexity citují

Publikováno:
·
Aktualizováno:
·

Když se zeptáte ChatGPT na nejlepší CRM pro malou firmu, dostanete odpověď s konkrétními doporučeními a citacemi zdrojů. Ale jak AI rozhodla, že cituje právě tyto weby a ne jiné? Proč váš konkurent s horším obsahem v odpovědi je, a vy ne? Odpověď se skrývá v procesu zvaném RAG – Retrieval-Augmented Generation. V tomto článku si vysvětlíme, jak tento proces funguje krok za krokem, čím se liší u ChatGPT, Perplexity, Claude a Google AI Overviews – a hlavně, co z toho plyne pro váš web.

Stručná odpověď

AI vyhledávače nepoužívají PageRank ani backlinky. Používají RAG (Retrieval-Augmented Generation) – proces, kdy AI nejdřív vyhledá relevantní webové stránky, pak z nich extrahuje klíčové pasáže a nakonec z nich sestaví odpověď. Pro citaci musí váš obsah projít pěti filtry:

  1. Být v indexu AI systému (crawlovatelný, rychlý, HTTPS)
  2. Být sémanticky relevantní pro dotaz (ne klíčová slova, ale význam)
  3. Být snadno extrahovatelný (jasné H2 sekce, krátké definiční věty)

Realita 2026: Pouze 12 % URL citovaných AI nástroji se překrývá s top 10 pozicemi v Googlu. AI vybírá jinak než Google – a pochopení tohoto procesu je základ celého GEO.

Auditovat web

H2: Proč musíte pochopit, jak AI vybírá zdroje

Většina rad o GEO optimalizaci říká „co dělat“ – přidejte schema, napište FAQ, budujte autoritu. Ale málokdo vysvětluje „proč to funguje“. Bez pochopení mechaniky za AI odpověďmi optimalizujete naslepo.

Klíčový fakt: podle analýzy Ahrefs se pouze 12 % URL citovaných AI nástroji překrývá s top 10 výsledky v Googlu. Zbylých 88 % citací pochází ze stránek, které v klasickém Googlu vůbec nejsou na první stránce. To znamená, že AI vyhledávače používají zásadně jiná kritéria než klasický Google – a právě ta si teď vysvětlíme.

H2: Co je RAG (Retrieval-Augmented Generation)

RAG je technologie, kterou používá většina moderních AI vyhledávačů. Název popisuje přesně to, co dělá: nejdřív vyhledá (retrieval) relevantní informace z webu, pak je předá jazykovému modelu, který z nich vygeneruje (generation) koherentní odpověď.

Proč RAG existuje: Jazykové modely (LLM) jako GPT nebo Claude mají obrovské znalosti z trénovacích dat, ale ty mohou být zastaralé – model neví, co se stalo včera. RAG tento problém řeší tím, že model doplní o čerstvé informace z webu v reálném čase.

Jednoduchá analogie: Představte si studenta, který píše seminární práci. Má v hlavě obecné znalosti z přednášek (trénovací data). Ale pro konkrétní práci si otevře knihovnu, najde relevantní knihy, přečte klíčové pasáže a pak napíše práci, ve které na ty knihy odkazuje. RAG je přesně tento proces – ale za 2 sekundy místo 2 týdnů.

H2: 5 kroků RAG pipeline: od dotazu k odpovědi

Celý proces od okamžiku, kdy uživatel napíše dotaz, do okamžiku, kdy dostane odpověď s citacemi, probíhá v pěti krocích:

Krok 1: Parsování dotazu (Query Processing) Uživatel napíše: „Jaký je nejlepší WordPress hosting pro malý e-shop?“ AI systém tento dotaz rozloží na více dílčích vyhledávání – například „WordPress hosting srovnání 2026″, „WooCommerce hosting doporučení“, „managed WordPress hosting cena“. Tento rozklad (query fan-out) zajistí, že AI pokryje téma z více úhlů.

Krok 2: Vyhledání zdrojů (Retrieval) AI systém prohledá svůj index webových stránek. Používá dvě metody současně: sémantické vyhledávání (hledá stránky, které odpovídají významem, ne jen klíčovými slovy) a lexikální vyhledávání (hledá přesné shody slov a frází). Kombinace obou metod zajistí, že AI najde relevantní zdroje i tehdy, když používáte jiná slova než uživatel.

Krok 3: Hodnocení a filtrování (Ranking) Z desítek až stovek nalezených stránek AI vybere 5–15 nejlepších. Hodnotí podle: sémantické relevance (jak přesně obsah odpovídá na dotaz), čerstvosti (kdy byl naposledy aktualizován), strukturální kvality (jasné nadpisy, krátké odstavce, definice), autority zdroje (E-E-A-T signály, citation density) a engagement signálů (jak se na stránce chovají reální uživatelé).

Krok 4: Sestavení kontextu (Context Assembly) Toto je klíčový krok, který většina lidí nechápe. AI nevloží do modelu celé webové stránky – extrahuje z nich krátké pasáže (chunks), typicky úseky textu pod H2 nadpisy. Tyto chunky předá jazykovému modelu spolu s citačními značkami. Citace nejsou přidávány až po napsání odpovědi – jsou součástí vstupu od začátku.

Krok 5: Generování odpovědi (Generation) Jazykový model sestaví koherentní odpověď z předložených chunků. Každé tvrzení propojí s konkrétním zdrojem. Pokud si zdroje protiřečí, model typicky preferuje ten s vyšší autoritou nebo novějším datem. Výsledek: uživatel dostane plynulou odpověď s číslovanými citacemi.

H2: Čím se liší jednotlivé AI platformy

Každá AI platforma používá RAG trochu jinak. Pro GEO optimalizaci je důležité vědět, kde se liší:

ChatGPT (OpenAI) Používá vlastní crawler (OAI-SearchBot) plus partnerství s Bingem. Kombinuje trénovací data s real-time vyhledáváním. Pro konverzační dotazy často odpovídá z paměti (trénovacích dat) bez vyhledávání – citace přidává jen když aktivně hledá. Má přes 900 milionů týdenních uživatelů.

Klíčové pro GEO: ChatGPT je ovlivnitelný hlavně přes brand authority a zmínky na autoritativních zdrojích. Silná přítomnost na Redditu, v odborných publikacích a na LinkedIn zvyšuje šanci na citaci.

Perplexity Postavený od základu jako vyhledávač s RAG architekturou. Každý dotaz prochází kompletním RAG pipeline – na rozdíl od ChatGPT vždy vyhledává v reálném čase. Má vlastní index přes 50 miliard stránek. Cituje zdroje u každé odpovědi, s inline citacemi přímo v textu. Zpracovává přibližně 780 milionů dotazů měsíčně.

Klíčové pro GEO: Perplexity preferuje obsah s konkrétními čísly, viditelnými zdroji, pojmenovanými autory a čerstvým datem. Viditelný rok „2026″ v obsahu zvyšuje šanci na citaci přibližně o 30 %.

Google AI Overviews Nepoužívá RAG v čisté formě – místo toho rozšiřuje klasický Google index o generativní vrstvu. Jeden dotaz rozloží na více poddotazů (query fan-out) a odpověď sestaví z podmnožiny indexovaných stránek s explicitními citacemi. Zobrazuje se na přibližně 16 % dotazů.

Klíčové pro GEO: 85 % zdrojů citovaných v AI Overviews pochází z top 10 pozic v klasickém Googlu. Tady klasické SEO přímo ovlivňuje AI viditelnost – na rozdíl od ChatGPT a Perplexity.

Claude (Anthropic) Primárně pracuje s trénovacími daty (cutoff květen 2025). Pro aktuální informace používá web search, ale méně agresivně než Perplexity. Claude-SearchBot indexuje obsah pro vyhledávání, Claude-User načítá stránky na vyžádání uživatele.

Klíčové pro GEO: Claude klade vysoký důraz na přesnost a E-E-A-T signály. Obsah s viditelným autorem, citacemi zdrojů a doloženými fakty má u Claude výrazně vyšší šanci na citaci.

Microsoft Copilot Postavený na Bing indexu. Kombinuje Bing vyhledávání s GPT modelem. Optimalizace pro Bing je přímý páka na viditelnost v Copilotu – a tím nepřímo i v ChatGPT (který Bing také využívá).

H2: Co rozhoduje o tom, jestli vás AI cituje

Na základě výzkumů a analýz citačních vzorců z roku 2026 víme, že AI systémy hodnotí zdroje podle pěti hlavních kritérií:

1. Sémantická relevance (ne klíčová slova) AI nehledá přesnou shodu klíčových slov. Hledá význam. Stránka o „WordPress hostingu pro malé firmy“ může být citována na dotaz „kam hostovat WooCommerce e-shop“, i když neobsahuje slovo „WooCommerce“. Důsledek: neoptimalizujte pro jedno klíčové slovo, pokrývejte téma do šíře.

2. Strukturální extrahovatelnost AI rozsekává stránky na chunky podle H2 nadpisů. Každý chunk musí dávat smysl samostatně – bez kontextu zbytku stránky. Stránka s jasnou hierarchií H1 → H2 → H3 a krátkými definičními větami pod každým H2 je pro AI mnohem snáze zpracovatelná než nepřerušený proud textu.

3. Autorita a důvěryhodnost (E-E-A-T) AI křížově ověřuje informace. Pokud tvrzení na vašem webu potvrzují nezávislé zdroje, AI mu přiřadí vyšší důvěru. Pojmenovaný autor s doloženou kvalifikací, viditelné credentials, citace na primární zdroje – to vše zvyšuje šanci na citaci. 96 % AI Overview citací jde na zdroje se silným E-E-A-T.

4. Čerstvost obsahu AI preferuje aktuální zdroje. 50 % citací Perplexity pochází z obsahu mladšího než 18 měsíců. Viditelné datum aktualizace na stránce i v schema markup (dateModified) je důležitý signál. Obsah s viditelným „2026″ datem má u Perplexity přibližně o 30 % vyšší šanci na citaci.

5. Technická přístupnost Pomalý web AI crawler nedokončí procrawlovat. JavaScript-rendered obsah AI nemusí vidět. Chybějící HTTPS snižuje důvěryhodnost. Zablokovaní AI crawleři v robots.txt znamenají nulovou viditelnost. Technická základna (Core Web Vitals, mobile-friendly, HTTPS, správný robots.txt) je prerekvizita.

H2: Proč klasické SEO triky v AI nefungují

Výzkum CMU (KDD 2024) formalizoval důležitý závěr: tradiční SEO taktiky mají „malý až žádný efekt“ na generativní vyhledávače. Konkrétně:

  • Keyword stuffing – AI hodnotí sémantický význam, ne hustotu klíčových slov. Opakování fráze „nejlepší WordPress hosting“ 15× v textu AI nepomůže.
  • Backlink farming – AI nepoužívá PageRank. Tisíc backlinků z generických katalogů nezvýší šanci na citaci.
  • Thin content s mnoha stránkami – AI nehledá „nejobsáhlejší web“. Hledá nejlepší odpověď na konkrétní otázku. Deset kvalitních stránek porazí sto povrchních.
  • Meta tag optimization – AI nečte meta descriptions pro rozhodování o citaci. Čte samotný obsah stránky.

Co naopak funguje: jasné definiční věty (definition-lead sentences), strukturované H2 sekce odpovídající na konkrétní otázky, FAQ s krátkými odpověďmi, citace důvěryhodných zdrojů, pojmenovaní autoři s doloženou kvalifikací.

H2: Praktický důsledek: jak strukturovat obsah pro RAG

Teď, když víte, jak RAG funguje, tady je přesný recept na obsah, který AI snadno extrahuje a cituje:

Každý H2 = jedna otázka, jedna odpověď H2 nadpis formulujte jako otázku nebo téma, které uživatel hledá. První odstavec pod H2 = kompletní odpověď v 40–60 slovech (definition-lead sentence). Zbytek sekce rozvíjí detail, příklady, kontext.

Proč to funguje: Když AI rozsekává stránku na chunky, H2 definuje hranice chunku. Pokud chunk začíná přímou odpovědí, AI ji může rovnou extrahovat a citovat.

Fakta a čísla místo obecností „Doručujeme rychle“ je pro AI nepoužitelné. „Doručujeme do 24 hodin po celé ČR, do SR do 48 hodin“ je citovatelné. AI preferuje konkrétní, ověřitelná tvrzení.

Citujte důvěryhodné zdroje Když v textu odkážete na studii, oficiální dokumentaci nebo statistiku z důvěryhodného zdroje, AI to vnímá jako signál kvality. Necitovaná tvrzení mají nižší šanci na extrakci.

FAQ sekce jako „answer buffet“ FAQ s FAQPage schema je pro RAG pipeline ideální formát – každá otázka+odpověď je přirozený chunk, který AI může přímo převzít. Proto jsou stránky s FAQ schema citovány o 40 % častěji.

H2: Jak si ověřit, že RAG váš web „vidí“

Nejjednodušší test: zeptejte se přímo AI nástrojů na otázky, na které váš web odpovídá.

Test v ChatGPT: Napište: „Co je [vaše téma]? Uveď zdroje.“ Podívejte se, jestli vás cituje. Pokud ne, zkuste: „Co říká web [vaše doména] o [tématu]?“ – tím zjistíte, jestli AI váš web vůbec zná.

Test v Perplexity: Stejný postup, ale Perplexity cituje vždy – takže vidíte, kdo je citován místo vás. Analyzujte, čím se ty citované zdroje liší od vašeho webu.

Test v Google AI Overviews: Vyhledejte svůj klíčový dotaz v Googlu. Pokud se zobrazí AI Overview, podívejte se na citované zdroje. Jsou tam vaše stránky?

Systematické sledování: Pro průběžné měření existují nástroje jako Semrush AI Visibility, Profound, Otterly, Scrunch nebo ZipTie. Sledují citace vašeho webu napříč AI platformami automaticky.

H2: Závěr: RAG mění pravidla hry

RAG pipeline je motor celého AI vyhledávání. Pochopení jeho pěti kroků – parsování dotazu, vyhledání zdrojů, hodnocení, sestavení kontextu, generování odpovědi – vám dává jasný rámec pro optimalizaci.

Klíčové poučení: AI nevybírá „nejlepší web“. Vybírá nejlepší odpověď na konkrétní otázku z webu, kterému důvěřuje. To znamená, že můžete vyhrát nad většími konkurenty, pokud máte na konkrétní otázku lepší, jasnější a lépe strukturovanou odpověď – podloženou autoritou a ověřitelnou nezávislými zdroji.

Pravidlo na závěr: v klasickém SEO soutěžíte o pozici. V GEO soutěžíte o důvěru. AI systém, který skládá odpověď z deseti zdrojů, vás buď zahrne, nebo ne – a rozhoduje podle toho, jestli váš obsah projde všemi pěti filtry RAG pipeline. Pozice v Googlu je jen jeden z nich.

Časté dotazy

Co je RAG jednoduše?

RAG (Retrieval-Augmented Generation) je proces, kdy AI nejdřív vyhledá relevantní webové stránky, pak z nich extrahuje klíčové pasáže a nakonec z nich sestaví odpověď s citacemi. Je to motor, kterým funguje ChatGPT Search, Perplexity, Google AI Overviews i Claude.

Používají všechny AI platformy stejný RAG proces?

Ne. Perplexity vyhledává v reálném čase u každého dotazu a vždy cituje. ChatGPT kombinuje trénovací data s vyhledáváním a cituje jen někdy. Google AI Overviews rozšiřuje klasický Google index. Claude primárně pracuje s trénovacími daty. Každá platforma vyžaduje mírně jinou optimalizaci.

Jak AI rozhoduje, koho citovat?

Podle pěti kritérií: sémantická relevance (jak přesně obsah odpovídá na dotaz), strukturální extrahovatelnost (jasné H2 sekce, krátké definice), autorita a E-E-A-T (pojmenovaný autor, nezávislé zmínky), čerstvost obsahu (datum aktualizace) a technická přístupnost (rychlost, HTTPS, mobile).

Fungují klasické SEO triky pro AI?

Většinou ne. Keyword stuffing, backlink farming a meta tag optimalizace mají podle výzkumu CMU „malý až žádný efekt" na generativní vyhledávače. Co funguje: jasné definiční věty, strukturované H2 sekce, FAQ s krátkými odpověďmi a citace důvěryhodných zdrojů.

Jak zjistím, jestli mě AI vyhledávače citují?

Nejjednodušeji: zeptejte se ChatGPT, Perplexity a Claude na otázky, na které váš web odpovídá. Pro systematické sledování existují nástroje jako Semrush AI Visibility, Profound, Otterly nebo Scrunch.

Co je nejdůležitější pro to, aby mě AI citovala?

Strukturovaný obsah, kde každý H2 odpovídá na konkrétní otázku a první věta pod ním je kompletní krátká odpověď (40–60 slov). Plus pojmenovaný autor s doloženou kvalifikací a zmínky na nezávislých zdrojích. Technická čistota (HTTPS, rychlost) je prerekvizita.