Crawler
Definice
Crawler (také spider, bot nebo robot) je automatizovaný program, který prochází webové stránky, čte jejich obsah a ukládá ho do databáze pro další zpracování – nejčastěji indexaci ve vyhledávači nebo trénování AI modelu.
Výklad
Crawler funguje jednoduše – zadáte mu startovací URL, stáhne HTML, najde v něm odkazy a postupně prochází další stránky. Nejznámější crawlery jsou Googlebot (Google), Bingbot (Bing/ChatGPT), GPTBot (OpenAI), Google-Extended (Gemini), PerplexityBot (Perplexity) a ClaudeBot (Anthropic). Každý crawler má svůj user-agent, kterým se identifikuje, a řídí se standardem robots.txt. Technicky pokročilé crawlery dokážou vykreslovat JavaScript (headless rendering), jednodušší čtou jen statické HTML.
Příklad z praxe
Když publikujete nový článek, crawler Googlebot ho obvykle objeví do několika hodin přes interní linky ze starších stránek.