Technické informace
- User-agent string
Mozilla/5.0 (compatible; Bytespider; [email protected])- Respektuje robots.txt
- castecne
- Publikované IP
- Rozsahy IP
- Oficiální dokumentace
- Odkaz
Podrobný popis
Bytespider je tréninkový crawler společnosti ByteDance, čínského vlastníka TikToku a dalších globálních produktů (CapCut, Lark, Doubao). Primárním účelem je sběr dat pro trénink AI modelů Doubao (čínský ekvivalent ChatGPT) a AI funkcí napříč ByteDance ekosystémem. Na rozdíl od všech ostatních hlavních AI crawlerů ByteDance nemá veřejnou dokumentaci pro Bytespider — informace pocházejí z nezávislých výzkumů (Cloudflare, 51Degrees, bezpečnostní firmy).
Bytespider má notoricky problematickou reputaci. V letech 2023–2024 ho řada publisherů označila za nejagresivnější AI crawler na webu: ignoroval robots.txt, crawloval obsah v extrémní frekvenci (desetkrát až stokrát častěji než ostatní AI boti), zatěžoval servery a zbytečně spotřebovával crawl budget. Cloudflare v roce 2024 reportoval, že Bytespider byl v top 3 nejčastěji blokovaných AI botů na jejich síti.
Od poloviny 2024 se situace zlepšila — některé testy naznačují, že Bytespider začal robots.txt respektovat konzistentněji. Přesto nelze se na něj spoléhat. Nezávislí experti doporučují kombinaci robots.txt + firewall blokace pro spolehlivou kontrolu. ByteDance nepublikuje strojově čitelný seznam IP, takže IP-based filtrování je složité — v praxi se často blokuje podle user-agent stringu s Bytespider a přes reverse DNS na ByteDance domény.
Z hlediska B2B viditelnosti: Doubao a ostatní ByteDance AI produkty jsou primárně čínský a jihovýchodoasijský trh. Pro české B2B weby, které necílí na tyto regiony, má povolení Bytespider minimální návratnost a potenciálně vysoké náklady (server load). Pro firmy exportující do Asie může být naopak přítomnost v ByteDance tréninkových datech cenná.
Co se stane, když bota zablokujete
Co se stane, když Bytespider zablokujete
Pokud v robots.txt zakážete Bytespider, ByteDance by měl vyloučit váš web z tréninkových dat Doubao a dalších AI modelů. Kvůli historii nekonzistentního respektování pravidel je ale vhodné blokaci ověřit — zkontrolujte serverové logy za 2–4 týdny, jestli Bytespider skutečně přestal chodit.
Co blokace ovlivní:
- Zařazení obsahu do budoucích tréninků Doubao modelů
- Potenciální citace/doporučení v ByteDance AI produktech
- Server load (u agresivně crawlovaných webů značný)
Co blokace NEovlivní:
- TikTok organické doporučení algoritmy (ty nečerpají z Bytespider)
- Sdílení vašich odkazů v TikTok videích a komentářích
- Facebook, Instagram, Google — to jsou nezávislé ekosystémy
Pro tvrdou blokaci u webů s problematickou historií (nadměrný server load z Bytespider) doporučujeme kombinaci: robots.txt Disallow: / + server-level blokace user-agentu Bytespider + případně blokace reverse DNS na ByteDance domény.
Doporučení pro B2B
<p>ByteDance AI produkty (Doubao) cílí primárně na čínský trh a jihovýchodní Asii. Pro české B2B weby s lokálním zaměřením je povolení Bytespider nízká priorita a může představovat server load. Firmy s exportní strategií do Asie mohou naopak těžit z přítomnosti v tréninkových datech. Historická compliance problematika je argument pro opatrnost — pokud Bytespider vyvolává problémy, neváhejte zablokovat.</p>
Ukázky robots.txt
Povolit bota
User-agent: Bytespider
Allow: /Zablokovat bota
User-agent: Bytespider
Disallow: /Omezit frekvenci (Crawl-delay)
Částečné blokování
User-agent: Bytespider
Disallow: /premium/
Disallow: /members/
Allow: /Historie
Bytespider byl v letech 2023–2024 jedním z nejproblematičtějších AI crawlerů na webu. Cloudflare, WordFence a další bezpečnostní firmy ho opakovaně reportovaly jako agresivní crawler ignorující robots.txt. Od poloviny 2024 se compliance mírně zlepšila, ale ByteDance stále nemá veřejnou dokumentaci crawleru a nepublikuje IP rozsahy — což činí transparentnost nižší než u OpenAI, Anthropic nebo Google.
Bytespider má dlouhou historii nerespektování robots.txt a agresivního crawlování. V roce 2024 Cloudflare zařadil Bytespider mezi top 3 nejčastěji blokované AI crawlery. ByteDance nepublikuje oficiální dokumentaci, IP rozsahy ani changelog — to je unikátní mezi hlavními AI provozovateli a činí Bytespider méně transparentním než konkurenci. Pro weby s problematickou historií (nadměrný server load) je firewall blokace vhodnější než spoléhat se jen na robots.txt.
Časté dotazy
Proč Bytespider nemá veřejnou dokumentaci?
ByteDance na rozdíl od OpenAI, Anthropic, Google nebo Perplexity nezveřejňuje oficiální dokumentaci svého crawleru. Důvody nejsou veřejně sděleny — pravděpodobně kombinace firemní kultury, regulatorního prostředí v Číně a strategie omezit transparentnost. Pro majitele webu to znamená, že rozhodování o Bytespider vychází z nezávislých zdrojů (Cloudflare reporty, bezpečnostní firmy, komunitní analýzy) místo oficiálních specifikací.
Je pravda, že Bytespider ignoruje robots.txt?
Historicky ano. V letech 2023–2024 řada publisherů i bezpečnostních firem dokumentovala, že Bytespider systematicky ignoroval robots.txt direktivy. Od poloviny 2024 se situace zlepšila — některé testy ukazují, že pravidla začal respektovat konzistentněji. Přesto se nedá spolehlivě předpokládat 100% compliance. Doporučený postup: robots.txt + firewall blokace pro jistotu.
Zatěžuje Bytespider výrazněji server než ostatní AI crawleři?
Ano, historicky výrazně. Bytespider byl známý frekvencí crawlování desetkrát až stokrát vyšší než GPTBot nebo ClaudeBot. Důvodem byl agresivní sběr dat pro ByteDance AI produkty a slabší respekt k etiketě crawlování. Pokud máte menší server a vidíte Bytespider v lozích, doporučujeme rychle nastavit Crawl-delay nebo úplnou blokaci.
Stojí mi za to být v tréninkových datech Doubao?
Záleží na vaší cílové skupině. Doubao má miliony uživatelů primárně v Číně a jihovýchodní Asii. Pro české B2B firmy bez asijské expanze je hodnota nízká a krátkodobě nepoznatelná. Pro e-commerce s exportem, B2B dodavatele asijských firem, nebo cestovní ruch cílící na čínské klienty může být zajímavá. Pro většinu českých webů doporučujeme buď blokaci, nebo monitoring bez akce.
Jak odliším legitimní Bytespider od spoofovaných požadavků?
ByteDance nepublikuje IP seznam, což verifikaci komplikuje. Jediné mechanismy: (1) reverse DNS lookup — legitimní Bytespider by měl přicházet z ByteDance infrastruktury (domény související s bytedance.com, douyincdn.com), (2) monitoring traffic patternů — pravý Bytespider má specifické chování, (3) kontaktovat e-mail [email protected] pro verifikaci. Pro většinu webů je jednodušší všechny požadavky s user-agentem Bytespider blokovat bez rozlišení.
Je váš web dobře nastavený pro AI crawlery?
Nechte si zauditovat robots.txt a další signály.
Auditovat web zdarma