Technické informace
- User-agent string
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)- Respektuje robots.txt
- ano
- Publikované IP
- Rozsahy IP
- Oficiální dokumentace
- Odkaz
Podrobný popis
Meta-ExternalAgent je hlavní tréninkový crawler společnosti Meta, zavedený v roce 2024 jako součást strategie Mety stát se méně závislou na Googlu pro search a AI data. Crawler slouží dvěma primárním účelům: (1) sběr obsahu pro trénink velkých jazykových modelů včetně rodiny LLaMA, (2) budování nezávislé Meta search infrastruktury, která napájí Meta AI funkce na Facebooku, Instagramu, WhatsAppu a Threads.
Crawler se představuje user-agent řetězcem meta-externalagent/1.1 a odkazem na oficiální dokumentaci. Meta uvádí, že bot respektuje robots.txt direktivy včetně standardních pravidel pro procházení. Některé nezávislé zdroje (51Degrees, Scrunch) ale hlásí, že v praxi byly zaznamenány případy, kdy meta-externalagent funguje i jako real-time retrieval pro Meta AI search funkce — tedy ne čistě jako tréninkový crawler.
Meta-ExternalAgent je součást širší Meta crawler rodiny: kromě něj Meta provozuje Meta-ExternalFetcher (user-triggered fetch), FacebookBot / facebookexternalhit (link previews) a nově i Meta-WebIndexer (indexace pro Meta AI search). Pro majitele webu to znamená, že rozhodnutí o Meta ekosystému není jednoduché jedno pravidlo — ideálně byste měli mít explicitní politiku pro každý z těchto botů.
Na rozdíl od OpenAI a Anthropicu Meta nepublikuje strojově čitelný seznam IP adres. Verifikace pravosti požadavků je nutné provést přes reverse DNS lookup. Meta nemá ekvivalent openai.com/gptbot.json — což komplikuje tvrdé IP-based blokace pro publishery, kteří chtějí Meta boty odlišit od spoofovaných požadavků.
Co se stane, když bota zablokujete
Co se stane, když Meta-ExternalAgent zablokujete
Pokud v robots.txt zakážete Meta-ExternalAgent, Meta vyřadí váš web z tréninkových dat budoucích LLaMA modelů a z Meta nezávislé search infrastruktury. Aktuální modely zůstávají nezměněné — trénovaná data se zpětně nemažou.
Co blokace ovlivní:
- Zařazení obsahu do budoucích tréninků LLaMA modelů
- Budování Meta search indexu (používaného v Meta AI napříč platformami)
- Potenciální citace a doporučení ve Meta AI odpovědích na Facebooku, Instagramu, WhatsAppu
Co blokace NEovlivní:
- Link previews při sdílení na Facebooku/Instagramu (to řídí
FacebookBot/facebookexternalhit) - User-triggered fetche v Meta AI chatu (
Meta-ExternalFetcher) - Vaše organické pozice ve Facebook/Instagram search
Meta AI má přístup k cca 4 miliardám uživatelů napříč Meta ekosystémem — blokace je tedy dlouhodobě ztrátová z hlediska AI viditelnosti, ale krátkodobě má minimální dopad (Meta AI je stále mladší produkt s menší penetrací než ChatGPT).
Doporučení pro B2B
<p>Meta AI je integrována do Facebook, Instagram a WhatsApp — produktů se 4 miliardami uživatelů. Viditelnost v Meta AI tréninkových datech je dlouhodobá investice, která se vyplatí zejména firmám s B2C segmentem. Pro přísně B2B weby je Meta-ExternalAgent méně naléhavý než GPTBot nebo ClaudeBot.</p>
Ukázky robots.txt
Povolit bota
User-agent: meta-externalagent
Allow: /Zablokovat bota
User-agent: meta-externalagent
Disallow: /Omezit frekvenci (Crawl-delay)
Částečné blokování
User-agent: meta-externalagent
Disallow: /premium/
Disallow: /members/
Allow: /Historie
Meta-ExternalAgent byl zaveden v roce 2024 jako součást Meta strategie snížit závislost na Googlu pro search a AI data. Crawler nahrazuje dřívější obecnější user-agent facebookexternalhitve scénářích AI tréninku. Aktuální verzemeta-externalagent/1.1 je stabilní od srpna 2024.
Časté dotazy
Používá Meta-ExternalAgent data pro trénink LLaMA?
Ano. Meta-ExternalAgent je hlavní crawler pro sběr tréninkových dat pro modely rodiny LLaMA — jak veřejně dostupných (LLaMA 3, Llama 3.1), tak interních variant používaných v Meta AI. Zároveň slouží pro budování nezávislé Meta search infrastruktury. Meta používá LLaMA napříč svými produkty: Meta AI chat v Facebook/Instagram/WhatsApp, AI funkce v Ray-Ban smart glasses, interní nástroje.
Jak se liší Meta-ExternalAgent od FacebookBot / facebookexternalhit?
FacebookBot a facebookexternalhit jsou klasické boty pro generování link previews — když někdo sdílí odkaz na Facebook/Instagram, ty ho stáhnou pro miniaturu, titulek a popis. Meta-ExternalAgent je AI tréninkový crawler pro LLaMA modely a Meta search. Jsou to samostatná pravidla — blokace jednoho neovlivní druhé. Pro kompletní opt-out z Meta AI ekosystému (při zachování link previews) zablokujte jen Meta-ExternalAgent a Meta-ExternalFetcher.
Proč Meta nepublikuje seznam IP adres?
Meta nemá ekvivalent openai.com/gptbot.json nebo perplexity.com/perplexitybot.json. Důvod veřejně nesdělila — pravděpodobně kombinace bezpečnostních úvah a infrastrukturní praxe. Pro majitele webu to znamená, že verifikace pravosti požadavků od Meta botů je složitější než u OpenAI nebo Perplexity. Jediná cesta je reverse DNS lookup — pokud hostname patří do fbsv.net, facebook.com nebo souvisejících Meta domén, požadavek je pravděpodobně pravý.
Mám blokovat Meta-ExternalAgent kvůli obavám z copyrightu?
Záleží na typu obsahu. Meta má slabší track record v respektování autorských práv při AI tréninku než OpenAI nebo Anthropic — v roce 2024–2025 čelila více žalobám ze strany publisherů a autorů za neautorizované použití jejich obsahu v LLaMA tréninku. Pokud provozujete licencovaný obsah, novinářský web, nebo kreativní dílo s licenčními omezeními, Meta-ExternalAgent je rozumné blokovat. Pro standardní B2B nebo e-commerce obsah obvykle není důvod.
Jak Meta AI funguje — proč bych měl řešit viditelnost v Meta ekosystému?
Meta AI je AI asistent integrovaný napříč Facebook, Instagram, WhatsApp a Threads, s přístupem k cca 4 miliardám uživatelů. Uživatelé se jí ptají na doporučení produktů, místní služby, informace z oboru. Pokud vás Meta AI zná a doporučí, získáte viditelnost přímo v aplikacích, kde lidé tráví hodiny denně. Pro B2C segmenty (e-commerce, lokální služby, média) je to potenciálně silný traffic zdroj — i když zatím menší než ChatGPT.
Je váš web dobře nastavený pro AI crawlery?
Nechte si zauditovat robots.txt a další signály.
Auditovat web zdarma