AiPress

Meta-ExternalAgent

Publikováno:
·
Aktualizováno:
·
Hlavní tréninkový crawler Mety pro AI modely LLaMA a vlastní search infrastrukturu. Sbírá veřejný web pro trénink Meta AI napříč Facebook, Instagram a WhatsApp.

Kategorie: trénink

TL;DR

Meta-ExternalAgent je hlavní tréninkový crawler společnosti Meta, který sbírá obsah pro trénink modelů LLaMA (a jejich derivátů používaných v Meta AI) a pro budování nezávislé Meta search infrastruktury napříč Facebook, Instagram a WhatsApp.

Auditovat web

Technické informace

User-agent string
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
Respektuje robots.txt
ano
Publikované IP
Rozsahy IP
Oficiální dokumentace
Odkaz

Podrobný popis

Meta-ExternalAgent je hlavní tréninkový crawler společnosti Meta, zavedený v roce 2024 jako součást strategie Mety stát se méně závislou na Googlu pro search a AI data. Crawler slouží dvěma primárním účelům: (1) sběr obsahu pro trénink velkých jazykových modelů včetně rodiny LLaMA, (2) budování nezávislé Meta search infrastruktury, která napájí Meta AI funkce na Facebooku, Instagramu, WhatsAppu a Threads.

Crawler se představuje user-agent řetězcem meta-externalagent/1.1 a odkazem na oficiální dokumentaci. Meta uvádí, že bot respektuje robots.txt direktivy včetně standardních pravidel pro procházení. Některé nezávislé zdroje (51Degrees, Scrunch) ale hlásí, že v praxi byly zaznamenány případy, kdy meta-externalagent funguje i jako real-time retrieval pro Meta AI search funkce — tedy ne čistě jako tréninkový crawler.

Meta-ExternalAgent je součást širší Meta crawler rodiny: kromě něj Meta provozuje Meta-ExternalFetcher (user-triggered fetch), FacebookBot / facebookexternalhit (link previews) a nově i Meta-WebIndexer (indexace pro Meta AI search). Pro majitele webu to znamená, že rozhodnutí o Meta ekosystému není jednoduché jedno pravidlo — ideálně byste měli mít explicitní politiku pro každý z těchto botů.

Na rozdíl od OpenAI a Anthropicu Meta nepublikuje strojově čitelný seznam IP adres. Verifikace pravosti požadavků je nutné provést přes reverse DNS lookup. Meta nemá ekvivalent openai.com/gptbot.json — což komplikuje tvrdé IP-based blokace pro publishery, kteří chtějí Meta boty odlišit od spoofovaných požadavků.

Co se stane, když bota zablokujete

Co se stane, když Meta-ExternalAgent zablokujete

Pokud v robots.txt zakážete Meta-ExternalAgent, Meta vyřadí váš web z tréninkových dat budoucích LLaMA modelů a z Meta nezávislé search infrastruktury. Aktuální modely zůstávají nezměněné — trénovaná data se zpětně nemažou.

Co blokace ovlivní:

  • Zařazení obsahu do budoucích tréninků LLaMA modelů
  • Budování Meta search indexu (používaného v Meta AI napříč platformami)
  • Potenciální citace a doporučení ve Meta AI odpovědích na Facebooku, Instagramu, WhatsAppu

Co blokace NEovlivní:

  • Link previews při sdílení na Facebooku/Instagramu (to řídí FacebookBot / facebookexternalhit)
  • User-triggered fetche v Meta AI chatu (Meta-ExternalFetcher)
  • Vaše organické pozice ve Facebook/Instagram search

Meta AI má přístup k cca 4 miliardám uživatelů napříč Meta ekosystémem — blokace je tedy dlouhodobě ztrátová z hlediska AI viditelnosti, ale krátkodobě má minimální dopad (Meta AI je stále mladší produkt s menší penetrací než ChatGPT).

Doporučení pro B2B

Povolit

<p>Meta AI je integrována do Facebook, Instagram a WhatsApp — produktů se 4 miliardami uživatelů. Viditelnost v Meta AI tréninkových datech je dlouhodobá investice, která se vyplatí zejména firmám s B2C segmentem. Pro přísně B2B weby je Meta-ExternalAgent méně naléhavý než GPTBot nebo ClaudeBot.</p>

Ukázky robots.txt

Povolit bota

User-agent: meta-externalagent
Allow: /

Zablokovat bota

User-agent: meta-externalagent
Disallow: /

Omezit frekvenci (Crawl-delay)

User-agent: meta-externalagent Crawl-delay: 1

Částečné blokování

User-agent: meta-externalagent
Disallow: /premium/
Disallow: /members/
Allow: /

Historie

Meta-ExternalAgent byl zaveden v roce 2024 jako součást Meta strategie snížit závislost na Googlu pro search a AI data. Crawler nahrazuje dřívější obecnější user-agent facebookexternalhitve scénářích AI tréninku. Aktuální verzemeta-externalagent/1.1 je stabilní od srpna 2024.

Časté dotazy

Používá Meta-ExternalAgent data pro trénink LLaMA?

Ano. Meta-ExternalAgent je hlavní crawler pro sběr tréninkových dat pro modely rodiny LLaMA — jak veřejně dostupných (LLaMA 3, Llama 3.1), tak interních variant používaných v Meta AI. Zároveň slouží pro budování nezávislé Meta search infrastruktury. Meta používá LLaMA napříč svými produkty: Meta AI chat v Facebook/Instagram/WhatsApp, AI funkce v Ray-Ban smart glasses, interní nástroje.

Jak se liší Meta-ExternalAgent od FacebookBot / facebookexternalhit?

FacebookBot a facebookexternalhit jsou klasické boty pro generování link previews — když někdo sdílí odkaz na Facebook/Instagram, ty ho stáhnou pro miniaturu, titulek a popis. Meta-ExternalAgent je AI tréninkový crawler pro LLaMA modely a Meta search. Jsou to samostatná pravidla — blokace jednoho neovlivní druhé. Pro kompletní opt-out z Meta AI ekosystému (při zachování link previews) zablokujte jen Meta-ExternalAgent a Meta-ExternalFetcher.

Proč Meta nepublikuje seznam IP adres?

Meta nemá ekvivalent openai.com/gptbot.json nebo perplexity.com/perplexitybot.json. Důvod veřejně nesdělila — pravděpodobně kombinace bezpečnostních úvah a infrastrukturní praxe. Pro majitele webu to znamená, že verifikace pravosti požadavků od Meta botů je složitější než u OpenAI nebo Perplexity. Jediná cesta je reverse DNS lookup — pokud hostname patří do fbsv.net, facebook.com nebo souvisejících Meta domén, požadavek je pravděpodobně pravý.

Mám blokovat Meta-ExternalAgent kvůli obavám z copyrightu?

Záleží na typu obsahu. Meta má slabší track record v respektování autorských práv při AI tréninku než OpenAI nebo Anthropic — v roce 2024–2025 čelila více žalobám ze strany publisherů a autorů za neautorizované použití jejich obsahu v LLaMA tréninku. Pokud provozujete licencovaný obsah, novinářský web, nebo kreativní dílo s licenčními omezeními, Meta-ExternalAgent je rozumné blokovat. Pro standardní B2B nebo e-commerce obsah obvykle není důvod.

Jak Meta AI funguje — proč bych měl řešit viditelnost v Meta ekosystému?

Meta AI je AI asistent integrovaný napříč Facebook, Instagram, WhatsApp a Threads, s přístupem k cca 4 miliardám uživatelů. Uživatelé se jí ptají na doporučení produktů, místní služby, informace z oboru. Pokud vás Meta AI zná a doporučí, získáte viditelnost přímo v aplikacích, kde lidé tráví hodiny denně. Pro B2C segmenty (e-commerce, lokální služby, média) je to potenciálně silný traffic zdroj — i když zatím menší než ChatGPT.

Je váš web dobře nastavený pro AI crawlery?

Nechte si zauditovat robots.txt a další signály.

Auditovat web zdarma