AiPress

Meta-ExternalFetcher

Publikováno:
·
Aktualizováno:
·
User-triggered fetcher Mety. Stahuje konkrétní URL na žádost uživatele v Meta AI, a v těchto případech může ignorovat robots.txt.

Kategorie: user-fetch

TL;DR

Meta-ExternalFetcher je user-triggered fetcher, který Meta používá, když uživatel v Meta AI (Facebook, Instagram, WhatsApp) zadá konkrétní URL nebo požaduje shrnutí odkazu. Může ignorovat robots.txt při user-initiated akcích.

Auditovat web

Technické informace

User-agent string
meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
Publikované IP
Rozsahy IP
Oficiální dokumentace
Odkaz

Podrobný popis

Meta-ExternalFetcher je user-triggered fetcher Mety, který se aktivuje ve dvou scénářích: (1) uživatel v Meta AI chatu (Facebook, Instagram, WhatsApp) zadá konkrétní URL a chce shrnutí, (2) Meta AI funkce potřebuje získat aktuální obsah pro odpověď na uživatelský dotaz. Na rozdíl od systematického Meta-ExternalAgent nechodí sám od sebe — aktivuje se jen na žádost konkrétního uživatele.

Klíčová vlastnost, kterou Meta explicitně uvádí v oficiální dokumentaci: Meta-ExternalFetcher může obcházet robots.txt, pokud uživatel poskytne konkrétní URL jako kontext. Argumentace je podobná jako u ChatGPT-User a Perplexity-User — akce je prováděna jménem uživatele, ne jako automatizované crawlování. Meta tuto politiku transparentně deklaruje, což je relativně vzácné.

V praxi to znamená, že blokace Meta-ExternalFetcher v robots.txt má nejistý efekt. Pro spolehlivou kontrolu potřebujete firewall pravidla nebo server-level user-agent blokace. Meta navíc nepublikuje strojově čitelný seznam IP adres, takže IP-based filtrování je možné jen přes reverse DNS (fbsv.net, facebook.com domény).

Co se stane, když bota zablokujete

Co se stane, když Meta-ExternalFetcher zablokujete

Pokud v robots.txt zakážete Meta-ExternalFetcher, Meta tuto direktivu může, ale nemusí respektovat — záleží na kontextu požadavku. Pokud uživatel explicitně zadá vaši URL v Meta AI, fetcher ji pravděpodobně načte i při disallow pravidle.

Pro spolehlivou blokaci použijte:

  • Firewall pravidla kombinovaná s reverse DNS verifikací Meta domén
  • Server-level blokace user-agentu meta-externalfetcher v Nginx/Apache
  • Kombinace obou mechanismů pro enterprise weby

Blokace neovlivní:

  • Vaši viditelnost v Meta AI organických odpovědích (to řídí Meta-ExternalAgent přes trénink)
  • Link previews při sdílení (to řídí FacebookBot / facebookexternalhit)

Doporučení pro B2B

Povolit

<p>Meta-ExternalFetcher se aktivuje jen když uživatel explicitně zadá vaši URL — typicky scénář, kdy chce o vaší stránce informace. Blokace je kontraproduktivní a zároveň nespolehlivá. Pro tvrdou blokaci u citlivého obsahu použijte firewall, ne robots.txt.</p>

Ukázky robots.txt

Povolit bota

User-agent: meta-externalfetcher
Allow: /

Zablokovat bota

User-agent: meta-externalfetcher
Allow: /

Omezit frekvenci (Crawl-delay)

User-agent: meta-externalfetcher Allow: /

Částečné blokování

User-agent: meta-externalfetcher
Disallow: /premium/
Allow: /

Historie

Meta-ExternalFetcher byl zaveden v roce 2024 jako samostatný user-agent pro user-triggered scénáře — Meta tím oddělila reaktivní fetche od systematického trénoickového crawleru Meta-ExternalAgent. Explicitně deklarovaná politika ignorování robots.txt v user-triggered kontextech je podobná přístupu Perplexity-User a částečně ChatGPT-User.

Meta explicitně v dokumentaci uvádí, že Meta-ExternalFetcher může obcházet robots.txt, když uživatel poskytne konkrétní URL jako kontext. Je to transparentně deklarovaná politika, ne skrytý bug. Pro majitele webu to znamená, že robots.txt sám o sobě nestačí pro spolehlivou blokaci — je nutné doplnit firewall pravidly.

 

Časté dotazy

Proč Meta-ExternalFetcher nerespektuje robots.txt?

Meta argumentuje, že pokud uživatel v Meta AI aktivně zadá konkrétní URL, jedná se o akci jménem uživatele, ne o automatizované crawlování. Robots.txt je historicky signál pro boty, ne pro user-initiated fetche. Meta, OpenAI (ChatGPT-User) a Perplexity (Perplexity-User) sdílejí tuto filozofii. Anthropic zvolil opačný přístup — Claude-User robots.txt respektuje vždy.

Jak spolehlivě blokovat Meta-ExternalFetcher?

Kombinací tří vrstev: (1) pravidlo v robots.txt pro case, kdy se respektuje, (2) server-level blokace user-agentu v Nginx/Apache, (3) reverse DNS verifikace Meta domén (fbsv.net, facebook.com) na úrovni firewallu. Meta nepublikuje JSON s IP adresami, takže přesná IP-based blokace je složitější než u OpenAI nebo Perplexity.

Kdy se Meta-ExternalFetcher aktivuje?

Typicky ve dvou scénářích: uživatel v Meta AI chatu zadá konkrétní odkaz a chce shrnutí; nebo Meta AI funkce v Facebooku/Instagramu potřebuje aktuální obsah pro odpověď na konkrétní dotaz. Na rozdíl od Meta-ExternalAgent, který jede systematicky, Meta-ExternalFetcher je reaktivní — bez user-initiated akce se neaktivuje.

Jaký je rozdíl mezi Meta-ExternalAgent a Meta-ExternalFetcher?

Meta-ExternalAgent je tréninkový crawler — chodí sám od sebe, sbírá obsah pro trénink LLaMA a Meta search. Meta-ExternalFetcher je user-triggered fetcher — aktivuje se jen na žádost konkrétního uživatele. Pro kompletní kontrolu Meta provozu potřebujete pravidla pro oba. Navíc Meta má ještě FacebookBot/facebookexternalhit pro link previews — to je třetí vrstva.

Má blokace Meta-ExternalFetcher vliv na sdílení odkazů na Facebook/Instagram?

Ne. Link previews při sdílení na sociálních sítích řídí samostatný bot FacebookBot (někdy pod user-agentem facebookexternalhit). Blokace Meta-ExternalFetcher ovlivní jen situace, kdy uživatel v Meta AI zadá vaši URL a chce shrnutí. Pro kompletní opt-out z Meta AI (při zachování link previews) zablokujte Meta-ExternalAgent + Meta-ExternalFetcher, ale NE FacebookBot.

Je váš web dobře nastavený pro AI crawlery?

Nechte si zauditovat robots.txt a další signály.

Auditovat web zdarma