Jak (ne)optimalizovat web pro ChatGPT search

Nový vyhledávač od OpenAI začíná vystrkovat růžky a pro nás jako provozovatele webů to znamená, že už musíme myslet na optimalizaci nejen pro Google, Bing a Seznam ale i na tento nový zdroj návštěvnosti.

Uživatelé už nechtějí pracně proklikávat seznamy webů, ale žádají okamžitou odpověď a na web se chtějí podívat jen tehdy, když to má opravdu smysl. Znamená to, že web zaměřený primárně na informace, co těžil z neplacené návštěvnosti, přichází o značnou část svého trafficu. To je bohužel trend, a jestli nemáte zdroje návštěvnosti lépe diverzifikované, na čísla před příchodem generativních výsledků vyhledávání se už pravděpodobně nevrátíte, pokud tedy nenajdete způsob, jak tvořit obsahu řádově více, než doposud.

Jak ho vyzkoušet? Stačí na chatgpt.com kliknout na ikonku zeměkoule a chatbot začne přednostně načítat webové stránky, načte si jejich obsah a ten vám přeformuluje.

A tady už je přehled: nejprve stránky, ze kterých čerpá odpověď a pak i další stránky související s dotazem.

Takto tvořená odpověď se tedy odlišuje od výchozího chování chatGPT, kde přednostně sahá do báze načtených dat, neuvádí odkud čerpá a odpověď se tvoří bez uvedených zdrojů:

I v tomto vyhledávači se aktivní odkaz na web tedy stále vyskytuje, a ne každý vyhledávací dotaz je vhodný pro tvorbu strojové odpovědi, takže totální soumrak SEO a konec organické návštěvnosti ani s příchodem širšího nasazení této technologie nepřichází.

První otázkou pro nás tedy je – chceme umožnit GPT a jeho robotovi (SearchGPT), aby si mohl načíst náš web a použít ho k tvorbě dalšího obsahu – odpovědí na vyhledávací dotazy – cenou za to, že nás uvede jako zdroj? Odstřižením jeho indexovacího robota se od tohoto zdroje návštěvnosti kompletně odstřihneme, takže si od nás už zadarmo nevezme ani písmeno.

Povolit přístup botovi SearchGPT není potřeba nějak speciálně přidávat – defaultně, pokud ho nemáte v blokování, se na vaše stránky dostane. Pokud to chcete pojistit, pak zapište do souboru robots.txt (který by měl být na každém webu na adrese mujweb.cz/robots.txt) tuto instrukci:

User-agent: OAI-SearchBot
Allow: /

Tento zápis zajistí, že OAI-SearchBot má povolen přístup ke všem částem vašeho webu. Pokud chcete povolit přístup pouze k určitým částem webu, můžete upravit cestu podle potřeby (například místo lomítka / uvést jen /verejnacastwebu)

Jak pomoci výskytu webu dále? Zatím nám toho moc nezbývá – není k dispozici žádný formulář na přidání webu do databáze, a už vůbec se zatím nedá pracovat s pokročilejšími nástroji na analýzu toho, jak tento vyhledávač web vníkám, jako jsou Webmaster Tools nebo Search Console, na které jsme zvyklí odjinud. Zde tedy platí zatím stará SEO poučka „získejte odkaz ze známého a silného webu, vyhledávač si vás najde“ – a nic lepšího zatím k dispozici nemáme. Zcela neznámý je také zatím řadící algoritmus a to, jak je určována kvalita a klasifikace stránek.

Kromě OAI-SearchBota však existují ještě další boti od OpenAI, kteří jsou používáni pro fungování ChatGPT:

Robot	Funkce
OAI-SearchBot	OAI-SearchBot je robot určený pro indexaci a interpretaci webových výsledků vyhledávání – používá se k získávání odkazů na webové stránky a jejich zobrazení ve výsledcích vyhledávání ve vyhledávači SearchGPT. Nepoužívá se však k procházení obsahu pro trénování generativních AI modelů OpenAI (tj. pro aplikaci ChatGPT). Pro zajištění zobrazení vašich stránek ve výsledcích vyhledávání můžete povolit OAI-Searchbot v souboru robots.txt na vašem webu a povolit žádosti z našich zveřejněných IP rozsahů níže.
ChatGPT-User	ChatGPT-User je určený pro uživatelské aktivity v placených tarifech ChatGPT a Custom GPTs. Když se uživatelé zeptají ChatGPT nebo CustomGPT otázku, nebo na konkrétní webovou stránku, přijde na web, aby si ho načetl a pomohl s odpovědí. Tento robot se nepoužívá se pro automatické procházení webu ani pro procházení obsahu za účelem trénování generativních AI modelů.
GPTBot	GPTBot – slouží k trénování obsahu pro ChatGPT a používá se k učení generativních AI modelů od OpenAI. Zakázání přístupu GPTBota znamená, že obsah vašeho webu by neměl být použit při trénování generativních modelů.

A jak asi víte, není jen OpenAI a ChatGPT, ale existuje ještě poměrně široká konkurence – svou AI trénuje Amazon, Claude, Facebook (Meta), samozřejmě taky Google, Perplexity, Apple… Jestli nechcete, aby si bral data z vašeho webu žádný z nich, tak přesně pro vás je určena tato pomůcka, kterou zakážete přístup všem těmto spiderům připravených na trénink LLM pěkně jedním zápisem:

User-agent: Amazonbot
User-agent: anthropic-ai
User-agent: Applebot-Extended
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: cohere-ai
User-agent: Diffbot
User-agent: FacebookBot
User-agent: FriendlyCrawler
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: GoogleOther-Image
User-agent: GoogleOther-Video
User-agent: GPTBot
User-agent: ImagesiftBot
User-agent: img2dataset
User-agent: OAI-SearchBot
User-agent: omgili
User-agent: omgilibot
User-agent: PerplexityBot
User-agent: YouBot
Disallow: /

Technické SEO se ale nijak zásadně neliší od optimalizace webu pro „normální“ vyhledávač. URL adresy by měly být správně strukturované, t.j.:

Krátké a výstižné
Obsahovat klíčová slova
Delší výrazy by měly být oddělené pomlčkami

Takže například takto může vypadat optimální URL:

https://www.webik.cz/nazev-clanku

Určitě nic nezkazíte ani tím, když budete mít dobře vyplněný title – ten by měl:

Obsahovat hlavní klíčovou frázi / název stránky
Být unikátní pro každou stránku webu
A mít přiměřenou délku

Příklad:

<title>Název mého článku | Náze mého webu</title>

Klíčové se správné používání nadpisů (H1-H6). Tady se stačí držet starých dobrých zásad jako:

Používat pouze jeden H1 nadpis na stránku
Do H1 napsat název stránky nebo článku
A pro další členění obsahu používat nadpisy H2-H6

XML sitemap určitě taky zatím nerušte, aby si ji i tento vyhledávač mohl stáhnout a díky ní pochopit lépe obsah vašeho webu. Myslete na to, aby:

Obsahovala všechny URL adresy vašeho webu, co chcete aby byly objevitelné
Aby byla sitemapa průběžně aktualizována
A ideálně také uvedena v souboru robots.txt

Příklad struktury XML Sitemap:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.webik.cz/</loc>
    <lastmod>2024-07-31</lastmod>
    <changefreq>daily</changefreq>
    <priority>1.0</priority>
  </url>
  <!-- Další URL adresy -->
</urlset>

Strukturovaná data jsou dalším prvkem co pomůžou snadněji pochopit obsah vašeho webu, takže určitě pomůže, když na svém webu budete používat schema.org pro označení:

Článků
Produktů
Recenzí
Událostí
A dalších relevantních entit a obsahu – tady záleží, co vlastně máte za web a co je na něm za obsah.

A tady ještě například jak může vypadat JSON-LD pro označování článku:

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "Můj článek",
  "author": {
    "@type": "Person",
    "name": "Jan Novák"
  },
  "datePublished": "2024-07-31",
  "description": "Popis mého článku"
}
</script>

Jak vidět, hodně toho co se používá pro optimalizaci v ostatních vyhledávačích bude fungovat i zde, takže pokud už teď máte web dobře optimalizovaný, velice pravděpodobně už brzy začnete dostávat návštěvnost i z vyhledávání na ChatGPT.

Share0

Tweet0

Share0

Martin Sova. Dlouhodobě se zabývám digitálními strategiemi, jejich školením a pomáhám klientům reálně vydělávat miliony korun měsíčně ?. Pokud vás článek zaujal, můžete mi zavolat nebo napsat na martin@sova.biz.

Přečtěte si také:

Jak (ne)optimalizovat web pro ChatGPT search

AI popisky produktů pro eshop a ideálně zdarma? Tady máte návod

Případ ztraceného trackingu: UTM detektivka

AI Song