Procházení webu (crawling) je proces, který probíhá v pozadí internetových vyhledávačů, během něhož tzv. roboti (crawleři) systematicky procházejí obsah webových stránek. Tento proces je naprosto klíčový pro udržení aktuálnosti výsledků vyhledávání a pro to, aby vyhledávače mohly poskytovat uživatelům co nejrelevantnější odpovědi na jejich dotazy.
Crawler navštíví každou stránku webu, stáhne si její obsah a na základě odkazů, které na stránce najde, pokračuje v procházení dalších stránek.
Jedním z prvních kroků, které robot provede při návštěvě webu, je stažení souboru robots.txt, kde jsou uloženy informace o tom, které části webu jsou pro crawlera dostupné a které naopak mají být ignorovány. Soubor robots.txt poskytuje webmasterům možnost omezit procházení určitých stránek, které nejsou relevantní pro veřejné indexování, například administrativní části webu nebo stránky s citlivými daty.
Roboti (crawleři) internetových vyhledávačů se dozvědí o existenci webu několika způsoby:
- Vyhledávač může web znát z předchozí návštěvy, kdy už byl jednou indexován. V takovém případě crawler automaticky zkontroluje, zda na webu nedošlo k aktualizacím.
- Na web může vést alespoň jeden odkaz z jiného webu (nebo sociálních sítí – zkrátka odkudkoliv, kam se dá veřejně dostat – tzn. nejedná se o zamčenou skupinu například na Facebooku apod.), což je běžný způsob, jak se nový web objeví v zorném poli crawlera.
- V případě nového webu je možné jej vyhledávači oznámit, například přidáním odkazu na soubor sitemap.xml do nástroje Google Search Console. Tím crawler získá přesný seznam stránek, které má procházet a indexovat.
- Seznam.cz má jednoduchý formulář pro přidání nové stránky do vyhledávání. Stačí zadat jednu klíčovou stránku webu a vyhledávač si začne stahovat a procházet zbytek obsahu. Případně skrze Seznam Webmaster, což je v podstatě kopie Google Search Console, akorát zaměřená na Seznam.
Problémy spojené s crawlingem
Jednou z hlavních výzev, se kterou se crawleři setkávají, je efektivní využití crawl budgetu, tedy určitého množství času a zdrojů, které vyhledávač přidělí každému webu. Pokud je web špatně strukturovaný, obsahuje mnoho duplicitních stránek nebo zbytečných odkazů, crawler může tento rozpočet vyčerpat na procházení stránek, které nejsou důležité pro indexování. Výsledkem je, že klíčové části webu mohou být přehlédnuty.
Důležitým faktorem je také pravidelná aktualizace obsahu webu. Vyhledávače preferují weby, které často přidávají nový obsah, což stimuluje robota, aby web navštěvoval častěji. Pokud je obsah statický nebo zastaralý, frekvence procházení se může snížit, což negativně ovlivní viditelnost webu ve výsledcích vyhledávání.
Optimalizace webu pro efektivní crawling
Aby byl proces procházení webu co nejefektivnější, majitelé webů musí dbát na několik důležitých aspektů:
- Prioritizace klíčového obsahu – nejdůležitější stránky by měly být přístupné crawlerům co nejjednodušeji. Sitemap, která odráží hierarchii stránek, zajišťuje, že důležité stránky jsou snadno dostupné a budou prioritně indexovány.
- Optimalizace robots.txt a noindex – pro správu toho, co chcete indexovat, lze kombinovat soubor robots.txt a meta tagy noindex. Je vhodné se zaměřit na stránky, které neobsahují přidanou hodnotu pro SEO, jako jsou stránky administrace nebo filtrovací stránky. Pomocí Search Console lze sledovat, jaké stránky jsou aktuálně indexovány, a optimalizovat strategii procházení.
- Dynamické sitemapy – u velkých webů, které často mění obsah, je nezbytné používat dynamické sitemapy, které se automaticky aktualizují podle změn obsahu na webu. To pomáhá crawlerům neustále sledovat aktuální obsah bez nutnosti ruční aktualizace sitemap.
- Řešení 404 chyb – velké weby jsou náchylné na vznik chybných stránek (404), které mohou vést k plýtvání crawl budgetu. Je důležité pravidelně sledovat a opravovat tyto chyby, aby vyhledávače neplýtvaly zdroji na neexistující stránky.
- Rychlá detekce a oprava technických problémů – u velkých webů mohou vznikat problémy, které nejsou na první pohled viditelné, ale brání efektivnímu crawlingu. Pravidelný monitoring technického stavu webu, včetně rychlosti načítání, správného nastavení robots.txt, meta tagů a přesměrování, je klíčový pro udržení efektivního crawlingu.
- Oddělení kategorií a filtrů – velké weby, zejména e-commerce, často používají různé filtry pro zobrazení specifických produktů. Tyto stránky s filtrovanými výsledky mohou vytvářet duplicitní obsah nebo zbytečně plýtvat crawl budgetem. Správná implementace kanonických tagů nebo omezení procházení některých filtrovaných stránek je nezbytná pro efektivní využití crawlerů.
- Optimalizace stránkování (pagination) – u velkých webů, kde je třeba již mít kvůli výkonu stránkování (články, kategorie s výpisy produktů, filtry) je důležité správné nastavení rel=“next“ a rel=“prev“ tagů, které pomáhají vyhledávačům chápat vztah mezi stránkami a zlepšují crawling.
- Prioritizace obsahu – důležité stránky by měly být snadno dostupné, zejména ty s vysokou návštěvností. Pomáhá tomu dobře strukturovaná sitemap, která reflektuje prioritní obsah.
- Dynamické sitemapy – obsah velkých webů se často mění, takže dynamická sitemap, která se automaticky aktualizuje, zajišťuje, že crawleři indexují nové a změněné stránky bez zpoždění.
- Efektivní prolinkování a architektura webu – zlepšení interního prolinkování může usnadnit crawlerům přístup k důležitým stránkám. Struktura webu by měla být jasná a přehledná, což pomůže crawlerům snadněji procházet stránky.
- Správa duplicitního obsahu – duplicitní obsah na velkých webových portálech, jako jsou e-shopy, může způsobit vyčerpání crawl budgetu. Pro optimalizaci lze použít kanonické URL, které označí hlavní stránku jako preferovanou verzi pro indexaci.
Už jste četli? Týden bez odpadu 2022
Specifika procházení u velkých webů
Velké weby, jako jsou e-commerce portály nebo zpravodajské weby, čelí specifickým výzvám v rámci procházení. Tyto weby mají tisíce nebo dokonce miliony stránek, což může znamenat, že crawler nestihne všechny stránky projít během jedné návštěvy. Pro takové weby je důležité:
- Přesměrování a 404ky – chyby 404 mohou vyčerpávat crawl budget, což znamená, že crawler plýtvá časem na neexistující stránky. Je klíčové pravidelně monitorovat stránky s chybami a zajistit správná přesměrování.
- Efektivní práce s filtry – weby s velkým množstvím filtrovaného obsahu (např. e-shopy) mohou generovat tisíce URL s filtrovanými výsledky, což způsobí zbytečnou zátěž pro crawler. Kanonické tagy a správné nastavení meta tagů noindex u zbytečných stránek pomůže omezit procházení těchto stránek.
- Zpracování velkého množství dat – stránky, které pravidelně přidávají velké množství nového obsahu, potřebují dobře optimalizované API pro vyhledávací roboty a udržet si čistý kód bez zbytečných přesměrování nebo dynamických změn.
- Správně indexovaný lokalizovaný obsah – pomocí hreflang tagů lze zajistit, aby byly lokalizované verze webu správně indexovány ve vyhledávačích pro různé jazyky a regiony.
- Crawl delay – u velmi rozsáhlých webů je možné nastavit crawl delay v souboru robots.txt, aby se zabránilo přetížení serverů kvůli příliš častému procházení.
- Rychlost načítání stránek – velké weby často používají mnoho mediálního obsahu, což může zpomalit crawling. Optimalizace obrázků a použití kompresních technik sníží zatížení stránek, což crawlerům umožní efektivnější procházení. Použití formátů jako WebP nebo komprese mediálních souborů usnadní crawlerům procházení a indexaci. Jednoduše, čím méně bude robot vyplatlat na vás svůj výkon, tím více se vám odmění.
- Správa URL parametrů – weby s dynamickým obsahem často generují mnoho URL parametrů, které mohou vést k duplicitnímu obsahu. Je třeba nastavit správnou správu URL parametrů pomocí Search Console, aby se crawlování soustředilo na relevantní stránky.
Budoucnost crawlingu a vliv umělé inteligence
Vyhledávače se neustále zdokonalují a umělá inteligence (AI) hraje v tomto procesu stále větší roli. Díky AI mohou vyhledávače efektivněji chápat obsah webových stránek a lépe rozhodovat o tom, které stránky jsou pro uživatele nejdůležitější. AI také umožňuje vyhledávačům analyzovat kontext a záměr uživatele, což vede k lepším výsledkům vyhledávání.
Crawling se však nestává pouze záležitostí vyhledávačů. Majitelé webů mohou také používat AI a pokročilé analytické nástroje k tomu, aby lépe porozuměli tomu, jak jsou jejich weby procházeny, a optimalizovali své stránky pro vyhledávače.