Search
Generic filters
Exact matches only
Filter by Custom Post Type
Zkuste vyhledat např.   Gramatika, Čeština, Pravopis

Crawl budget

Crawl budget je počet stránek, které vyhledávače projdou na webových stránkách v určitém časovém rámci. Proč vůbec vyhledávače přidělují webovým stránkám rozpočet na procházení (crawl budget)?

Protože nemají neomezené zdroje a svou pozornost rozdělují mezi miliony webových stránek. Potřebují tedy způsob, jak stanovit priority procházení. Přiřazení crawl budgetu jednotlivým webovým stránkám jim v tom pomáhá.

Přiřazování crawl budgetu

Crawl budget se stránkám přiřazuje na základě dvou faktorů: limitu procházení a poptávky po procházení:

  • Limit procházení anebo také zatížení hostitele označuje kolik procházení web zvládne a jaké jsou preference jeho majitele.
  • Požadavek na procházení či plánování procházení pak udává, které adresy URL se nejvíce vyplatí znovu procházet na základě jejich popularity a toho, jak často jsou aktualizovány.

Crawl budget je v rámci SEO běžný termín, někdy se také označuje také jako crawl space nebo crawl time.

Crawl budget není jen o stránkách

Ve skutečnosti se crawl budget týká jakéhokoliv dokumentu, který vyhledávače prohledávají. Může jít o soubory JavaScript a CSS, varianty mobilních stránek, varianty hreflang či soubory PDF.

Zatížení hostitele v praxi

Zatížení hostitele, je důležitou součástí crawl budgetu. Vyhledávače jsou navrženy tak, aby zabránily přetížení webového serveru požadavky. Na zatížení hostitele má vliv celá řada faktorů nejzásadnější jsou následující dva:

  • Špatný stav platformy, tedy jak často požadované adresy URL vyprší nebo jak často server nahlásí chybu.
  • Množství webových stránek spuštěných na hostitelské platformě. Pokud vaše webové stránky běží na sdílené hostingové platformě se stovkami dalších webových stránek a máte poměrně rozsáhlé webové stránky, je limit procházení pro vaše webové stránky velmi omezený. Limit procházení se totiž určuje na úrovni hostitele. O limit procházení hostitele se musíte dělit se všemi ostatními weby, které na něm běží. Pokud se zatížením hostitele nejste spokojeni, bylo by pro vás zřejmě lepší mít dedikovaný server, který s největší pravděpodobností také masivně sníží dobu načítání pro vaše návštěvníky.

Další věcí, kterou je třeba zvážit, je sdílení hostitelské platformy pro oddělené mobilní a desktopové stránky. I ty mají sdílený limit pro procházení. Mějte to tedy na paměti.

Nezapomínejte na kapacitu zatížení samotného systému

I když mají systémy procházení vyhledávačů obrovskou kapacitu procházení, nakonec má ti ta svá omezení. Ve chvíli, kdy 80 % datových center společnosti Google přejde současně do režimu offline, se jejich kapacita procházení masivně sníží a následně se sníží rozpočet na procházení všech webových stránek.

Plánování procházení v praxi

Plánování prohledávání se týká určení hodnoty opětovného prohledávání adres URL. Na požadavek na procházení má opět vliv mnoho faktorů, mezi které patří např:

  • Popularita, tedy kolik má adresa URL příchozích interních a externích odkazů, ale také množství dotazů, které na ni směřuje.
  • Čerstvost: jak často je adresa URL aktualizována.
  • Typ stránky: zda je pravděpodobné, že se typ stránky bude měnit. Vezměme si například stránku kategorie produktů a stránku s obchodními podmínkami – která z nich se podle vás mění nejčastěji a zaslouží si častější procházení?

Zajímejte se o crawl budget!

Je vaším zájmem, aby vyhledávače našly a pochopily co nejvíce vašich indexovatelných stránek. Zároveň a chcete aby to udělaly co nejrychleji. Když přidáváte nové stránky a aktualizujete stávající, přejete si aby je vyhledávače zachytily co nejdříve. Čím dříve stránky zaindexují, tím dříve z nich budete moci těžit.

Pokud však rozpočtem na procházení plýtváte, vyhledávače nebudou moci váš web efektivně procházet. Budou trávit čas částmi webu, které nejsou důležité, což může vést k tomu, že důležité části webu zůstanou neobjeveny. Pokud o stránkách nebudou vědět, nebudou je procházet a indexovat a vy na ně nebudete moci přivést návštěvníky prostřednictvím vyhledávačů.

Sami nyní asi vidíte, k čemu to vede: plýtvání rozpočtem na crawlování poškozuje vaši výkonnost v oblasti SEO.

Myslete na to, že o rozpočet na procházení je obecně třeba se starat pouze v případě, že máte velký web, řekněme 10 000 stránek a více.

Jaký je crawl budget pro váš web?

Co se týče crawl budgetu, je nejtransparentnějším vyhledávačem Google.

Pokud máte své webové stránky ověřené v Google Search Console, můžete získat určitý přehled o crawl budgetu vašich webových stránek pro Google.

Postupujte podle následujících kroků:

  • Přihlaste se do služby Google Search Console a vyberte webovou stránku.
  • Přejděte do části Procházení > Statistiky procházení. Tam se můžete podívat na počet stránek, které Google prohledá za den.

Protože vždy je lepší spoléhat se na více zdrojů, zkontrolujte čas od času protokoly serveru, abyste zjistili, jak často na vaše webové stránky narážejí crawlery Google. Občas je zajímavé porovnat tyto statistiky s těmi, které jsou vykazovány v Google Search Console.

Optimalizace crawl budgetu

Optimalizace rozpočtu na procházení spočívá v tom, že se ujistíte, že žádný rozpočet na procházení není promarněn. V podstatě jde o odstranění příčin plýtvání crawl budgetu. Pokud byste porovnali tisíce webových stránek a u každé z nich zkontrolovali problémy s rozpočtem na procházení, rychle byste narazili na vzorec, který se opakuje. Většina webových stránek trpí stejným druhem problémů. Nejběžnější důvody plýtvání crawl budgetem jsou:

  • Přístupné adresy URL s parametry: Příkladem adresy URL s parametrem je https://www.example.com/toys/cars?color=black. V tomto případě se parametr používá k uložení výběru návštěvníka ve filtru produktů.
  • Duplicitní obsah: Stránky, které jsou si velmi podobné nebo úplně stejné, nazýváme „duplicitní obsah“. Příkladem jsou: zkopírované stránky, stránky s interními výsledky vyhledávání a stránky se značkami.
  • Nekvalitní obsah: stránky s velmi malým obsahem nebo stránky, které nepřinášejí žádnou přidanou hodnotu.
  • Nefunkční a přesměrované odkazy: nefunkční odkazy jsou odkazy odkazující na stránky, které již neexistují, a přesměrované odkazy jsou odkazy na adresy URL, které jsou přesměrovány na jiné adresy URL.
  • Zahrnutí nesprávných adres URL do mapy stránek XML: Neindexovatelné stránky a stránky, které nejsou indexovatelné, jako jsou adresy URL 3xx, 4xx a 5xx, by neměly být zahrnuty do mapy stránek XML.
  • Stránky s vysokou dobou načítání / time-outy: Stránky, které se načítají dlouho nebo se nenačtou vůbec, mají negativní dopad na váš crawl budget, protože to je pro vyhledávače znamení, že vaše webové stránky nemohou požadavek zvládnout, a tak mohou upravit váš limit pro procházení.
  • Vysoký počet neindexovatelných stránek: Web obsahuje mnoho stránek, které nejsou indexovatelné.
  • Špatná struktura interních odkazů: Pokud není struktura interních odkazů správně nastavena, vyhledávače nemusí některým vašim stránkám věnovat dostatečnou pozornost.

Přístupné adresy URL s parametry

Ve většině případů by adresy URL s parametry neměly být pro vyhledávače přístupné, protože mohou generovat prakticky nekonečné množství adres URL. Adresy URL s parametry se běžně používají při implementaci filtrů produktů na e-shopech. Jejich použití je v pořádku, jen se ujistěte, že nejsou přístupné vyhledávačům.

Jak je můžete znepřístupnit vyhledávači?

Pomocí souboru robots.txt můžete vyhledávačům nařídit, aby k takovým adresám URL neměly přístup. Pokud to z nějakého důvodu není možné, použijte nastavení manipulace s parametry URL v nástroji Google Search Console či Bing Webmaster Tools, abyste společnosti Google a Bing instruovali, které stránky nemají procházet.

Duplicitní obsah

Nechcete, aby vyhledávač trávil čas na stránkách s duplicitním obsahem, proto je důležité duplicitnímu obsahu na webu zabránit nebo ho alespoň minimalizovat:

  • Nastavením přesměrování webu pro všechny varianty domény (HTTP, HTTPS, non-WWW a WWW).
  • Znepřístupněním interních stránek s výsledky vyhledávání vyhledávačům pomocí souboru robots.txt.
  • Zakázání vyhrazených stránek pro obrázky.
  • Opatrnost při používání taxonomií, jako jsou kategorie a značky.

Nekvalitní obsah

Stránky s velmi malým obsahem nejsou pro vyhledávače zajímavé. Omezte je na minimum, nebo se jim pokud možno zcela vyhněte. Jedním z příkladů nekvalitního obsahu je sekce FAQ s odkazy na zobrazení otázek a odpovědí, kde je každá otázka a odpověď servírována přes samostatnou adresu URL.

Nefunkční a přesměrovávací odkazy

Nefunkční odkazy a dlouhé řetězce přesměrování jsou pro vyhledávače slepou uličkou. Zdá se, že podobně jako prohlížeče sleduje Google při jednom procházení maximálně pět zřetězených přesměrování (později může v procházení pokračovat). Není jasné, jak dobře se s následnými přesměrováními vypořádávají ostatní vyhledávače, ale důrazně doporučujeme se řetězovým přesměrováním zcela vyhnout a omezit používání přesměrování na minimum.

Je jasné, že opravou nefunkčních odkazů a přesměrováním odkazů můžete rychle získat zpět promarněný rozpočet na procházení. Kromě obnovení rozpočtu na procházení také výrazně zlepšíte uživatelský zážitek návštěvníka. Přesměrování, a zejména řetězce přesměrování, způsobují delší dobu načítání stránky, a tím poškozují uživatelský zážitek.

Nesprávné adresy URL v mapách stránek XML

Všechny adresy URL obsažené v mapách stránek XML by se měly týkat indexovatelných stránek. Zejména u velkých webů se vyhledávače při vyhledávání všech vašich stránek do značné míry spoléhají na mapy XML sitemaps. Pokud jsou vaše mapy XML sitemaps přeplněné stránkami, které například již neexistují nebo jsou přesměrovány, plýtváte rozpočtem na procházení. Pravidelně kontrolujte mapu stránek XML, zda v ní nejsou neindexovatelné adresy URL, které tam nepatří. Kontrolujte i opačný postup: hledejte stránky, které jsou z mapy stránek XML nesprávně vyloučeny. Mapa stránek XML je skvělý způsob, jak pomoci vyhledávačům rozumně vynakládat rozpočet na procházení.

Jedním z osvědčených postupů pro optimalizaci rozpočtu na procházení je rozdělení mapy stránek XML na menší mapy stránek. Můžete například vytvořit mapy stránek XML pro každou sekci svých webových stránek. Pokud to uděláte, můžete rychle zjistit, zda se v určitých sekcích vašeho webu dějí nějaké problémy.

Stránky s vysokou dobou načítání

Pokud se stránky načítají dlouho nebo se jejich načítání protahuje, vyhledávače mohou v rámci přiděleného rozpočtu na procházení vašeho webu navštívit méně stránek. Kromě této nevýhody, vysoké doby načítání stránek výrazně poškozují uživatelský zážitek návštěvníků, což má za následek nižší míru konverze.

Problémem jsou doby načítání stránek nad dvě sekundy. V ideálním případě se vaše stránka načte za méně než jednu sekundu. Pravidelně kontrolujte dobu načítání stránek pomocí nástrojů, jako je Pingdom, WebPagetest nebo GTmetrix.

Společnost Google podává zprávy o době načítání stránek jak v nástroji Google Analytics (v části Chování > Rychlost webu), tak v Google Search Console v části Procházení > Statistiky procházení.

Google Search Console i nástroje Bing Webmaster Tools vykazují časové výpadky stránek. V konzole Google Search Console je najdete v části Crawl > Crawl Errors a v nástrojích Bing Webmaster Tools v části Reports & Data > Crawl Information.

Pravidelně kontrolujte, zda se vaše stránky načítají dostatečně rychle, a pokud se nenačítají, okamžitě podnikněte kroky. Rychle se načítající stránky jsou pro váš online úspěch zásadní.

Vysoký počet neindexovatelných stránek

Pokud váš web obsahuje vysoký počet neindexovatelných stránek, které jsou přístupné vyhledávačům, v podstatě zaměstnáváte vyhledávače procházením irelevantních stránek.

Za neindexovatelné stránky považujeme následující typy stránek:

  • Přesměrování (3xx)
  • Stránky, které nelze nalézt (4xx).
  • Stránky s chybami serveru (5xx)
  • Stránky, které nejsou indexovatelné (stránky, které obsahují směrnici robots noindex nebo kanonickou adresu URL).

Špatná struktura interních odkazů

To, jak na sebe stránky vašeho webu odkazují, hraje velkou roli při optimalizaci rozpočtu na procházení. Tomu říkáme vnitřní struktura odkazů vašeho webu. Nehledě na zpětné odkazy, stránky, které mají málo interních odkazů, získávají mnohem méně pozornosti vyhledávačů než stránky, na které odkazuje mnoho stránek.

Vyhněte se velmi hierarchické struktuře odkazů, kdy stránky uprostřed mají málo odkazů. V mnoha případech nebudou tyto stránky často procházeny. Ještě horší je to se stránkami na konci hierarchie: kvůli omezenému množství odkazů je vyhledávače dost možná budou přehlížet.

Dbejte na to, aby vaše nejdůležitější stránky měly dostatek interních odkazů. Stránky, které byly nedávno procházeny, se obvykle ve vyhledávačích umisťují lépe. Mějte to na paměti a přizpůsobte tomu strukturu interních odkazů.

Máte-li například článek na blogu z roku 2011, který přivádí hodně organické návštěvnosti, ujistěte se, že na něj stále odkazují další články. Protože jste v průběhu let vytvořili mnoho dalších blogových článků, je tento článek z roku 2011 automaticky odsunut ve struktuře interních odkazů vašeho webu.

Jak zvýšíte rozpočet na procházení webu?

Přestože společnost Google upustila od veřejné aktualizace hodnot PageRanku stránek, domníváme se, že určitá forma PageRanku se v jejích algoritmech stále používá. Protože PageRank je špatně chápaný a matoucí termín, nazvěme jej autorita stránky. Mezi autoritou stránky a rozpočtem na procházení je docela silný vztah.

Chcete-li tedy zvýšit rozpočet na procházení stránek, musíte zvýšit autoritu svých stránek. Velký podíl na tom má získávání většího počtu odkazů z externích webových stránek.

  •  
  •  
  •  
  •  

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

*

Ostatní uživatelé také četli:

Stalo se vám, že se na vašem profilu zničehonic začal zvěřejňovat cizí obsah? Nebo máte někoho takového ve svém okolí? Útoky hackerů za cílem získání profilů jsou dnes běžnou záležitostí, a proto bychom je neměli brát na lehkou váhu. Rád bych tu s vámi sdílel pár tipů na to, jak se preventivně bránit a co...

Stejně jako dezinfekce, které se věnujeme zde, i dezinformace se dříve psala se s. A i nová pravidla ohledně pravopisu u tohoto slova jsou stejná jako u dezinfekce – základní, neutrální je varianta se z, dezinformace, zatímco varianta se s je příznaková, užíváme ji tedy pouze ve specifických případech – například odborných textech nebo pokud chceme,...

Ve slově přesvědčit se často chybuje. A to pravděpodobně kvůli výslovnosti, ve které se občas ztratí písmeno „d“. Proto si musíte správný pravopis slova přesvědčit i jeho příbuzných slov pamatovat. Bohužel neexistuje jednoduché pravidlo, či pomůcka, která by pravopis snadno objasnila. Pomoci si lze pouze použitím příbuzných slov -> svědčit, svědek, svědecký atd. Pravopisně SPRÁVNĚ...

Mezi psacími potřebami najedeme i jednu, jejíž název nám může pěkně zavařit. Jedná se o fix, který známe také jako fixu nebo fixku. Ale který z těchto názvů je správný? Pouze ten první, tedy fix v rodě mužském. Fixa v ženském rodě se používá celkem často, takže se do Slovníku spisovné češtiny nejspíše dostane, zatím tam však není....

Mítink je setkání, schůzka nebo veřejné shromáždění. V posledních letech se slovo mítink používá v češtině velice často. Zejména v kancelářských zaměstnáních. Proto byste měli vědět, jaký je správný pravopis. Pojďme tedy k češtině. Pravopisně SPRÁVNĚ je mítink Mítink je slovo cizího původu. Kořeny má v anglickém výrazu meeting. Původní podoba je však v současné češtině považována za nespisovnou. Chybným variantám...

Stačí změna jednoho jediného písmena a hned má slovo úplně jiný význam. Dvojice slov pykat i pikat je pravopisně správně, ale musíme je používat ve správných významech. Pykat = nést trest, trpět!V tomto případě je pravopis jasný, protože sloveso pykat patří mezi vyjmenovaná slova po „p“.Pikat (lze i pikolovat) = hlídat pikolu při hře na pikanou!U slovesa...

Jedná se o zkratku, která vznikla z anglických slov picture element, což v překladu znamená obrazový prvek. Je to termín, který je spojován s počítačovou grafikou. Pixel je nejmenší jednotkou digitální rastrové (bitmapové) grafiky. Stále si pod tím nedovedete nic představit? V tom případě to řekneme jednoduše.  Jeden pixel je například jeden svítící bod na monitoru. Jedná se o...

Obě varianty jsou pravopisně správné, ale je důležité věnovat pozornost kontextu, protože ten rozhoduje o délce měkkého „i“ ve slově. Jde o podobný jev jako u přídavných jmen lepicí × lepící, balicí × balící, pečicí × pečící, hasicí × hasící, mrazicí × mrazící, kropicí × kropící atd. ✅ Balicí – s krátkým „i“ funguje jako...

Abyste pochopili, jaké informace jsou na čárovém kódu uloženy, musíte nejprve vědět, co je to čárový kód a jak čárové kódy fungují. Čárový kód je zakódovaný obrázek, obvykle zobrazený černými a bílými čarami různé šířky, který obsahuje důležité informace snadno čitelné strojem. Čárové kódy ukládají informace pomocí symbolů, které se mohou lišit od čar až...

Mužské jméno Maxmilián bylo původně uměle vytvořeno pro syna císaře Fridricha III. z latinského jména Maximus. Jméno se vyskytuje také v podobě Maximilián a Maxmilian. Kdy slaví Maxmilián svátek?Maxmilián slaví, podle českého občanského kalendáře, svátek 29. května (29.5.).Domácké podoby jména MaxmiliánMax,Maxík,Maxíček,Maxa.Maxmilián a statistikaKolik žije v ČR MaxmiliánůK 29. 5. 2022 žije v České republice 2...
Načíst dalších 10 článků