Časté chyby v souboru Sitemap.xml

Při procházení většího množství webových stránek jsem zjistil, že mnoho webů nemá soubor Sitemap.xml. Zaskočilo mě to, domníval jsem se, že jde o samozřejmost. V případě, že soubor Sitemap.xml existoval, obsahoval chyby. V tomto článku si uvedeme nejčastější problémy, které se objevují v souvislosti se Sitemap.xml.

O Sitemap.xml

Nejprve si povězme něco o tomto důležitém souboru.

Soubor Sitemap je užitečný v těchto případech:

  • Web často mění svůj obsah a přibývají na něm nové stránky.
  • Webová stránka je nová.
  • Web obsahuje velký počet stránek, které je možné indexovat vyhledávači.
  • Webová stránka má složitou navigaci a některé stránky jsou pohřbeny hluboko v hierarchii stránek.
  • Web obsahuje stránky, které jsou těžko dostupné pro Googlebota / Seznambota při procházení.
  • Obsahové stránky jsou špatně nebo vůbec odkazovány v rámci webu.

Vlastníte-li web, který zapadá do některého z bodů v seznamu, doporučujeme soubor Sitemap vytvořit.

V souboru Sitemap ovlivníte následující body:

  • Nabídnete vyhledávačům kompletní seznam stránek vašeho webu a tím si pomůžete k indexaci všech stránek.
  • Informujete pomocí tagu <changefreq> vyhledávače, jak často je konkrétní stránka aktualizována.
  • Informujete pomocí tagu <priority> vyhledávače, které stránky jsou více důležité v rámci webu.

Více o Sitemap.xml najdete na na webu Sitemaps.org či v dokumentaci Seznamu.

Chyby souboru Sitemap.xml

Soubor Sitemap.xml neexistuje

Nejčastější a největší problém je absence souboru Sitemap. U některých druhů webových stránek nemusí jít o problém. Web s malým počtem stránek a nepřibývajícím obsahem tento soubor nemusí potřebovat. V opačném případě je soubor Sitemap užitečný a pomůže vyhledávačům k rychlejší indexaci, obzvlášť jedná-li se o nový web. Vytvořením tohoto souboru si pomůžete k aktuálním datům ve výsledku vyhledávání a rychlejší indexaci.

Sitemap.xml není předán vyhledávačům

Vyhledávače soubor Sitemap.xml najdou samy, protože by měl být umístěn v kořenovém adresáři webu a mít URL example.cz/sitemap.xml. Vyhledávače můžeme informovat o existenci tohoto souboru v robots.txt a ve webmaster tools. Do robots.txt stačí přidat následující řádek:

Sitemap: example.cz/sitemap.xml (example nahraďte doménou svého webu).

V Google webmaster tools je pro Sitemap vytvořena speciální záložka (procházení – soubory Sitemap). Zde se dozvíte informace, jak Google soubor zpracoval.

Chybný zápis v souboru

Zápis v souboru Sitemap je velmi jednoduchý, i přesto v něm najdeme u velkého počtu webů nedostatky. Rozeberme si chyby, které se v zápisu vyskytují nejčastěji.

 <? Xml version = "1.0" encoding = "UTF-8"?>

   <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

     <url>

       <loc> http://www.example.com/ </ loc>

       <lastmod> 2005-01-01 </ lastmod>

        <changefreq> monthly </ changefreq>

        <priority> 0.8 </ priority>

     </ Url>

   </ Urlset>

Nejčastější chybou, která se objevuje, je nevyplněná hlavička. Při tvorbě souboru se velmi často zapomíná na tyto dva řádky:

 <? Xml version = "1.0" encoding = "UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

Jedná se o informaci o kódování a odkaz na současný standardní protokol.

Stejné informace v <changefreq> a <priority>

Druhou nejčastější chybou jsou plošně vyplněny informace v tagu changefreq a priority. Je-li obsah v changefreq nastaven nesmyslně, mohou vyhledávače tuto hodnotu v budoucnu ignorovat.

V tagu priority velmi často najdeme u všech URL stejnou hodnotu, i když v rámci webu mají stránky odlišnou prioritu.

V případě, že se rozhodnete tyto nepovinné tagy do Sitemap zahrnout, zkuste si s informacemi, které předáváte vyhledávači, více pohrát. Jinak strávíte čas nad činností, které nebude mít žádný výsledek. V opačném případě doporučujeme se těmito tagy nezabývat.

Příliš velký soubor Sitemap

U velkých webů můžeme narazit na tzv. XML Sitemap index. Jedná se o skupinu více Sitemap.xml souborů. K tomuto řešení přistupují weby s velkým počtem URL. Myslete na to, že jeden soubor Sitemap.xml nesmí mít více než 50 000 URL adres a být větší než 10 MB. V případě, že má web více jak zmíněný počet URL, je potřeba vytvořit druhý soubor Sitemap.xml a oba soubory zahrnout do indexu. Výsledný soubor můžete komprimovat do gzip.

Zápis v indexu Sitemap:

<?xml version="1.0" encoding="UTF-8"?>

<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">



   <sitemap>

      <loc>http://www.example.com/sitemap1.xml.gz</loc>

      <lastmod>2004-10-01T18:23:17+00:00</lastmod>

   </sitemap>

 

   <sitemap>

      <loc>http://www.example.com/sitemap2.xml.gz</loc>

      <lastmod>2005-01-01</lastmod>

   </sitemap>

</sitemapindex>

Další časté chyby

Ve webmaster tools najdete chyby, na které vás Google při procházení souboru upozorní. Sitemap si zde můžete otestovat a zjistit, jaké chyby obsahuje. Existují i validátory Sitemap.

Neaktuální data v xml

V Sitemap nenajdeme nové stránky, které vznikly až po vytvoření souboru. V takovém případě se majitelé ochuzují o aktuální data ve výsledku vyhledávání.

Chyba komprese

Google nemohl soubor rozbalit. V takovém případě zkuste soubor znovu komprimovat.

Prázdný soubor Sitemap

V souboru nejsou žádné URL. Pokud v souboru nemáte žádné URL, je zbytečné ho vkládat ve webmaster tools. Zkontrolujte si soubor a jestli jsou URL ve správném tagu.

Chyba HTTP

Google nemohl zpracovat soubor Sitemap. Může se jednat o více chyb např. soubor je na stránce 404 (byl odstraněn) nebo chyby na serveru (HTTP hlavičky 5xx).

Použití špatných tagů

Může se stát, že Sitemap obsahuje tagy, které nejsou známé. Všechny podporované tagy najdete na webu http://www.sitemaps.org.

Neplatná hodnota v tagu

V konkrétním tagu se musí nacházet správný zápis. Jako příklad si uveďme hodnoty v tagu changefreq: Never – nikdy, Yearly – ročně, Monthly – měsíčně, Weekly – týdně, Daily – denně, Hourly – co hodinu, Always – neustále. Jiné hodnoty v tomto tagu jsou chybné.

Neplatné datum

Datum musí být ve správném kódování podle standardu. Informace najdete na http://www.w3.org/TR/NOTE-datetime.

Špatná URL

V Sitemap je špatný formát URL. Stránky musí mít URL v této podobě https://www.besteto.cz/sitemap-xml-chyby. Pozor na překlepy.

Neošetřené znaky v URL

Některé znaky v URL je potřeba zakódovat pomocí entity. Jedná se o ampersand, citace, znaky větší a menší než.

Přístup je blokován souborem robots.txt

V robots.txt je informace pro vyhledávače o zákazu přístupu do souboru Sitemap.

Velikost a překročení počtu URL

Soubor Sitemap nemohl být zpracován, protože překračuje stanovenou velikost a počet URL. V tomto případě je potřeba soubor komprimovat nebo rozdělit na více Sitemap a vytvořit index souborů.

Nemáte-li na webu vytvořenou mapu stránek (Sitemap), doporučujeme se tím zabývat. V našem článku najdete inspiraci, jakým chybám se vyhnout a jak by měl zápis vypadat. Zadáte-li tvorbu Sitemap.xml vašemu dodavateli e-shopového řešení, nezapomeňte si výstup zkontrolovat. Tyto náklady jsou jednorázové.

Komentáře

Já k tomu doplním ještě zmínku o různých on-line generátorech sitemap. Funguj tak, že do webové aplikace vložte adresu webu, tento nástroj váš web projde a sitemapu vytvoří. Vy si ji můžete následně vložit např. pomoc FTP na svůj web.

Tyto nástroje jsou nanic! Takto vygenerovaná mapa stránek za chvíli není aktuální, kvalita projití nebude vyšší, než v případě Seznamu či Google, zkrátka tyto nástroje problém NEřeší!

PS.: pokud máte pocit, že sitemapa je "SEO klišé" již stokrát diskutované, pak vězte, že chyby v nich jsou stále, dokola a velice často :(

Přidat komentář