Co je to duplicitní obsah a proč je pro SEO špatný?

Pod duplicitním obsahem si představte velmi podobný nebo přesně ten samý obsah, který se nachází na více URL adresách vašeho webu, nebo mimo něj. Duplicita je pro vyhledávače jedním z nejhorších faktorů a proto vám v dnešním návodu popíšeme, kde se můžou objevovat a jak je vyřešit.

Proč se vám vyplatí držet duplicitní obsah dál od webu?

V tom lepším případě znamenají duplicity pomalejší indexování, v tom horším případě porušujete autorská práva. Na třech příkladech vám vysvětlíme, proč představují duplicity tak vážný problém a jaké jsou následky:

1. Plýtvání crawl budgetem

Jestliže na webu máme hodně duplicitního obsahu, vyhledávače zpomalí indexování a později zaregistrují aktualizace na existující stránce. Vyhledávače procházejí obsah každé stránky a mají na to vyhraněný nějaký čas, který na webu stráví (crawl budget). Pokud tedy máme na webu mnoho duplicit, kterými se budou vyhledávače zabývat, tak se ve většině případů nedostanou na jiné stránky a odcházejí po stažení menšího množství unikátních stránek. Weby, které mají do 40 000 stránek se tím zabývat moc nemusí. Tento problém se týka hlavně webů, které mají nad 50 000 stránek.

2. Kopírování obsahu = porušování autorských práv

Kopírování obsahu je jedna z největších chyb, které můžete udělat. Kopírování konkurence, která prodává podobné produkty, je prostě tabu. Porušujete tím autorská práva. Spousta webů dělá taky tu chybu, že přebírá texty od dodavatelů (natáhnou si texty z feedu). Stejné texty má pak třeba 20 e‑shopů. Výhodu má pouze ten obchodník, kterému se podaří získat texty od dodavatele s dostatečným náskokem a stihne většinu zaindexovat dříve, než konkurence.

Pokud se stránka s originálním obsahem dostane do výsledků vyhledávání a někdo se ji rozhodne napodobit, zkopíruje její celý obsah a umístí je na své stránky, vyhledávače to poznají. Dotyčný web by se neměl nikdy dostat na takovou pozici jako ten první web. Jenom snad v případě pokud by se jednalo o velmi autoritativní web v porovnání s tím webem, který byl první (např. Alza).

3. Rozdělení autority zpětných odkazů

K rozdělení autority dochází v případě, že jsou stránky dostupné na více URL adresách a nemají nasazený element rel=”canonical” v HTML kódu hlavičce head. Více informací se dozvíte v článku o kanonizaci.

Časté příčiny vzniku duplicitního obsahu

parametrické filtrování v URL adresách,
sledovací parametry v URL adresách,
doména dostupná na více adresách,
použití velkých písmen v URL,
stránkování,
lokalizace a jazyková mutace.

Parametrické filtrování

Webové stránky (především e‑shopy) využívají parametry v URL. Pomocí nich můžeme filtrovat například trička podle barvy, značky, velikosti apod.

URL adresa s parametrem potom vypadá takto:

https://www.priklad.cz/kategorie/tricka?barva=cerna&velikost=m&pohlavi=muz

Tato stránka by měla zobrazit všechna trička, která mají velikost M, barvu černou a jsou pro muže.

Pro uživatele je to nejlepší řešení, protože během chvilky najdou, co potřebuji. Nicméně pro vyhledávače, už to tak skvělé není, protože chápou každou URL jako samostatnou stránku a budou chtít URL s parametry projít. Tím budou zbytečně plýtvat svoji kapacitu na duplicity. Filtrace mohou vytvořit stovky až tisíce URL adres se stejným obsahem, záleží kolik je dostupných kombinací v rámci filtrů.

Příklad URL, kdy záměnou pořadí vznikly další tři adresy se stejným obsahem:

https://www.priklad.cz/kategorie/tricka?barva=cerna&velikost=m&pohlavi=muz

https://www.priklad.cz/kategorie/tricka?velikost=m&pohlavi=muz&barva=cerna

https://www.priklad.cz/kategorie/tricka?pohlavi=muz&barva=cerna&velikost=m

Při obrovském množství URL adres se můžete dostat do problému ve chvíli, kdy budete chtít záměrně některé parametry indexovat, protože nemají vyhledávanost nebo nedávají smysl.

TIP! Šikovný programátor dokáže podobným případům zabránit tak, že určí vlastnostem jejich přesné pořadí v parametru URL.

Řešení: Jako řešení bychom doporučili kanonizaci.

Sledovací parametry v URL adresách

Sledovací parametry v URL se používají zejména pro trackování příchozí návštěvnosti na danou stránku. Hodně se používají například v newsletterech a PPC kampaních. Problém není v tom, že použijete parametry, ale až když někdo adresu včetně parametrů použije jako odkaz, místo té původní z vašeho webu, která parametry neobsahuje.

Řešení: I s tímto problémem si poradí kanonizace.

Doména dostupná na více adresách

4 možnosti jak mohou vypadat URL adresy domény:

https://www.priklad.cz

https://priklad.cz

http://www.priklad.cz

http://priklad.cz

První dvojice: obě jsou na zabezpečené verzi SSL. Liší se tím, že jedna varianta je s WWW a druhá varianta je bez WWW. Pokud budete mít doménu dostupnou na obou variantách,váš web tak bude zdvojený. U druhé dvojice je princip stejný. Liší se pouze tím, že nejsou na zabezpečeném protokolu SSL.

Pokud dojde k tomu, že bude web přístupný ze všech 4 URL adres, tak tím pádem vznikne 4x počet stránek na dané doméně.

Dále pak můžeme mít ještě situaci takovou, že za těmito adresami bude koncové lomítko:

https://www.priklad.cz/

https://priklad.cz/

http://www.priklad.cz/

http://priklad.cz/

Nejčastější příčinou těchto problému je špatné nastavení serveru.

Řešení: V souboru .htaccess přesměrovat adresy pomocí trvalého přesměrování 301 na jednu verzi.

Použití velkých písmen v URL

URL adresy rozlišují velká a malá písmena, což znamená, že adresa https://www.priklad.cz/tricka/ a https://www.priklad.cz/Tricka/ jsou rozdílné adresy, přestože rozdíl je jen v počátečním velkém písmenu.

Řešení: Vyberte si preferovanou strukturu URL adres a poté ostatní verze přesměrujte pomocí trvalého přesměrování 301.

Stránkování

Stránkování sděluje vyhledávačům, že se jedná o stránky, které jsou v sekvenci a mají stejný obsah. Často se používá u blogu (Obr. 1). To zaručí, že vyhledávač tyto stránky nebude brát jako duplikace.

Řešení: Je několik způsobů, pomocí kterých lze stránkování nasadit.

Atributy rel=”next” a rel=”prev” (pouze Google)

Google sdělil, že už tento atribut nepoužívá, nicméně podle dat tomu tak není. Použití atributů popisuje tento článek od Googlu.

Google Search Console (parametry)

V Google Search Consoli lze nastavit stránkování, za předpokladu, že URL adresy obsahují parametry typu: https://www.example.cz/blog/stranka=2. Jestliže vás tato problematika více zajímá, přečtěte si článek od Googlu, kde je vše dobře popsané.

Kanonizace

Na našem blogu jsme kanonizaci věnovali samostatný článek.

Meta tagy (Noindex, Follow)

Více se dozvíte na stránkách Google.

Lokalizace

Pokud budeme publikovat podobný či stejný obsah lidem v odlišných zemí, které ale mluví stejným jazykem, může se také jednat o duplicitní obsah. Například pokud budeme mít dvě verze stránek pro lidi v Anglii a USA.

Obě země mluví anglicky, proto je zde velká šance, že se bude jednat o duplicitní obsah.

Řešení: Na takové situace se používá atribut hreflang, podle kterého se dá určit, publikum pro danou zemi. Více se dozvíte zde.

Hledání duplicit se věnujeme v SEO auditu, který pro naše klienty děláme. Jestli byste rádi, abychom prohledali i váš web a zjistili, jestli na něm nemáte duplicitní obsah, napište nám.

06. 05. 2020