Odstránenie duplicitného obsahu
Pokiaľ máme na našich stránkach duplicitný obsah, môžeme ho úplne odstrániť, napríklad zmenou architektúry webu. Niekedy sa ale môže stať, že duplicitný obsah vyžadujú obchodné pravidlá. Môže to byť vtedy, ak dodávateľ produktov požaduje zhodný opis a kategórie pre dodávané produkty. V akýchto prípadoch nechceme duplicitný obsah odstrániť. Môžeme ho ale pred vyhľadávačmi skryť. Na výber máme dve možnosti skrytia duplicitného obsahu:
pomocou elementu meta robots,
pomocou vzorov v súbore robots.txt.
Použitie elementu meta robots
Pomocou tohto elementu môžeme skryť akýkoľvek obsah webu vo formáte HTML. Každú stránku zvlášť. Je to najjednoduchšia cesta. Obsah duplicitných webov skrývame pred pavúkmi, ktorí indexujú naše stránky. Preto sa aj tento element volá meta robots. Pre užívateľa takto upravená stránka ostáva viditeľná ako predtým. Pre vyčlenenie stránky z indexácie stačí do časti head dokumentu HTML napísať nasledovný kód:
Tento jednoduchý kód vyhľadávačom povie, že stránku nemajú indexovať noindex. Ďalej príkaz nofollow zakazuje vyhľadávačom nasledovať odkazy vedúce z tejto stránky. Ak by sme chceli stránku zakázať pre konkrétny typ vyhľadávača, stačí do elementu meta name uviesť konkrétneho pavúka. Napríklad pre Google by to vyzeralo nasledovne:
Táto metóda má jednu veľkú nevýhodu. Aby robot rozpoznal, či má stránku indexovať, musí stránku najskôr stiahnuť. Toto proces indexácie spomaľuje. Roboti môžu naše stránky predčasne opustiť, ak máme málo originálneho obsahu. Zároveň použitie tohto postupu je podmienené dvomi technickými obmedzeniami:
Pre použitie meta robots musíme mať k dispozícii zdrojový kód. Element vkladáme do generovaného kódu samotnej webovej aplikácie.
Je použiteľný len so súbormi vo formáte HTML. Nefunguje s obyčajným textom, štýlmi CSS, obrázkami a podobne.Tieto obmedzenia môžeme vyriešiť použitím súboru robots.txt. Aj tento postup má svoje obmedzenia. Ak nemáme k dispozícii zdrojový kód, je to jedná voľba.
Použitie robots.txt
Robots.txt je textový súbor. Musí byť uložený v koreňovom adresári našej webovej stránky. Súbory robots.txt, uložené v podadresároch, sú robotmi ignorované. V rámci jednej webovej aplikácie môže existovať len jeden súbor robots.txt. Formát tohto súboru je daný štandardom.
Tento postup nie je zabezpečovacím mechanizmom a nezabraňuje prístupu k súborom, ktoré sú v robots.txt uvedené. Súbor odporúča indexovacím robotom, aby stránky nezaraďovali do hlavnej databázy. Použitie je jednoduché, stačí do súboru s názvom robots.txt uložiť nasledovný kód:
Následne si opíšeme, čo daný zápis znamená. Riadky, ktoré začínajú na #, patria do komentárov a robot ich ignoruje. User-agent definuje, pre koho je určené vyradenie. Hviezdička znamená, že nasledovný záznam je určený pre všetkých robotov. Záznam Disallow určuje jedno alebo viac umiestnení, ktoré sa nemajú indexovať. V nasledovnom príklade je vyradenie všetkých URL, ktoré začínajú na /adresar. Tento zápis je určený pre googlebot.
Pri použití súboru robotx.txt môže nastať nasledovná situácia. Zadáme pravidlá, ktoré patria všetkým robotom. Pre googlebot zadefinujeme ešte jedno špeciálne pravidlo. Takúto situáciu vidíme na nasledovnom príklade:
V tomto prípade pre googlebot robota platí len pravidlo určené priamo jemu. Univerzálne pravidlo pre všetkých indexovacích robotov stráca pre neho platnosť. Je to dané tým, že pre jedného robota môže platiť len jedno pravidlo disallow. Preto ak by sme chceli, aby googlebot neindexoval aj adresy začínajúce /adresar, musíme doplniť individuálne pravidlo googlebot. Tento postup je uvedený v nasledovnom príklade.
Na záver tejto časti už len krátke zhrnutie. Problém duplicitného obsahu je v dnešnej dobe čím ďalej, tým viac aktuálny. Ideálny stav je, ak každá URL odkazuje na stránku s jedinečným obsahom. Takýto stav je reálne nemožný. Preto je nutné odstrániť čo najviac duplicity z webových stránok. Pokiaľ to nie je možné, môžeme vyhľadávačom zakázať indexovanie problematických častí našej stránky. Na dosiahnutie týchto cieľov máme k dispozícii element meta robots a súbor robots.txt.