Co je soubor Robots.txt v doméně?
Nástroje Pro Webmastery Webové Stránky Seo Hrdina / / March 19, 2020
Poslední aktualizace dne
Jednou z největších chyb pro nové majitele webových stránek není prohlížení jejich souboru robots.txt. Co to vlastně je a proč je to tak důležité? Máme vaše odpovědi.
Pokud vlastníte web a staráte se o stav SEO na svých stránkách, měli byste se seznámit se souborem robots.txt ve vaší doméně. Věřte tomu nebo ne, to je znepokojivě vysoký počet lidí, kteří rychle spouští doménu, instalují rychlý web WordPress a nikdy se neobtěžují dělat nic se svým souborem robots.txt.
To je nebezpečné. Špatně nakonfigurovaný soubor robots.txt může skutečně zničit stav SEO vašeho webu a poškodit všechny šance, které můžete mít pro zvýšení provozu.
Co je soubor Robots.txt?
Robots.txt soubor je výstižně pojmenován, protože v podstatě jde o soubor, který uvádí směrnice pro webové roboty (jako jsou roboty vyhledávacích strojů) o tom, jak a co mohou procházet na vašem webu. Toto je webový standard, po kterém následují webové stránky od roku 1994 a všichni hlavní weboví prohledávače dodržují tento standard.
Soubor je uložen v textovém formátu (s příponou .txt) v kořenové složce vašeho webu. Ve skutečnosti můžete soubor robot.txt libovolného webu zobrazit pouhým zadáním domény, za kterým následuje /robots.txt. Pokud to zkusíte s groovyPost, uvidíte příklad dobře strukturovaného souboru robota.txt.
Soubor je jednoduchý, ale účinný. Tento příklad souboru nerozlišuje mezi roboty. Příkazy jsou vydávány všem robotům pomocí User-agent: * směrnice. To znamená, že všechny příkazy, které jej následují, se vztahují na všechny roboty, které navštíví web, aby jej procházely.
Zadání webových prohledávačů
Můžete také určit konkrétní pravidla pro konkrétní webové prolézací moduly. Můžete například povolit, aby Googlebot (webový prohledávač Google) procházel všechny články na vašem webu, ale možná budete chtít zakažte ruskému webovému prolézacímu modulu Yandex Bot z procházení článků na vašem webu, které obsahují hanlivé informace Rusko.
Existují stovky webových prohledávačů, které vyhledávají na internetu informace o webech, ale zde je uvedeno 10 nejčastějších, o které byste se měli zajímat.
- Googlebot: Vyhledávač Google
- Bingbot: Vyhledávací stroj společnosti Microsoft Bing
- Slurp: Vyhledávací modul Yahoo
- DuckDuckBot: Vyhledávací modul DuckDuckGo
- Baiduspider: Čínský vyhledávací nástroj Baidu
- YandexBot: Ruský vyhledávací modul Yandex
- Exabot: Francouzský vyhledávací stroj Exalead
- Facebot: Procházení Facebooku
- ia_archiver: Alexův webový prohledávač
- MJ12bot: Velká databáze indexování odkazů
Vezmeme-li výše uvedený příklad, pokud chcete, aby Googlebot umožnil indexovat vše na vašem webu, ale chtěl blokovat Yandex v indexování obsahu vašeho ruského článku, přidali byste do robots.txt následující řádky soubor.
User-agent: googlebot
Disallow: Disallow: / wp-admin /
Disallow: /wp-login.php
User-agent: yandexbot
Disallow: Disallow: / wp-admin /
Disallow: /wp-login.php
Zakázat: / rusko /
Jak vidíte, první sekce blokuje Google pouze v procházení vaší přihlašovací stránky WordPress a administrativních stránek. Druhá sekce blokuje Yandex od stejného, ale také z celé oblasti vašeho webu, kde jste publikovali články s obsahem proti Rusku.
Toto je jednoduchý příklad, jak můžete používat Zakázat příkaz k ovládání konkrétních webových prolézacích modulů, které navštíví váš web.
Další příkazy souboru Robots.txt
Zakázat není jediný příkaz, ke kterému máte přístup v souboru robots.txt. Můžete také použít kterýkoli z dalších příkazů, které nasměrují, jak robot může procházet váš web.
- Zakázat: Upozorní uživatele-agenta, aby se vyhnul procházení konkrétních adres URL nebo celých částí vašeho webu.
- Dovolit: Umožňuje doladit konkrétní stránky nebo podsložky na vašem webu, přestože jste nadřazenou složku mohli zakázat. Například můžete zakázat: / about /, ale pak povolit: / about / ryan /.
- Zpoždění procházení: Tím se prozradí prolézacímu modulu, aby počkal xx počet sekund, než začne procházet obsah webu.
- Mapa stránek: Poskytněte vyhledávačům (Google, Ask, Bing a Yahoo) umístění souborů XML.
Mějte na paměti, že roboti budou pouze poslouchejte příkazy, které jste zadali, když zadáte název robota.
Častou chybou, kterou lidé dělají, je zakázání oblastí jako / wp-admin / od všech robotů, ale pak zadejte sekci googlebot a zakazujte pouze další oblasti (jako / about /).
Protože roboti se řídí pouze příkazy, které určíte v jejich části, je třeba znovu zopakovat všechny ostatní příkazy, které jste zadali pro všechny roboty (pomocí * user-agent).
- Zakázat: Příkaz používaný k tomu, aby uživatelskému agentovi řekl, aby neprolézal konkrétní URL. Pro každou adresu URL je povolen pouze jeden řádek „Zakázat:“.
- Povolit (platí pouze pro Googlebot): Příkaz informující Googlebot, že má přístup na stránku nebo podsložku, i když může být její nadřazená stránka nebo podsložka zakázána.
- Zpoždění procházení: Kolik sekund by měl prolézací modul čekat před načtením a procházením obsahu stránky. Googlebot tento příkaz neuznává, ale rychlost procházení lze nastavit v Google Search Console.
- Mapa stránek: Používá se k vyvolání umístění souborů XML Sitemap spojených s touto adresou URL. Tento příkaz je podporován pouze společnostmi Google, Ask, Bing a Yahoo.
Nezapomeňte, že soubor robots.txt má pomoci legitimním robotům (například robotům vyhledávacích strojů) procházet vaše stránky efektivněji.
Existuje spousta škodlivých prolézacích modulů, které procházejí váš web a dělají věci, jako je poškrábání e-mailových adres nebo krádež obsahu. Pokud chcete zkusit použít soubor robots.txt k blokování těchto prolézacích modulů v procházení něčeho na vašem webu, neobtěžujte se. Tvůrci těchto prolézacích modulů obvykle ignorují vše, co jste vložili do souboru robots.txt.
Proč něco zakazovat?
Pro většinu majitelů webových stránek je prvořadým cílem zajistit, aby vyhledávač Google mohl procházet co nejvíce kvalitního obsahu na vašem webu.
Google však vydává pouze omezené výdaje rozpočet procházení a rychlost procházení na jednotlivých stránkách. Míra procházení udává, kolik požadavků Googlebot za sekundu na váš web podá během události procházení.
Důležitější je rozpočet na procházení, což je počet celkových požadavků, které Googlebot podá pro procházení vašeho webu v jedné relaci. Google „utrácí“ svůj rozpočet pro procházení zaměřením na oblasti vašeho webu, které jsou velmi populární nebo se nedávno změnily.
Na tyto informace nejste slepí. Pokud navštívíte Nástroje pro webmastery Google, můžete vidět, jak prolézací modul zpracovává váš web.
Jak vidíte, prolézací modul udržuje aktivitu na vašem webu každý den stále konstantní. Prohledává všechny weby, ale pouze ty, které považuje za nejdůležitější.
Proč se rozhodnout, co je na vašem webu důležité, nechte na robotu Googlebot, když můžete pomocí souboru robots.txt sdělit, jaké jsou nejdůležitější stránky? Zabráníte tak Googlebotu plýtvat časem na stránkách s nízkou hodnotou na vašem webu.
Optimalizace rozpočtu procházení
Nástroje pro webmastery Google vám také umožňují zkontrolovat, zda Googlebot čte soubor robots.txt v pořádku a zda jsou nějaké chyby.
To vám pomůže ověřit, zda jste soubor robots.txt strukturovali správně.
Jaké stránky byste měli zakázat Googlebotu? Je dobré, aby vaše stránky SEO zakázaly následující kategorie stránek.
- Duplicitní stránky (jako stránky vhodné pro tisk)
- Děkuji stránkám, které sledují objednávky na základě formuláře
- Formuláře dotazů k objednávkám nebo informacím
- Kontaktní stránky
- Přihlašovací stránky
- Prodejní stránky olovnatých magnetů
Neignorujte váš soubor Robots.txt
Největší chybou, kterou majitelé nových webových stránek učiní, je, že se nikdy nedívají na soubor robots.txt. Nejhorší situace může být, že soubor robots.txt ve skutečnosti blokuje váš web nebo jeho části, aby se vůbec neprolezl.
Zkontrolujte soubor robots.txt a ujistěte se, že je optimalizovaný. Tímto způsobem Google a další důležité vyhledávače „uvidí“ všechny báječné věci, které na svém webu nabízíte světu.