Alex Cantalapiedra
Alex Cantalapiedra
Especialista SEO

Alex Cantalapiedra

Especialista SEO

Especialista Marketing Online

Freelance SEO

Artículo

La guía completa del robots.txt para SEOs

febrero 19, 2019 Uncategorized
La guía completa del robots.txt para SEOs

Esta guía está dirigida a profesionales de un nivel bajo hasta profesionales de nivel avanzado.

¿Qué es el Robots.txt?

El /robots.txt es un archivo que permite a los webmasters dar instrucciones a googlebot si se debe rastrear diferentes páginas de una web. Este archivo en la mayor parte de los casos se podrá encontrar añadiendo /robots.txt justo después del dominio:

  • https://www.nike.com/robots.txt
  • https://www.marca.com/robots.txt

Este archivo es importante tenerlo en cuenta para mejorar el rastreo de una web. Lo primero que hace googlebot cuando quiere rastrear una web es visitar el robots.txt para saber que tiene que rastrear y ahorrar recursos.

Normas principales del Robots.txt

User-agent

Cada robot de rastreo tiene su propio agent. Saber que robot quieres dejar pasar a tu web puede ser importante si quieres que no te rastreen la web según que motor de búsqueda. Por ejemplo:

  • User-agent: * //Cualquier robot puede acceder
  • User-agent: Google // Búsqueda de Google
  • User-agent: Googlebot -Image // Imágenes de Google
  • User-agent: AhrefsBot //Ahrefs webcrawler

Nota Importante. Un robot sólo prestará atención al grupo de instrucciones que tiene relación con su robots, las otras instrucciones serán ignoradas.

Disallow

Es un tipo de instrucción que bloquea al robot entrar al directorios o secciones entera de una web. Puede utilizarse también para bloquear todo un sitio web.

Para facilitar el bloqueo de directorios se pueden utilizar los sigentes patter-matching:

  • * : Cualquier secuencia de caracteres
  • $: coincide con el final de la url

Ejemplo:

Disallow: /blog/*/play$ //bloquea las urls que empiezan con /blog/ + URL que finalicen con “play”

Allow

Con la instrucción allow puedes permitir que los robots puedan acceder a esa dirección. Con esta instrucción puedes permitir que acceda a una URL en concreto anque todo el directorio este bloqueado (Disallow)

Craw-delay

Si un robot accede muchas veces a una web puede producir que vaya lenta, con esta instrucción puedes especificar un intervalo que no perjudique la web. Se puede encontrar casos que hay robots que ignoran este comando, por ejemplo: Googlebot o Bingbot.

Consejo del dia: Sitemap

UN consejo muy útil y que se utiliza la mayor parte de las veces, es incluir la URL del sitemap para que una de las cosas que haga el robots al entrar al robots.txt es dirijirse al sitemap donde tenemos todas las URLs.

Hay unas cosas que hay que tener en cuenta para este consejo:

  • Sitemap, debe ir siempre en mayuscula
  • Sitemap es totalmente independiente a las instrucciones del user-agent.

Elementos más utilizados

Acceso a toda la web

Bloquear el acceso

Bloquear cierta carpeta de la web

Bloquear un archivo en concreto

Añadir el Sitemap

Tipos de User-Agent

Agente de usuario#
Google [más detalles]
GooglebotBot de búsqueda regular de Google
Googlebot-ImageRobot de imagenes de google
Bing [más detalles]
BingbotBing regular de búsqueda de bot
MSNBotRastreador antiguo para Bing pero todavía en uso
MSNBot-MediaRastreador de imágenes de Bing
BingPreviewCreador de instantáneas de página [más detalles]
Yandex [más detalles]
YandexBotBot de búsqueda regular de Yandex
Imágenes de YandexRastreador de imágenes Yandex
Baidu [más detalles]
BaiduspiderBúsqueda de la araña principal para Baidu
Baiduspider-imagenRastreador de imágenes de Baidu
ApplebotCrawler para Apple. Utilizado para las sugerencias de Siri y Spotlight.
Herramientas SEO
AhrefsBotWebcrawler para Ahrefs
MJ12BotWebcrawler para Majestic
rogerbotWebcrawler para Moz
Misceláneo
DuckDuckBotWebcrawler para DuckDuckGo

Preguntas comunes

¿Es necesario tener un archivo robtos.txt?

Sí, es importante para que el robots no pierda tiempo rastreando páginas que no son de interés para el usuario.

Mi /robots.txt no tiene un Sitemap, ¿debo agregar uno?

Sí. Si bien definitivamente debería enviar su sitemap a través de la Consola de búsqueda de Google, es una buena idea agregarlo también a su archivo robots.txt. Es simple de hacer y evita que envíes tu mapa del sitio a todos los motores de búsqueda (Google, Bing, Yandex, Baidu tienen sus propias herramientas para webmasters). También ayuda a otros rastreadores (que no son motores de búsqueda) a encontrar su sitemap.

¿Son los directorios sensibles a mayúsculas y minúsculas?

Al igual que la mayoría de las URL, las reglas No permitir y Permitir distinguen entre mayúsculas y minúsculas. Asegúrese de que sus reglas sean el mismo caso que sus URL.

¿Cómo puedo probar los cambios en los archivos /robots.txt?

Robots.txt en la consola de búsqueda de google
El probador /robots.txt en la Consola de búsqueda de Google le permite verificar si una página específica es rastreable.

Hay algunos analizadores gratuitos de /robots.txt en línea, pero la forma más confiable es a través de la Consola de búsqueda de Google . Esto contiene una herramienta avanzada donde puede ingresar una URL y verificar si Google puede rastrearla.

Summary
Review Date
Reviewed Item
Robots.txt
Author Rating
51star1star1star1star1star
Write a comment