¿Qué es un archivo Robots.txt? ¿Y cómo se crea uno? (Guía para principiantes)

¿Sabía que tiene un control total sobre quién rastrea e indexa su sitio, hasta las páginas individuales?

La forma en que esto se hace es a través de un archivo llamado Robots.txt.

Robots.txt es un simple archivo de texto que se encuentra en el directorio raíz de su sitio. Le dice a los “robots” (como las arañas de los motores de búsqueda) qué páginas rastrear en su sitio, qué páginas ignorar.

Aunque no es esencial, el archivo Robots.txt le da mucho control sobre cómo Google y otros motores de búsqueda ven su sitio.

Cuando se usa correctamente, esto puede mejorar el rastreo e incluso impactar en el SEO.

¿Pero cómo se crea exactamente un archivo Robots.txt efectivo? Una vez creado, ¿cómo se utiliza? ¿Y qué errores debes evitar al usarlo?

En este post, compartiré todo lo que necesitas saber sobre el archivo Robots.txt y cómo usarlo en tu blog.

Vamos a sumergirnos:

¿Qué es un archivo Robots.txt?

En los primeros días de Internet, los programadores e ingenieros crearon “robots” o “arañas” para rastrear e indexar páginas en la web. Estos robots también son conocidos como “agentes de usuario”.

A veces, estos robots se abrían camino en páginas que los propietarios de los sitios no querían que fueran indexadas. Por ejemplo, un sitio en construcción o un sitio web privado.

Para resolver este problema, Martijn Koster, un ingeniero holandés que creó el primer motor de búsqueda del mundo (Aliweb), propuso un conjunto de normas a las que todo robot tendría que adherirse. Estos estándares fueron propuestos por primera vez en febrero de 1994.

El 30 de junio de 1994, varios autores de robots y los primeros pioneros de la web llegaron a un consenso sobre las normas.

Estas normas fueron adoptadas como el “Protocolo de Exclusión de Robots” (REP).

El archivo Robots.txt es una implementación de este protocolo.

El REP define un conjunto de reglas que todo rastreador o araña legítima debe seguir. Si el Robots.txt indica a los robots que no indexen una página web, todo robot legítimo, desde el Googlebot hasta el MSNbot, tiene que seguir las instrucciones.

Nota: Una lista de rastreadores legítimos se puede encontrar aquí.

Tengan en cuenta que algunos robots pícaros – malware, spyware, cosechadores de correo electrónico, etc. – podrían no seguir estos protocolos. Por eso es posible que veas tráfico de robots en páginas que has bloqueado a través de Robots.txt.

También hay robots que no siguen los estándares del REP que no se usan para nada cuestionable.

Puedes ver el robots.txt de cualquier sitio web yendo a esta url:

http://[dominio_de_sitio]/robots.txt

Por ejemplo, aquí está el archivo Robots.txt de Facebook:

Y aquí está el archivo Robots.txt de Google:

Uso de Robots.txt

Robots.txt no es un documento esencial para un sitio web. Su sitio puede clasificarse y crecer perfectamente sin este archivo.

Sin embargo, el uso del Robots.txt ofrece algunos beneficios:

  • Desalentar a los bots a que rastreen las carpetas privadas – Aunque no es perfecto, el hecho de no permitir que los bots rastreen las carpetas privadas hará que sean mucho más difíciles de indexar – al menos por los bots legítimos (como las arañas de los motores de búsqueda).
  • Controlar el uso de los recursos – Cada vez que un bot rastrea tu sitio, drena tu ancho de banda y los recursos del servidor – recursos que estarían mejor gastados en visitantes reales. En el caso de los sitios con mucho contenido, esto puede aumentar los costos y dar a los visitantes reales una mala experiencia. Puede utilizar Robots.txt para bloquear el acceso a scripts, imágenes sin importancia, etc. para conservar los recursos.
  • Priorizar las páginas importantes – Quiere que las arañas de los motores de búsqueda rastreen las páginas importantes de su sitio (como las páginas de contenido), no que desperdicien recursos escarbando en páginas inútiles (como los resultados de las consultas de búsqueda). Al bloquear dichas páginas inútiles, puede priorizar las páginas en las que se centran los robots.
Leer
Cómo añadir títulos de páginas específicas y descripciones a la categoría de WordPress y a los archivos de etiquetas

Cómo encontrar su archivo Robots.txt

Como su nombre lo indica, Robots.txt es un simple archivo de texto.

Este archivo se almacena en el directorio raíz de su sitio web. Para encontrarlo, simplemente abre tu herramienta FTP y navega al directorio de tu sitio web bajo public_html.

Este es un pequeño archivo de texto, el mío tiene poco más de 100 bytes.

Para abrirlo, usa cualquier editor de texto, como el Bloc de notas. Puede que veas algo como esto:

Existe la posibilidad de que no vea ningún archivo Robots.txt en el directorio raíz de su sitio. En este caso, tendrá que crear un archivo Robots.txt usted mismo.

Aquí está cómo:

Cómo crear un archivo Robot.txt

Como Robots.txt es un archivo de texto básico, crearlo es MUY sencillo: sólo hay que abrir un editor de texto y guardar un archivo vacío como robots.txt.

Para subir este archivo a tu servidor, usa tu herramienta FTP favorita (recomiendo usar WinSCP) para entrar en tu servidor web. A continuación, abre la carpeta public_html y abre el directorio raíz de tu sitio.

Dependiendo de cómo esté configurado su anfitrión web, el directorio raíz de su sitio puede estar directamente dentro de la carpeta public_html. O puede ser una carpeta dentro de eso.

Una vez que tengas abierto el directorio raíz de tu sitio, sólo tienes que arrastrar y apretar, y soltar el archivo Robots.txt en él.

Alternativamente, puede crear el archivo Robots.txt directamente desde su editor FTP.

Para ello, abra el directorio raíz de su sitio y haga clic con el botón derecho del ratón para crear un nuevo archivo.

En el cuadro de diálogo, escriba “robots.txt” (sin comillas) y pulse OK.

Deberías ver un nuevo archivo robots.txt dentro:

Por último, asegúrate de que has establecido el permiso correcto para el archivo Robots.txt. Quieres que el dueño – tú mismo – lea y escriba el archivo, pero no a otros o al público.

Su archivo Robots.txt debería mostrar “0644” como código de permiso.

Si no lo hace, haga clic con el botón derecho del ratón en su archivo Robots.txt y seleccione “Permisos de archivo…”

Ahí lo tienen, un archivo Robots.txt completamente funcional.

Pero, ¿qué puedes hacer realmente con este archivo?

A continuación, te mostraré algunas instrucciones comunes que puedes usar para controlar el acceso a tu sitio.

Cómo usar Robots.txt

Recuerde que Robots.txt esencialmente controla cómo los robots interactúan con su sitio.

¿Quieres bloquear el acceso de los motores de búsqueda a todo tu sitio? Simplemente cambie los permisos en Robots.txt.

¿Quieres bloquear a Bing para que no indexe tu página de contactos? También puedes hacer eso.

Por sí mismo, el archivo Robots.txt no mejorará su SEO, pero puede usarlo para controlar el comportamiento de las arañas en su sitio.

Para añadir o modificar el archivo, simplemente ábrelo en tu editor FTP y añade el texto directamente. Una vez que guardes el archivo, los cambios se reflejarán inmediatamente.

Aquí hay algunos comandos que puedes usar en tu archivo Robots.txt:

1. Bloquea todos los bots de tu sitio

¿Quieres impedir que todos los robots rastreen tu sitio?

Añade este código a tu archivo Robots.txt:

 Usuario-agente: *
Desacreditar: /

Así es como se vería en el archivo actual:

En pocas palabras, este comando le dice a cada agente de usuario (*) que no acceda a ningún archivo o carpeta de su sitio.

Aquí está la explicación completa de lo que está sucediendo aquí exactamente:

  • User-agent:* – El asterisco (*) es un carácter “comodín” que se aplica a cada objeto (como nombre de archivo o en este caso, bot). Si buscas “*.txt” en tu ordenador, te mostrará todos los archivos con la extensión .txt. Aquí, el asterisco significa que tu comando se aplica a cada usuario-agente.
  • Desacreditar: / – “Disallow” es un comando de robots.txt que prohíbe a un bot rastrear una carpeta. La única barra inclinada hacia adelante (/) significa que estás aplicando este comando al directorio raíz.

Nota: Esto es ideal si diriges cualquier tipo de sitio web privado, como un sitio de membresía. Pero ten en cuenta que esto evitará que todos los robots legítimos como Google rastreen tu sitio. Utilízalo con precaución.

2. Bloquear a todos los bots para que no accedan a una carpeta específica

¿Y si quieres evitar que los robots rastreen e indexen una carpeta específica?

Por ejemplo, la carpeta /imágenes?

Use este comando:

 Usuario-agente: *
No lo admita: /[nombre_de_la_carpeta]/

Si quisieras evitar que los bots accedieran a la carpeta /imágenes, así es como se vería el comando:

Este comando es útil si tienes una carpeta de recursos que no quieres llenar con peticiones de robots rastreadores. Puede ser una carpeta con scripts sin importancia, imágenes obsoletas, etc.

Nota: La carpeta /imágenes es sólo un ejemplo. No digo que debas bloquear a los bots para que no rastreen esa carpeta. Depende de lo que estés intentando conseguir.

Leer
Recortes destacados: Cómo clasificar la posición 0 en Google

Los motores de búsqueda suelen fruncir el ceño a los webmasters que bloquean a sus bots para que no rastreen las carpetas sin imagen, así que ten cuidado cuando uses este comando. He enumerado a continuación algunas alternativas a Robots.txt para evitar que los motores de búsqueda indexen páginas específicas.

3. Bloquear bots específicos de su sitio

¿Qué pasa si quieres bloquear a un robot específico, como Googlebot, para que no acceda a tu sitio?

Aquí está la orden para ello:

 Usuario-agente: [nombre del robot]
No lo admita: /

Por ejemplo, si quisieras bloquear a Googlebot de tu sitio, esto es lo que usarías:

Cada robot o agente de usuario legítimo tiene un nombre específico. La araña de Google, por ejemplo, se llama simplemente “Googlebot”. Microsoft ejecuta tanto “msnbot” como “bingbot”. El bot de Yahoo se llama “Yahoo! Slurp”.

Para encontrar los nombres exactos de los diferentes agentes-usuarios (como Googlebot, bingbot, etc.) utilice esta página.

Nota: El comando anterior bloquearía un bot específico de todo su sitio. Googlebot se usa puramente como ejemplo. En la mayoría de los casos, nunca querrá impedir que Google rastree su sitio web. Un caso de uso específico para bloquear bots específicos es mantener los bots que le benefician llegando a su sitio, mientras se detiene a los que no benefician a su sitio.

4. Bloquear un archivo específico para que no sea rastreado

El Protocolo de Exclusión de Robots le da un control fino sobre qué archivos y carpetas quiere bloquear el acceso de los robots.

Este es el comando que puedes usar para evitar que un archivo sea arrastrado por cualquier robot:

 Usuario-agente: *
No lo admita: /[nombre_de_carpeta]/[nombre_de_archivo.extension]

Así que, si quisieras bloquear un archivo llamado “img_0001.png” de la carpeta “imágenes”, usarías este comando:

5. Bloquear el acceso a una carpeta pero permitir que un archivo sea indexado

El comando “Disallow” bloquea a los bots el acceso a una carpeta o un archivo.

El comando “Permitir” hace lo contrario.

El comando “Permitir” reemplaza al comando “No Permitir” si el primero apunta a un archivo individual.

Esto significa que puede bloquear el acceso a una carpeta pero permitir que los agentes de usuario sigan accediendo a un archivo individual dentro de la carpeta.

Este es el formato a usar:

 Usuario-agente: *
No lo admita: /[nombre_de_la_carpeta]/
Permitir: /[nombre_de_carpeta]/[nombre_de_archivo.extension]/

Por ejemplo, si quisieras bloquear a Google para que no rastree la carpeta “imágenes” pero aún así quisieras darle acceso al archivo “img_0001.png” almacenado en ella, este es el formato que utilizarías:

Para el ejemplo anterior, se vería así:

Esto impediría que todas las páginas del directorio /búsqueda/ fueran indexadas.

¿Y si quisieras evitar que todas las páginas que coincidieran con una extensión específica (como “.php” o “.png”) fueran indexadas?

Usa esto:

 Usuario-agente: *
No lo admita: /*.extension$

El signo ($) aquí significa el final del URL, es decir, la extensión es la última cadena del URL.

Si quisieras bloquear todas las páginas con la extensión “.js” (para Javascript), esto es lo que usarías:

Este comando es particularmente efectivo si quieres evitar que los bots rastreen los scripts.

6. Evita que los robots rastreen tu sitio con demasiada frecuencia

En los ejemplos anteriores, puede que haya visto este comando:

 Usuario-agente: *
Retraso del gateo: 20

Este comando ordena a todos los bots que esperen un mínimo de 20 segundos entre las solicitudes de rastreo.

El comando Crawl-Delay se utiliza con frecuencia en sitios grandes con contenido actualizado con frecuencia (como Twitter). Este comando le dice a los bots que esperen un mínimo de tiempo entre las solicitudes subsiguientes.

Esto asegura que el servidor no se vea abrumado con demasiadas solicitudes al mismo tiempo de diferentes bots.

Por ejemplo, este es el archivo Robots.txt de Twitter que instruye a los bots a esperar un mínimo de 1 segundo entre solicitudes:

Incluso puedes controlar el retardo de gateo de los robots individuales. Esto asegura que no haya demasiados bots rastreando su sitio al mismo tiempo.

Por ejemplo, podrías tener un conjunto de comandos como este:

Nota: Realmente no necesitarás usar este comando a menos que estés ejecutando un sitio masivo con miles de páginas nuevas creadas cada minuto (como Twitter).

Errores comunes a evitar cuando se utiliza Robots.txt

El archivo Robots.txt es una poderosa herramienta para controlar el comportamiento de los robots en su sitio.

Sin embargo, también puede conducir a un desastre de SEO si no se usa correctamente. No ayuda el hecho de que haya una serie de conceptos erróneos sobre Robots.txt flotando en la red.

Aquí hay algunos errores que debes evitar al usar Robots.txt:

Error #1 – Usar Robots.txt para evitar que el contenido sea indexado

Si “Deshabilita” una carpeta en el archivo Robots.txt, los robots legítimos no la rastrearán.

Leer
Cómo escribir contenido que se clasifique en Google (y a tus lectores les encantará)

Pero, esto todavía significa dos cosas:

  • Los bots rastrearán el contenido de la carpeta enlazada desde fuentes externas. Digamos que si otro sitio web enlaza con un archivo dentro de tu carpeta bloqueada, los bots lo seguirán a través de un índice.
  • Los robots granujas: spammers, spyware, malware, etc. – normalmente ignoran las instrucciones de Robots.txt e indexan su contenido a pesar de todo.

Esto hace que Robots.txt sea una mala herramienta para evitar que el contenido sea indexado.

Esto es lo que deberías usar en su lugar: usa la etiqueta “meta noindex”.

Añade la siguiente etiqueta en las páginas que no quieras que sean indexadas:

Este es el método recomendado y fácil de usar por el SEO para evitar que una página sea indexada (aunque no bloquea a los spammers).

Nota: Si utilizas un plugin de WordPress como Yoast SEO, o All in One SEO; puedes hacerlo sin editar ningún código. Por ejemplo, en el plugin Yoast SEO puedes añadir la etiqueta noindex por cada publicación/página de esta manera:

Sólo tienes que abrir y publicar/pagar y hacer clic en el engranaje dentro de la caja de Yoast SEO. Luego haz clic en el menú desplegable junto a "Índice de meta robots".

Además, Google dejará de apoyar el uso de "noindex" en los archivos robots.txt a partir del 1 de septiembre. Este artículo de SearchEngineLand tiene más información.

Error #2 - Usar Robots.txt para proteger el contenido privado

Si tienes contenido privado - digamos, PDFs para un curso por correo electrónico - bloquear el directorio a través del archivo Robots.txt ayudará, pero no es suficiente.

Aquí está el porqué:

Su contenido puede ser indexado si está enlazado desde fuentes externas. Además, los robots deshonestos seguirán rastreándolo.

Un mejor método es mantener todo el contenido privado detrás de un inicio de sesión. Esto asegurará que nadie, ni los bots legítimos ni los pícaros, tengan acceso a tu contenido.

La desventaja es que significa que sus visitantes tienen un aro extra por el que saltar. Pero, su contenido será más seguro.

Error #3 - Usar Robots.txt para evitar que el contenido duplicado sea indexado

El contenido duplicado es un gran no-no cuando se trata de SEO.

Sin embargo, usar Robots.txt para evitar que este contenido sea indexado no es la solución. Una vez más, no hay garantía de que las arañas de los motores de búsqueda no encuentren este contenido a través de fuentes externas.

Aquí hay otras tres formas de duplicar a mano el contenido:

  • Borrar el contenido duplicado – Esto eliminará el contenido por completo. Sin embargo, esto significa que está llevando a los motores de búsqueda a 404 páginas – no es lo ideal. Debido a esto, la eliminación no es recomendable .
  • Usar redirección 301 – Una redirección 301 instruye a los motores de búsqueda (y a los visitantes) que una página se ha movido a una nueva ubicación. Simplemente agrega una redirección 301 en el contenido duplicado para llevar a los visitantes a tu contenido original.
  • Añadir etiqueta – Esta etiqueta es una versión ‘meta’ de la redirección del 301. La etiqueta “rel=canonical” le dice a Google cuál es la URL original de una página específica. Por ejemplo este código:

    <link />Le dice a Google que la página -página original.html- es la versión “original” de la página duplicada. Si usas WordPress, esta etiqueta es fácil de añadir usando Yoast SEO o All in One SEO.

Si quieres que los visitantes puedan acceder al contenido duplicado, usa la etiqueta. Si no quieres que los visitantes o los bots accedan al contenido, usa una redirección 301.

Tenga cuidado al implementar cualquiera de los dos porque impactarán en su SEO.

A ti

El archivo Robots.txt es un aliado útil para moldear la forma en que las arañas de los motores de búsqueda y otros bots interactúan con su sitio. Cuando se usan correctamente, pueden tener un efecto positivo en sus clasificaciones y hacer que su sitio sea más fácil de rastrear.

Use esta guía para entender cómo funciona Robots.txt, cómo está instalado y algunas formas comunes de usarlo. Y evita cualquiera de los errores que hemos discutido anteriormente.

Lecturas relacionadas:

  • Las mejores herramientas de rastreo de rangos para los blogueros, en comparación
  • 5 simples consejos de SEO de sitios web para mejorar sus clasificaciones
  • La guía definitiva para obtener los enlaces de situación de Google
  • 5 poderosas herramientas de investigación de palabras clave comparadas
  • Cómo aumentar su CTR en Google

Deja una respuesta