Saltar al contenido

Diversión con robots.txt

robots-txt-ss-1920

Uno de los temas más molestos en el SEO técnico es robots.txt. Rara vez hay un problema interesante para resolver en un archivo, y la mayoría de los errores provienen de no entender las directivas o errores de tipeo. El propósito general de un archivo robots.txt es simplemente sugerir a los enumeradores dónde pueden y dónde no pueden ir.

Partes básicas del archivo robots.txt

  • Agente de usuario – determina qué robot.
  • Rechazar – sugiere que los robots no se arrastren en esta área.
  • Permitir – permite que los robots se arrastren por esta zona.
  • retardo de fluencia – le dice a los robots que esperen una cierta cantidad de segundos antes de continuar arrastrándose.
  • mapa del sitio – especifica la ubicación del mapa de ubicación.
  • Sin índice – Le dice a Google que elimine páginas del índice.
  • # – comentó la línea para que no se lea.
  • * – corresponde a cualquier texto.
  • ps – La URL debe terminar aquí.

Otras cosas que debes saber sobre robots.txt

  • Robots.txt debe estar en la carpeta principal, es decir. dominio.com/robots.txt.
  • Cada subdominio necesita su propio archivo robots.txt: www.dominio.com/robots.txt no es lo mismo que dominio.com/robots.txt.
  • Los lanzadores pueden ignorar robots.txt.
  • Las URL y los archivos robots.txt distinguen entre mayúsculas y minúsculas.
  • Disallow simplemente sugiere que los indexadores no van a la ubicación. Mucha gente usa esto para tratar de desindexar páginas, pero no funciona. Si alguien se vincula a la página desde el exterior, aún se mostrará en los SERP.
  • Google no respeta los retrasos en el rastreo, pero puede administrar su configuración de rastreo en Google Search Console.
  • Permita CSS y JS, según Gary Illyes de Google:

Agente de usuario: robot de Google
Permitir: .js
Permitir: .css

  • Verifique su archivo robots.txt en Google Search Console y Bing Webmaster Tools.
  • Noindex funcionará, según Eric Enge de Stone Temple Consulting, pero un analista de Google Webmaster Trends John Mueller no recomienda su uso. Es mejor no indexar a través de un robot objetivo o x-robot.
  • No bloquee la indexación para evitar la duplicación de contenido. Obtenga más información sobre cómo Google consolida las señales en torno al contenido duplicado.
  • No prohibir las páginas que se redirigen. Las arañas no podrán rastrear el desvío.
  • Deshabilitar páginas evita que se muestren versiones anteriores en archive.org.
  • Puede buscar en archive.org versiones anteriores de robots.txt; solo ingrese la URL, es decir. dominio.com/robots.txt.
  • El tamaño máximo del archivo robots.txt es de 500 KB.

¡Ahora las cosas divertidas!

Muchas empresas han hecho cosas creativas con sus archivos robots.txt. ¡Vea los siguientes ejemplos!

Artes y trabajos ASCII

Nike.com tiene un aspecto agradable en su eslogan dentro de su robots.txt, «simplemente gatea», pero también han incluido su logotipo.

Seer también usa el arte y tiene un mensaje sobre el reclutamiento.

TripAdvisor tiene un mensaje de empleo directamente en el archivo robots.txt.

Robots divertidos

A Yelp le gusta recordar a los robots que las tres leyes de Asim están vigentes.

Así como last.fm.

Según YouTube, ya hemos perdido la guerra contra los robots.

One Power tiene una buena referencia a «Star Wars» en su archivo robots.txt.

Google quiere asegurarse de que Larry y Sergey Brin estén a salvo de los Terminators en su archivo killer-robots.txt.

¿Quién puede ignorar la primera página de Internet? Reddit hace referencia a Bender de «Futurama» y Gorta de «The Day the Earth Stood Still».

Humanos.txt?

Humans.txt se describe a sí mismo como “Una iniciativa para conocer a las personas que hay detrás de la web. Es un archivo TXT que contiene información sobre las diferentes personas que contribuyeron a construir el sitio web”. Me sorprendió ver esto con más frecuencia de lo que pensaba cuando probé varios dominios. Echa un vistazo a https://www.google.com/humans.txt.

Solo estoy usando robots.txt para molestar a la gente ahora mismo

Uno de mis ejemplos favoritos es de oliv mason, que prohibe todo y se despide de su blog, solo para permitir que cada ficha individual siga adelante en el expediente. Como comenta al final, sabe que es una mala idea. (No solo lea robots.txt aquí, en serio, lea todo el sitio web de este tipo).

Tengo un archivo robots.txt en mi sitio web personal para meterme con la gente también. El archivo comprueba bien, aunque a primera vista parecería que estoy bloqueando todos los navegadores.

La razón es que guardé el archivo BOM (marca de orden de bytes) al principio, lo que hace que mi primera línea no sea válida, como puede ver cuando busco la verificación en Google Search Console. Con la primera fila no válida, Disallow no tiene una referencia de agente de usuario, por lo que tampoco es válida.

Páginas indexadas que no deberían existir

Si está buscando «World’s Best SEO», encontrará una página en el sitio web de Matt Cutts que en realidad no existe. Mofo SEO seleccionó un directorio (/archivos) que está bloqueado por https://www.mattcutts.com/robots.txt. La única información que Google tiene sobre esta página son enlaces hechos a una página inexistente. Si bien la página es 404, Google todavía la muestra en los resultados de búsqueda con el texto de anclaje de los enlaces.

Todo el maldito sitio web dentro de robots.txt

Pensé Alec Bertram, esta asombrosa hazaña ha sido registrada en otro lugar excepto en su archivo robots.txt. Tiene un camino, una fuente e incluso un menú para guiarte.

Esto también se usó en vinna.cc para incrustar todo el juego en un archivo. ¡Ve a https://vinna.cc/robots.txt y juega Robots Robots Revolution!


Las opiniones expresadas en este artículo pertenecen al autor invitado y no necesariamente a Search Engine Land. Los autores empleados se enumeran aquí.