El archivo robots.txt, es un archivo que nos permitirá restringir el acceso a las arañas de los buscadores, las arañas de búsqueda de lo que se encargan es de rastrear todo un sitio web para indexarlo en su base de datos, pero en ocasiones y sobre todo en SEO no siempre se quiere que se indexen todas las páginas de nuestro sitio web.
El archivo robots.txt es una forma de comunicarnos con los buscadores como lo son Google, Bing y otros, para indicarles que es lo que deben leer en nuestro sitio web, este archivo es fundamental en el posicionamiento SEO ya que nos ayudara con las palabra claves, este archivo nos ayudara a poder indicarle a los buscadores cuales son las paginas que están relacionadas con el posicionamiento SEO, para así ahorrarles tiempo a las arañas de búsqueda de Google por ejemplo.
El archivo robots.txt dicta recomendaciones para las arañas de búsqueda de los buscadores.
Este archivo es necesario en el posicionamiento SEO, igualmente este archivo nos puede ayudar para evitar el duplicado de contenido o restringir el acceso a las arañas de búsqueda a información que tengamos en alguna carpeta, ya que existen buscadores de información que en ocasiones revisan algunas carpetas para buscar e-mails para mandar spam.
El archivo robots.txt no es necesario que lo utilicemos en todos los sitios web pero si se recomienda usarlo, ya que en ocasiones no queremos que estas arañas de los buscadores indexen algún archivo y lo muestren en sus resultados de búsqueda, este archivo no es privado ya que cualquier persona puede ver nuestro archivo robots.txt, únicamente escribiendo la dirección web de la pagina y a continuación robots.txt.
El archivo robots.txt no es un indexador de sitios web si no que es una guía para los arañas de los buscadores, indicándoles que archivos deben rastrear.
Este archivo robots.txt es un archivo que debemos introducir en el directorio raíz del dominio, ya que si se encuentran en un subdirectorio las arañas no lo leerán y siempre se debe llamar “robots.txt”, como sabemos un sitio web está formado por un conjunto de páginas web y estas páginas están en una carpeta en un servidor y esa carpeta es la raíz del dominio.
Para crearnos nuestro archivo robots.txt prácticamente necesitaremos aprendernos 2 comandos que son: User-agent y Disallow, el User-agent va indicar a que araña del buscador van dirigidas las instrucciones, y Disallow lo utilizaremos para indicar a que pagina, archivo, o directorio de nuestro sitio web no deben acceder las arañas de los buscadores web.
En nuestro archivo robots.txt el comando Disallow siempre debe de comenzar con la barra inclinada (/) cuando queramos bloquear algún archivo.
Para evitar que se rastreen las páginas de nuestro sitio, sin impedir que se muestren anuncios de Google Adsense en nuestras páginas, deberemos inhabilitar el acceso a todos los robots que no sean de Mediapartners-Google, y quedaría de la siguiente manera:
Useragent: *
Disallow: /
Useragent: Mediapartners-Google
Allow: /
Ahora veamos algunos ejemplos:
User-agent: *
Disallow:/mipagina.php
En este ejemplo estamos indicando que todas las arañas de búsqueda no lean la pagina.php
Igualmente con el archivo robots.txt podremos indicarle a alguna araña en específico que no rastree un determinado archivo.
User-agent: Googlebot
Disallow: /entradasdelblog/
En este ejemplo le estamos indicando a la araña de Google que no rastree el directorio entradas del blog y lo que tenemos dentro.
Si queremos saber más acerca del archivo robots.txt, otras opciones que se pueden utilizar y algunos ejemplos de como crear un archivo robots.txt podemos visitar la página oficial.
Recuerda si te ha gustado este articulo llamado, Que es el archivo robots.txt y como crear uno, no olvides compartirlo.