lunes, 17 de marzo de 2014

¿Plaga de arañas en tu web?

Los Spider-bots son  programas que recorren tu web de forma metódica y automatizada. Aunque pueden tener varias finalidades, principalmente su utilidad es archivar toda la información de la web, en una base de datos e indexar el contenido, para usarlo como resultado de las búsquedas del buscador asociado.

¿Plaga de arañas en tu web?


Se suele reconocer porque se identifican en HTTP_USER_AGENT con algún nombre que empieza o termina en BOT y en el mismo nombre incluye una URL donde puedes tener más información. Por ejemplo en el HTTP_USER_AGENT del robot de google es Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) y en la URL que contiene podemos informarnos mejor.

Podemos confirmar que realmente es quien dice ser haciendo una resolución inversa de la dirección IP con la que se conecta.

Con la proliferación de estos sistemas pueden llegar a ser muy molesto, consumiendo gran parte del tráfico y del ancho de banda el servidor web. Puede llegar a ser necesario el identificar y gestionar los robots que visitan tu web. Puedes eliminar que recorran tu web, limitando su acceso en el fichero robots.txt

User-agent: {nombre del robot}
Disallow: /

Y en caso de que persista, bloqueado el tráfico para dicha IP.

Los más habituales que me he encontrado son los siguientes:

Googlebot

Es el robot de rastreo web de Google. Su función es recolectar toda la información de las páginas web para indexarlas y añadirla a sus bases de datos de su buscador.

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Bingbot

Es el equivalente al Googlebot del buscador de Microsoft, Bing.

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

AhrefsBot

Pertenece a Ahrefs.com web que da servicio de herramientas para SEO.

Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)

TurnitinBot

Es el robot de Turnitin.com se dedica a recopilar información para dar servicio a las instituciones educativas para evitar los plagios.

TurnitinBot/2.1 (http://www.turnitin.com/robot/crawlerinfo.html)

MJ12bot

Proyecto sobre la creación de un motor de búsqueda web basado en el concepto de distribuir la carga de trabajo similar al proyecto SETI.

Mozilla/5.0 (compatible; MJ12bot/v1.4.4; http://www.majestic12.co.uk/bot.php?+)

archive.org_bot

Robot de la Biblioteca nacional de España para la recolección de las páginas web de los dominios .es.

Mozilla/5.0 (compatible; archive.org_bot/3.1.2 +http://www.bne.es/es/LaBNE/PreservacionDominioES/AvisoWebmasters/index.html)

YandexBot

Es el robot de Yandex.com el buscador de internet más grande de Rusia.

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)


Y muchísimos más, ¿Controlas las ‘arañas’ que visitan tu web? ¿Sabes cuánto tráfico te generan? ¿Afectan al rendimiento de tu servidor web?



domingo, 2 de marzo de 2014

Como NO aparecer en Google.

Todos intentamos no solo aparecer en Google, sino buscamos la manera de que aparezcamos en los primeros resultados. Tarea difícil que ha llegado a convertirse en toda una profesión. Pero si por alguna razón nos interesa todo lo contrario, en ese caso es muchísimo más fácil.
Los buscadores de internet y no solo Google, utilizan robots para recorrer las webs. Almacenan e indexas sus contenidos en sus bases de datos.

Como NO aparecer en Google

Si queremos que el contenido público de nuestra red no aparezca en las búsquedas de Google, podemos indicárselo muy fácilmente a los robots que recopila esa información. Tan fácil como añadir el fichero robots.txt con el siguiente contenido:

User-agent: *
Disallow: /


De esta forma indica a todos los robots que no inspecciones la información de tu web. Si por algún motivo no pudieras añadir este tipo de fichero en tu web, también tiene la opción de añadir la siguiente etiqueta <META> en cada una de las páginas que no quiere que aparezca en las búsquedas:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">


Y como opción más rebuscada, si las páginas de tu web son dinámicas puedes evaluar las peticiones http identificar si el que hace la petición es el robot de algún buscador y variar la información que le muestras. Por ejemplo, el HTTP_USER_AGENT del robot de google se identifica como:

Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html)

Conclusión:


               El no aparecer en el buscador de Google, como de cualquier otro, es tan fácil como esto. No entiendo el revuelo que se forma porque aparezcan las noticias de la prensa digital en el buscador. A no ser que el problema no sea que aparezca sino que no se cobre por ello, ¿tú qué opinas?