Mi Blog: ¿Plaga de arañas en tu web?

Los Spider-bots son programas que recorren tu web de forma metódica y automatizada. Aunque pueden tener varias finalidades, principalmente su utilidad es archivar toda la información de la web, en una base de datos e indexar el contenido, para usarlo como resultado de las búsquedas del buscador asociado.

Se suele reconocer porque se identifican en HTTP_USER_AGENT con algún nombre que empieza o termina en BOT y en el mismo nombre incluye una URL donde puedes tener más información. Por ejemplo en el HTTP_USER_AGENT del robot de google es Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) y en la URL que contiene podemos informarnos mejor.

Podemos confirmar que realmente es quien dice ser haciendo una resolución inversa de la dirección IP con la que se conecta.

Con la proliferación de estos sistemas pueden llegar a ser muy molesto, consumiendo gran parte del tráfico y del ancho de banda el servidor web. Puede llegar a ser necesario el identificar y gestionar los robots que visitan tu web. Puedes eliminar que recorran tu web, limitando su acceso en el fichero robots.txt

User-agent: {nombre del robot}

Disallow: /

Y en caso de que persista, bloqueado el tráfico para dicha IP.

Los más habituales que me he encontrado son los siguientes:

Googlebot

Es el robot de rastreo web de Google. Su función es recolectar toda la información de las páginas web para indexarlas y añadirla a sus bases de datos de su buscador.

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Bingbot

Es el equivalente al Googlebot del buscador de Microsoft, Bing.

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

AhrefsBot

Pertenece a Ahrefs.com web que da servicio de herramientas para SEO.

Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)

TurnitinBot

Es el robot de Turnitin.com se dedica a recopilar información para dar servicio a las instituciones educativas para evitar los plagios.

TurnitinBot/2.1 (http://www.turnitin.com/robot/crawlerinfo.html)

MJ12bot

Proyecto sobre la creación de un motor de búsqueda web basado en el concepto de distribuir la carga de trabajo similar al proyecto SETI.

Mozilla/5.0 (compatible; MJ12bot/v1.4.4; http://www.majestic12.co.uk/bot.php?+)

archive.org_bot

Robot de la Biblioteca nacional de España para la recolección de las páginas web de los dominios .es.

Mozilla/5.0 (compatible; archive.org_bot/3.1.2 +http://www.bne.es/es/LaBNE/PreservacionDominioES/AvisoWebmasters/index.html)

YandexBot

Es el robot de Yandex.com el buscador de internet más grande de Rusia.

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Y muchísimos más, ¿Controlas las ‘arañas’ que visitan tu web? ¿Sabes cuánto tráfico te generan? ¿Afectan al rendimiento de tu servidor web?

Mi Blog

lunes, 17 de marzo de 2014

¿Plaga de arañas en tu web?