Se suele reconocer porque se identifican en HTTP_USER_AGENT con algún nombre que empieza o termina en BOT y en el mismo nombre incluye una URL donde puedes tener más información. Por ejemplo en el HTTP_USER_AGENT del robot de google es Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) y en la URL que contiene podemos informarnos mejor.
Podemos confirmar que realmente es quien dice ser haciendo una resolución inversa de la dirección IP con la que se conecta.
Con la proliferación de estos sistemas pueden llegar a ser muy molesto, consumiendo gran parte del tráfico y del ancho de banda el servidor web. Puede llegar a ser necesario el identificar y gestionar los robots que visitan tu web. Puedes eliminar que recorran tu web, limitando su acceso en el fichero robots.txt
User-agent: {nombre del robot}
Disallow: /
Los más habituales que me he encontrado son los siguientes:
Googlebot
Es el robot de rastreo web de Google. Su función es recolectar toda la información de las páginas web para indexarlas y añadirla a sus bases de datos de su buscador.
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Bingbot
Es el equivalente al Googlebot del buscador de Microsoft, Bing.
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
AhrefsBot
Pertenece a Ahrefs.com web que da servicio de herramientas para SEO.
Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)
TurnitinBot
Es el robot de Turnitin.com se dedica a recopilar información para dar servicio a las instituciones educativas para evitar los plagios.
TurnitinBot/2.1 (http://www.turnitin.com/robot/crawlerinfo.html)
MJ12bot
Proyecto sobre la creación de un motor de búsqueda web basado en el concepto de distribuir la carga de trabajo similar al proyecto SETI.
Mozilla/5.0 (compatible; MJ12bot/v1.4.4; http://www.majestic12.co.uk/bot.php?+)
archive.org_bot
Robot de la Biblioteca nacional de España para la recolección de las páginas web de los dominios .es.
Mozilla/5.0 (compatible; archive.org_bot/3.1.2 +http://www.bne.es/es/LaBNE/PreservacionDominioES/AvisoWebmasters/index.html)
YandexBot
Es el robot de Yandex.com el buscador de internet más grande de Rusia.
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)