¿Qué es el scraping malicioso, cómo puede afectar a las empresas y cómo minimizar sus riesgos?

El scraping es una técnica de OSINT (Open Source Intelligence) que automatiza la extracción y el análisis de grandes volúmenes de información. Este proceso permite a la empresas recopilar datos de sitios web o redes sociales —mediante herramientas, extensiones y librerías— para realizar investigaciones de mercado, identificar tendencias y analizar el posicionamiento de la marca y la competencia.

Sin embargo, los cibercriminales también se valen de estas técnicas para obtener datos sensibles y vulnerar la seguridad de las organizaciones ¿Cuáles son esos riesgos?

Vulneración a la privacidad: Un ciberdelincuente puede recopilar datos personales sin el consentimiento del titular, sin importar que estos se encuentren públicos debido a un descuido por parte del editor.

Fraudes y estafas: La información obtenida puede ser utilizada para crear perfiles falsos, realizar fraudes financieros personalizados (spear phishing) y para realizar ataques de ingeniería social.

Afectación del desempeño de los sitios donde se realiza el scraping: Al estar ingresando y consumiendo recursos del portal o red social, la generación de tráfico puede tener un impacto negativo en el desempeño, haciendo que se ralentice o dejen de estar disponibles temporalmente.

Daño a la reputación: La obtención de datos personales puede usarse para fines malintencionados como el de perjudicar la reputación de una empresa y generar una pérdida de clientes por la desconfianza generada ante esa vulneración de información, impactando, además, en aspectos legales y financieros.

¿Qué pueden hacer los organismos para minimizar el scraping en sus sitios web?

Bloqueo de direcciones IP: La mayoría de los proveedores de la nube permiten a sus clientes realizar un monitoreo de las direcciones IP que visitan sus sitios, con la finalidad de identificar si en un periodo de tiempo se genera una cantidad de tráfico inusual proveniente de una dirección IP en particular (tráfico generado por algunos scrapers o bots), bloqueándola completamente. Sin embargo, este control puede superarse si los bots o scrapers tienen la posibilidad de cambiar su dirección IP a través de un proxy o VPN.

Configuración correcta del archivo “robots.txt”: La mayoría de las páginas en Internet contienen un archivo llamado “robots.txt”, el cual les indica a los buscadores como Google o Bing a qué recursos pueden acceder de la página web. Por ejemplo, controlar el acceso a los archivos de imágenes o bloquear acceso a los recursos o directorios que pueden ser de carácter privado, dando un mejor control. Para el caso de los scrapers estos pueden ser restringidos dentro de este archivo.

Filtrado de solicitudes por medio de agentes: Cuando se visita un sitio, se está solicitando ingresar a una página HTML del servidor. Esta solicitud o petición viene acompañada de factores de identificación como la dirección IP y el agente del usuario (user agent), los cuales contienen información sobre el dispositivo y el software que se está utilizando para acceder a la página web, como el nombre de la aplicación, la versión, el sistema operativo y el idioma. De igual manera, la mayoría de los proveedores de la nube, permiten filtrar a través del agente del usuario, el acceso a la información de una página web. Para el caso de los scrapers estos pueden verse limitados si son identificados desde cierta IP, versión del navegador o sistema operativo.

Uso del Captcha: El CAPTCHA es una prueba de seguridad que se utiliza para verificar que un usuario es humano y no un bot o programa automático. Su función es impedirle a un scraper obtener grandes volúmenes de información rápida y fácilmente.

Uso de honeypots: En el mundo de la informática una práctica común es la creación de servicios falsos como un servidor web o una base de datos, los cuales son propensos a ser atacados. Cuando los ciberdelincuentes caen en la trampa y atacan, los honeypots recogen y analizan los datos del ataque. Los datos se utilizan para obtener información sobre los ataques y su procedencia. Esta información se utiliza para preparar a los sistemas reales ante posibles amenazas como lo son los scrapers.

Higiene digital: Existen buenas prácticas para enfrentar ciberamenazas, entre las que se encuentran publicar lo mínimo necesario en las páginas oficiales para que el negocio continue. Si se está consciente y se toman las medidas adecuadas para proteger el acceso o divulgación de información personal en los sitios web expuestos para cualquier usuario (nombres y teléfonos de empleados, así como correos o extensiones) puede minimizarse el impacto de que un ciberdelincuente use scrapers para hacerse de esta.

Por último, el concientizar a los usuarios sin importar su nivel en el organigrama, es fundamental para identificar los riesgos que existen al momento de subir y consultar información en los distintos sitios de Internet.

Compartir noticia