Una guía para prevenir el web scraping

El cofundador y director ejecutivo de Fingerprint, Dan Pinto, profundiza en los rumores que rodean al web scraping, sus implicaciones legales y éticas, y las estrategias para que las empresas protejan sus datos de los robots de scraping.

El raspado de datos, específicamente el raspado web, está en la mente de los líderes tecnológicos, reguladores y defensores de los consumidores. Los líderes de una docena de grupos internacionales de vigilancia de la privacidad enviaron a las redes sociales una declaraciónAbre una nueva ventana instándolas a proteger la información de los usuarios de los robots de raspado. Mientras tanto, X Corp (anteriormente conocida como Twitter) demandó a cuatro personas no identificadas por eliminar su sitio. Google y OpenAI también enfrentan demandas por violaciones de privacidad y derechos de autor relacionadas con el web scraping.

La extracción de datos no es ilegal. Es un gran negocio. Los expertos esperan que el valor de mercado del software de web scraping Abre una nueva ventana alcance casi 1.700 millones de dólares para 2030, frente a los 695 millones de dólares de 2022. El scraping puede ser útil, ya que nos permite realizar un seguimiento de los precios de los vuelos o comparar productos entre sitios. Las empresas lo utilizan para recopilar estudios de mercado o información agregada. Los modelos de lenguaje grande (LLM) populares como Bard y ChatGPT se entrenan con datos extraídos.

El web scraping existe desde hace muchos años. Entonces, ¿por qué se ha convertido en una palabra de moda que genera tanta preocupación? ¿Y qué pueden hacer las empresas para evitarlo?

Empecemos con lo básico. El web scraping suele utilizar robots para extraer información de los sitios web. La práctica tiene muchas aplicaciones, desde las útiles hasta las infames.

El web scraping es diferente del rastreo web. Los motores de búsqueda utilizan rastreadores web para indexar páginas web y proporcionar resultados de búsqueda a los usuarios que siguen un enlace a la fuente. El raspado de datos implica extraer los datos de la página y usarlos en otro lugar. Para usar una analogía: Crawling crea una lista de libros de la biblioteca para sacar prestados. Copias raspadas de los libros para que te las lleves a casa.

El scraping de IA, por otro lado, entra en un área gris porque no devuelve valor al creador del contenido original. Cuanto más desconectado esté el flujo de valor del autor original, menos ético será el robo de datos.

Ver más: Lucha contra el phishing y los ataques de vulneración del correo electrónico empresarial

Probablemente todos hayamos visto web scraping en sitios de búsqueda de viajes, listados de bienes raíces y agregadores de noticias, entre muchos otros. Sin embargo, la popularidad de la IA generativa está poniendo las preocupaciones en primer plano. Los ingenieros entrenan estos modelos con datos, incluida información personal y propiedad intelectual extraídas de la web. El LLM podría replicar la información de propiedad sin atribuir adecuadamente al creador. Los expertos creen que estos problemas de derechos de autorAbre una nueva ventana se dirigirán a la Corte Suprema de Estados Unidos.

Además, los scapers son cada vez más avanzados. Si bien el scraping técnicamente no cuenta como una violación de datos, muchos delincuentes utilizan la información para el mal, entre ellos:

Incluso los raspadores con buenas intenciones crean efectos dominó. Los bots consumen ancho de banda durante cada visita al sitio web, lo que provoca tiempos de carga más prolongados, mayores costos de alojamiento o interrupciones en el servicio. Y cualquier contenido duplicado resultante puede perjudicar la optimización de los motores de búsqueda.

Los formuladores de políticas y las agencias gubernamentales están considerando actualmente cómo poner barreras a los robots de scraping. Sin embargo, fallos recientes sugieren que las regulaciones pueden otorgar a los bots acceso a información disponible abiertamente.

Independientemente de las cuestiones éticas, las empresas pueden decidir qué datos poner a disposición.

Es imposible bloquear el 100% de los intentos de scraping. En cambio, su objetivo debería ser dificultar que los scrapers accedan a sus datos protegidos. Así es cómo.

Los bots envían muchas señales que los usuarios humanos no envían, incluidos errores, anulaciones de red e inconsistencias en los atributos del navegador. La inteligencia del dispositivo detecta estas señales para distinguir posibles raspadores. Los robots también actúan de manera diferente a los humanos. La inteligencia del dispositivo ayuda a monitorear el comportamiento de los visitantes para detectar acciones sospechosas, como muchos intentos de inicio de sesión o solicitudes repetidas de la misma información.

De manera realista, las empresas deben combinar varias características de seguridad para crear obstáculos suficientes para los bots. Con la creciente sofisticación de los raspadores, las protecciones requieren actualizaciones frecuentes para mantener la eficacia.

¿Resolveremos algún día el debate sobre el web scraping? Talvez no. Si bien la práctica no es intrínsecamente buena ni mala, las empresas deben decidir su nivel de comodidad con el grado de apertura de los datos y actuar en consecuencia para proteger sus activos.

¿Por qué son importantes las preocupaciones éticas y cómo pueden las empresas proteger los datos de los robots de scraping? Háganos saber en FacebookAbre una nueva ventana, XAbre una nueva ventana y LinkedInAbre una nueva ventana. ¡Nos encantaría saber de usted!

Fuente de la imagen: Shutterstock

CEO y cofundador de Fingerprint

Robots.txt:Cortafuegos de aplicaciones web (WAF):CAPTCHAInteligencia del dispositivoÚnete a Spiceworks

Noticias