fbpx
Tels: 5552735451 – 5544816687

Web Scraping: el plagio a páginas web.

webscrappingSe trata de una técnica que facilita la búsqueda y extracción de información de páginas web. La mayoría de las veces es utilizada para plagiar contenidos, lo cual afecta la competitividad de los negocios.

A través de esta técnica se pueden recolectar dirección de correo, perfiles de usuarios en redes sociales o foros, así como plagiar información periodística, artículos, blogs, información financiera, etcétera. Se puede hacer manualmente copiando los datos desde el navegador web, pero es más común que se practique por medio de herramientas automatizadas de rastreo y copia.

Hasta cierto punto, el web scraping puede utilizarse de manera lícita por comparadores de precios o investigadores de datos. Sin embargo, cuando es utilizado para obtener beneficios económicos se torna ilegal.

Para evitar el web scraping recomendamos utilizar cookies o Javascript. Así verificas que el usuario es un internauta real, ya que la mayoría de los web scrapers no procesan código javascript complejo. Un método todavía vigente es la inserción de captchas con la misma finalidad.

Es oportuno establecer límites de peticiones y conexiones a la página, debido a que un usuario humano es más lento que las herramientas automatizadas. Esconder o tergiversar los datos también es un buen escudo. O sea publicar el contenido en formato de imagen o flash, porque los web scrapers rastrean texto.

Aún tomando estas consideraciones evitar ataques de scraping es difícil porque es complicado diferenciarlos de los usuarios reales. Hay negocios que están más expuestos al plagio de contenido como las tiendas online, sitios de apuestas y compañías aéreas. Por esta razón es aconsejable proteger el contenido intelectual con un Firewall de Aplicaciones Web (WAF).

 

Omar Márquez

Facebook Comments