Algunos lo llaman robo, otros lo definen como la recopilación legítima de
información relacionada con los negocios, pero al parecer todos lo están
haciendo.
Screen scraping es un término acuñado en inglés que, en ese idioma, suena como a lo
que se le haría a los vidrios de un auto cubiertos de escarcha en una mañana
muy fría. Pero a lo que se refiere en internet es a copiar todos los datos que
contiene un sitio web.
"Todas las empresas lo hacen, y si te dicen que no, están
mintiendo", dice Francis Irving, director de Scraper Wiki, una
compañía que diseña herramientas que ayudan a diversas organizaciones a recabar
y organizar información de sus competidores.
Para copiar algún archivo en una computadora, el texto se subraya con el
ratón o con el teclado usando, por ejemplo, "Control+C". Pero copiar
un sitio web es más complicado debido a la manera en la que se disponen y
almacenan los datos.
Generalmente, se trata de un mecanismo informático intensivo que implica
visitar la página de internet en múltiples ocasiones para obtener todos los
dígitos y caracteres que se encuentran allí.
Recursos
dilapidados
Si el contenido cambia con frecuencia, los scrapers (que
realizan el procedimiento descrito con anterioridad) tienen que revisar el
sitio web con más regularidad para garantizar que tienen todos los datos.
"Hasta un 40% de las visitas que reciben las páginas de internet de
nuestros clientes son scrapers", explica Mathias Elvang,
director de la empresa de seguridad Sentor, que elabora
herramientas para impedir el trabajo de los programas informáticos que se
dedican a este tema.
"Pueden invertir mucho dinero en infraestructura que ayuda a estos
programas en el trabajo que hacen", afirma Elvang.
Y ese es el problema. En vez de concentrarse en sus clientes, los recursos
tecnológicos de una empresa se destinan a ayudar a programas computarizados que
no tienen la menor intención de gastar dinero.
Pérdida de datos
Lo que es peor es que es muy probable que esos scrapers trabajen
para tus rivales, según Mike Gaffney, exdirector de seguridad informática en Ladbrokes (una
compañía británica de apuestas), quien pasó una buena parte de su tiempo en la
casa de apuestas combatiendo a los scrapers.
"Ladbrokes bloqueaba alrededor de un millón de direcciones
IP (la identificación de una computadora) diariamente", cuenta, describiendo
la dimensión de los ataques de los scrapers.
"Muchos -prosigue- estaban controlados por rivales inescrupulosos que
estaban fuera del Reino Unido y que no querían pagar por la recopilación de
datos relacionados con las apuestas que ofrece la empresa".
Así que obtenían la información gratis a través de scrapers y
luego la fusionaban con datos similares obtenidos de la misma manera para
darles a sus usuarios un compendio de las apuestas que ofrecían casas dedicadas
al tema.
"Es importante evitar que la competencia se entere de tus tarifas,
pero es información disponible para los apostadores. La clave es bloquear a losscrapers pero
permitir el acceso a quienes realmente quieren apostar", añade Gaffney.
Los más apetitosos
Los sitios web que suelen convertirse en el blanco de los scrapers son
aquellos con datos que cambian con gran rapidez, por ejemplo, empresas de
apuestas a los resultados de eventos deportivos, aerolíneas y compañías de
viajes.
El problema, comenta Shay Rapaport, cofundador de Fireblade,
una firma que combate a quienes se dedican al screen scraping, está
en saber si el visitante es una persona que busca un pasaje barato o es un
programa que está tratando de copiar todos los datos del portal.
"Es una tendencia en aumento porque se hace con facilidad y hay muchas
herramientas disponibles en la red. Los mejores programas son los que imitan el
comportamiento humano y almacenan lo que recopilan en diferentes computadoras,
lo que dificulta saber si se trata de una computadora o una persona", dice
Rapaport.
En muchos países no se trata de una actividad ilegal, por lo que empresas
escrupulosas o inescrupulosas aprovechan la situación.
"Muchas firmas utilizan esta técnica. Algunas veces la información
está disponible en la red con una presentación diferente y, otras, se utiliza
internamente para analizar el negocio", afirma Rapaport.
Aspectos positivos
Frances Irving, director de Scraper Wiki, indica que no todo es
malo con respecto a este procedimiento. Hay usos legítimos.
Por ejemplo, según Irving, algunas de las herramientas utilizadas para
hacer screen scraping pueden ayudar a entender sitios web con
cantidades inmensas de información que dificultan la navegación.
Los scrapers se han utilizado para obtener datos de Hansard,
una página web que documenta las votaciones de los parlamentarios británicos y
transcribe lo que dicen en la sede legislativa.
"Los datos son uniformes porque utilizan un estilo estándar, pero está
hecho por humanos, así que existe la posibilidad de que haya errores",
dice Irving.
Así que esta técnica permite organizar la información para que esté
disponible en la red, lo que permitiría "vigilar" a los funcionarios
que representan a los ciudadanos.
Scrapers de peso
Adicionalmente, indica Irving, se puede usar para "darles la
vuelta" a las barreras burocráticas u organizacionales que podrían
obstaculizar un proyecto de recopilación de datos.
"Es importante recordar que el desarrollo de la red ha estado
impulsado por dos grandesscrapers, Google y Facebook", afirma el
especialista.
En un principio los motores de búsqueda utilizaban esta técnica para
catalogar la información disponible en la red y facilitar el acceso a la misma.
Y en tiempos más recientes, Facebook la empleó para ayudar a las personas a
llenar su perfil en la red social.
"Ambas empresas se desarrollaron gracias al scraping. Si
existieran restricciones significativas con respecto a que tipo de datos pueden
someterse a este mecanismo, la red sería muy distinta a la que tenemos en la
actualidad", concluye.
Tomado de:

No hay comentarios:
Publicar un comentario