Qué es el raspado de datos, la técnica para entrenar a las IA, y por qué genera preocupación

Esta técnica está siendo debatida ya por múltiples legislaciones. | Fuente: Foto de Sergey Zolkin en Unsplash

El raspado de datos ha vuelto a ser noticia luego de ser usado como argumento para Twitter limitara la visualización de publicación al día a sus usuarios. Google también reconoce usarlo para entrenar a Bard.

Cada vez más empresas están aceptando realizar el ‘raspado de datos’ para entrenar a sus inteligencias artificiales, provocando una enorme preocupación por parte de reguladores y las autoridades correspondientes en el mundo de internet.

El último caso estuvo envuelto en polémica, con Elon Musk poniéndolo como argumento para limitar la visualización de publicaciones al día para los usuarios de Twitter. Google también ha confirmado que realiza esta actividad para Bard, pero ¿a qué nos referimos al hablar de ella?

Te recomendamos

Raspado de información

El raspado de datos (data scraping o web scraping) es un proceso automático con el que se recopila datos de sitios webs, recolectando y extrayendo toda la información presente en ellos con múltiples objetivos.

Esta actividad funciona principalmente en fuentes de datos no estructurados como las redes sociales, base de datos, apps y más, para luego estructurarlos y hacerlos comprensibles para los sistemas de aprendizaje automático, los cuales son la base para el entrenamiento de las inteligencias artificiales.

Debido a la gran información que hay internet, este proceso mejora y agiliza procesos, pero también múltiples aspectos negativos.

Por ejemplo, un reporte señala que el 47.4 % de todo el tráfico de internet en el 2022 provino de bots, un 5.1 % más que en el 2021. Gran parte de ellos también sirvió en este proceso de entrenamiento.

Y claro, el principal problema es acumular información privada, incluida información de identificación personal, de cientos de millones de usuarios de Internet, incluidos niños de todas las edades, sin su conocimiento o consentimiento informado. 

Te recomendamos

Un proceso que continuará

Con la inteligencia artificial en auge, parece ser un proceso que no cambiará prontamente.

La carrera entre todas las principales empresas de tecnología y un grupo creciente de nuevas empresas para desarrollar nuevas tecnologías de inteligencia artificial, dicen los expertos, también ha acelerado no solo la escala del web scraping, sino también los daños potenciales que conlleva. Los expertos señalan que, si bien el web scraping puede tener beneficios para la sociedad, como la transparencia comercial y la investigación académica, también puede generar daños, como riesgos de seguridad cibernética y estafadores que recopilan información confidencial para cometer fraude.

Solo hace pocos días, OpenAI, la dueña de ChatGPT, fue demandada en California por 16 personas, la cuales alegan una variedad de daños, desde violaciones de derechos de autor hasta escuchas telefónicas debido a las prácticas de recopilación de datos, lo que se suma a una lista creciente de desafíos legales contra las empresas que reutilizan imágenes, información personal, código y otros datos para sus propósitos propios.

Google confirmó hace poco que Bard está siendo entrenado con datos públicos que la empresa recopila bajo este mecanismo.

En una actualización de la política de privacidad se lee que la compañía “usa información para mejorar nuestros servicios y desarrollar nuevos productos, funciones y tecnologías que benefician a nuestros usuarios y al público" y que la compañía puede "usar información disponible públicamente para ayudar a entrenar los modelos de IA de Google y crear productos y funciones como Google Translate, Bard y capacidades de IA en la nube”.

En noviembre pasado, los codificadores demandaron a GitHub junto con su empresa matriz Microsoft y su socio OpenAI por una herramienta conocida como CoPilot que usa IA para generar código. Los codificadores argumentaron que las empresas violaron los acuerdos de licencia del código. En febrero, Getty Images demandó a Stability AI por presuntamente infringir los derechos de autor de más de 12 millones de imágenes.

Anteriormente, Meta también pagaba a la empresa Bright Data para recolectar información de los usuarios de comercio electrónico, pero “no aceptaba que esa información se venda a terceros”.

Muchos sitios web de acceso público tienen políticas vigentes que prohíben la recopilación de datos con el fin de entrenar modelos de lenguaje grandes (LLM) y otros conjuntos de herramientas de inteligencia artificial.

La incertidumbre ha provocado varias demandas y ha empujado a los legisladores de algunas naciones a introducir leyes más estrictas que estén mejor equipadas para regular cómo las empresas de inteligencia artificial recopilan y utilizan sus datos de formación.

También plantea preguntas sobre cómo se procesan estos datos para garantizar que no contribuyan a fallas peligrosas dentro de los sistemas de inteligencia artificial, con las personas encargadas de clasificar estos vastos grupos de datos de capacitación a menudo sujetos a largas horas y condiciones de trabajo extremas.

Te recomendamos

Apasionado de los esports desde joven, afición que me permitió acceder al mundo del periodismo. Escribo sobre videojuegos, tecnología, criptomonedas, ciencias y lucha libre en RPP Noticias.

Tags

Suscribirte al newsletter de tus noticias preferidas

Suscríbete a nuestros newsletter y actualiza tus preferencias

Buzon
Al suscribirte, aceptas nuestras políticas de privacidad

Contenido promocionado

Taboola