Saltar al contenido
Ultimas Noticias de Criptomonedas Bitcoin, Ethereum, XRP

El proyecto que analiza el uso del lenguaje humano se cierra porque «la IA generativa ha contaminado los datos»

septiembre 19, 2024
el-proyecto-que-analiza-el-uso-del-lenguaje-humano-se-cierra-porque-«la-ia-generativa-ha-contaminado-los-datos»

El creador de un proyecto de código abierto que rastreó Internet para determinar la popularidad en cambio constante de diferentes palabras en el uso del lenguaje humano dice que son Poner fin al proyecto porque el spam de IA generativa ha envenenado Internet hasta un nivel en el que el proyecto ya no tiene ninguna utilidad.

Wordfreq es un programa que rastreaba las formas cambiantes en que las personas usaban más de 40 idiomas diferentes mediante el análisis de millones de fuentes en Wikipedia, subtítulos de películas y programas de televisión, artículos de noticias, libros, sitios web, Twitter y Reddit. El sistema podía usarse para analizar los hábitos lingüísticos cambiantes a medida que cambiaban la jerga y la cultura popular y el lenguaje evolucionaba, y era un recurso para los académicos que estudiaban esas cosas. Nota sobre el proyecto GitHub, el creador Robyn Speer escribió que el proyecto “no se actualizará más”.

“La IA generativa ha contaminado los datos”, escribió. “No creo que nadie tenga información confiable sobre el uso del lenguaje por parte de los humanos después de 2021”.

Ella dijo que el web scraping abierto era una parte importante de las fuentes de datos del proyecto y “ahora la web en general está llena de basura generada por grandes modelos de lenguaje, escritos por nadie para no comunicar nada. Incluir esta basura en los datos distorsiona las frecuencias de las palabras”.

Si bien siempre ha habido spam en Internet y en los conjuntos de datos que utilizaba Wordfreq, «era manejable y, a menudo, identificable. Los modelos de lenguaje grandes generan texto que se hace pasar por lenguaje real con una intención detrás, aunque no la haya, y su resultado aparece en todas partes», escribió. Pon el ejemplo de que ChatGPT abusa de la palabra «delve» de una manera que la gente no hace, lo que ha se desvió de la frecuencia de esta palabra específica.

También dijo que el proyecto Wordfreq trata principalmente sobre el procesamiento del lenguaje natural, que se ha vinculado inextricablemente con el desarrollo de grandes modelos de lenguaje y la IA generativa:

“El campo que conozco como ‘procesamiento del lenguaje natural’ es difícil de encontrar en estos días. Todo está siendo devorado por la IA generativa. Todavía existen otras técnicas, pero la IA generativa absorbe todo el aire de la sala y se lleva todo el dinero. Es raro ver una investigación de PNL que no dependa de datos cerrados controlados por OpenAI y Google, dos empresas que ya desprecio.

Wordfreq se creó recopilando una gran cantidad de texto en muchos idiomas. Eso solía ser algo bastante razonable de hacer y no el tipo de cosa a la que alguien probablemente se opondría. Ahora, las herramientas de captura de texto se utilizan principalmente para entrenar la IA generativa, y la gente está a la defensiva, con razón. Si alguien está recopilando todo el texto de sus libros, artículos, sitio web o publicaciones públicas, es muy probable que se deba a que está creando una máquina de plagio que reclamará sus palabras como propias.

Speer también destaca el hecho de que los datos extraídos de la web han sido más difíciles de obtener ya que Twitter y Reddit, que son sitios incluidos en Wordfreq, han comenzado a cobrar por el acceso a su API.

Google es el único motor de búsqueda que funciona en Reddit gracias a un acuerdo con inteligencia artificial

DuckDuckGo, Bing, Mojeek y otros motores de búsqueda ya no devuelven resultados completos de Reddit.

404 MediosEmanuel Maiberg

El fin de Wordfreq habla de varios fenómenos sobre los que hemos escrito mucho aquí en 404 Media. El spam generado por IA es contaminando internet y es difícil de filtrar, lo que hace que el descubrimiento, la investigación y la Internet humana sean mucho más difíciles de encontrar. Lo que le ha sucedido a Wordfreq también Valida una preocupación que planteamos en abril sobre la inclusión de libros generados por IA en Google Books por parte de Google, lo que contaminaría los datos utilizados en el visualizador de Ngram de Google, una importante herramienta utilizada por los investigadores para rastrear el uso del lenguaje a lo largo de la historia. Y el terrible comportamiento de las empresas de IA generativa, que están raspando Internet para obtener ganancias para crear máquinas de plagio, ha causado comprensiblemente Los propietarios de sitios web intentarán bloquear los rastreadores web que leen su sitio por cualquier motivo. Esto ha tenido el impacto de dificultar mucho el funcionamiento de proyectos de investigación y herramientas como Wordfreq, ya que los propietarios de dominios cambian sus reglas de robots.txt para no permitir el scraping.

“La información que antes era gratuita se volvió cara”, escribió Speer. Concluyó su nota diciendo que ya no quiere ser parte de la industria.

“No quiero trabajar en nada que pueda confundirse con la IA generativa, o que pueda beneficiar a la IA generativa”, escribió. “OpenAI y Google pueden recopilar sus propios datos. Espero que tengan que pagar un precio muy alto por ello, y espero que estén constantemente maldiciendo el desastre que ellos mismos crearon”.

Acerca del autor

Jason es cofundador de 404 Media. Anteriormente fue editor jefe de placa base. Le encanta la Ley de Libertad de Información y navegar.

Jason Koebler

Ajustes