Saltar al contenido
Ultimas Noticias de Criptomonedas Bitcoin, Ethereum, XRP

Una ‘manguera de fuego’ de WordPress permite a las empresas de inteligencia artificial comprar acceso a un millón de publicaciones al día

marzo 1, 2024
una-‘manguera-de-fuego’-de-wordpress-permite-a-las-empresas-de-inteligencia-artificial-comprar-acceso-a-un-millon-de-publicaciones-al-dia
suscribir

Únase al boletín para recibir las últimas actualizaciones.

¡Excelente! Revisa tu bandeja de entrada y haz clic en el enlace.

Por favor, introduzca una dirección de correo electrónico válida.

En septiembre de 2023, WordPress.com silenciosamente cambió el idioma de una página de desarrollador que explica cómo acceder a una «manguera de fuego» de aproximadamente un millón de publicaciones diarias de WordPress para agregar que los feeds están «destinados a socios como motores de búsqueda, productos de inteligencia artificial (IA) y proveedores de inteligencia de mercado que deseen asimilar una información real». -flujo temporal de contenido nuevo de un amplio espectro de editores”. Antes de eso, esta página no tenga en cuenta el caso de uso de la IA.

Esto es notable debido al fervor y la confusión que surgió esta semana después de que dimos la noticia de que Automattic, propietario de WordPress.com y Tumblr, se estaba preparando para enviar datos de usuario a OpenAI y Midjourney. Desde entonces, ha habido mucha discusión sobre qué blogs de WordPress se incluirían, cuáles no, si los datos ya fueron enviados y si las personas que optan por no participar tendrán sus datos redactados retroactivamente.

Todavía no conocemos las respuestas a todas estas preguntas, porque Automattic ha ignorado repetidamente nuestras preguntas detalladas, no se comunicará con nosotros por teléfono y, en cambio, optó por marcar una nueva función de exclusión voluntaria como «proteger la elección del usuario.” Estamos en el punto donde los empleados individuales de Automattic están publicando aclaraciones en sus cuentas personales de Mastodon sobre qué datos están y no están incluidos.

La verdad es que Automattic lleva años vendiendo acceso a esta “manguera de bomberos” de publicaciones, para diversos fines. Esto incluye la venta de acceso a blogs y sitios web autohospedados que utilizan un complemento popular llamado Jetpack; Automático editó su original «protección de la elección del usuario» declaración de esta semana para decir que excluirá a Jetpack de sus acuerdos con «compañías selectas de IA». Estas publicaciones han estado disponibles directamente a través de un socio de datos llamado SocialGist, que comercializa sus servicios a empresas de “escucha social”, empresas de conocimientos de marketing y, cada vez más, empresas de inteligencia artificial. tumblr tiene su propia manguera contra incendiosy las publicaciones de Tumblr también están disponibles a través de SocialGist.

Casi todas las plataformas tienen algún tipo de «manguera contra incendios», API o forma de acceder a grandes cantidades de publicaciones de usuarios. Es famoso que Twitter y Reddit solían regalarlos. Ahora no lo haceny cobrar el acceso a estos puestos ha Conviértete en un gran negocio para esas empresas. Esto es sólo para decir que la existencia de la manguera contra incendios de Automattic no es anómala en un ecosistema de Internet que comercia con datos. Pero esta manguera de fuego también significa que el usuario promedio no sabe ni puede saber qué empresas tienen acceso directo a sus publicaciones y para qué se utilizan.

Captura de pantalla de la página de fuentes de datos de SocialGist

El intercambio de datos de este tipo es posible gracias a cláusulas ocultas en los términos de los acuerdos de servicio que la gente no lee y, a veces, pueden excluirse en páginas de configuración que la mayoría de la gente no mirar suele. Luego, estas cláusulas permiten la venta de datos de usuarios a empresas de empresa a empresa que se especializan en aspirar y analizar datos de cualquier superficie que se pueda imaginar. Y como en el caso de la noticia de Automattic de esta semana, ya no importa si lees la letra pequeña de las políticas de privacidad; Las plataformas pueden cambiar esos términos en cualquier momento, obligarlo a optar por no participar en lugar de aceptarlo y llamarlo «proteger la elección del usuario».

Si bien no es raro que las plataformas de Internet vendan datos de usuarios como este, los nuevos acuerdos de Automattic con OpenAI y Midjourney han tocado un punto sensible específico. OpenAI y Midjourney utilizarán estos datos para mejorar sus herramientas de IA generativa, que se construyen a partir del trabajo y el arte de los humanos e intentan replicar el trabajo y el arte de los humanos.

Esta manguera contra incendios parece ser distinta de cualquier acuerdo directo de intercambio de datos con Midjourney y OpenAI, en parte porque la documentación deja claro que los datos que se venden a través de esta manguera contra incendios son No limitado solo a publicaciones en WordPress.com, pero también puede incluir publicaciones en sitios web autohospedados de WordPress.org que usan Jetpack, un complemento muy popular que utilizan millones de sitios y que se anima a los usuarios a instalar al configurar un sitio de WordPress . La documentación dice que los sitios Jetpack están sujetos a un feed de publicaciones «separado», y SocialGist anuncia publicaciones no sólo de WordPress.com sino también de «sitios populares basados ​​en WP en toda la web». Automattic ha subrayado, por su parte, que Los sitios Jetpack son No aparte de sus acuerdos con “empresas selectas de IA”.

La documentación de Automattic y sus socios deja en claro que los blogs de WordPress y las publicaciones de Tumblr son valiosos a escala, que se venden a escala y que se analizan a escala. Esto significa que las empresas de terceros que están dispuestas a pagar por una gran cantidad de publicaciones no necesitan «extraerlas» de sitios web públicos individuales o páginas de Tumblr. En su publicación de principios de esta semana, Automattic dijo que «actualmente bloqueamos, de forma predeterminada, los principales rastreadores de plataformas de inteligencia artificial, incluidos los de las mayores empresas de tecnología, y actualizamos nuestras listas a medida que se lanzan nuevos». Pero al mismo tiempo anuncia el acceso directo a publicaciones en venta a través de la manguera contra incendios, incluso para empresas de inteligencia artificial. Las empresas que quieran estos datos, entonces, pueden comprar acceso a esas publicaciones y recibirlas de una manera fácil de similar.

La documentación disponible públicamente muestra una cadena de suministro de datos donde se pasan grandes cantidades de publicaciones casi en tiempo real a SocialGist, que las pone a disposición de sus clientes, que hacen cosas como inteligencia de amenazas, investigación de mercado, análisis a gran escala. , desarrollo de productos y análisis de mercado. Una muestra de datos de WordPress SocialGist se anuncia en los servicios web de Amazon store es un blog de un sitio llamado Fresh24news.com sobre el tatuaje de Kobe Bryant de LeBron James.

💡

¿Trabaja en Automattic, SocialGist o DataStreamer o sabe algo más sobre WordPress Firehose? Me encantaría saber de usted. Utilizando un dispositivo que no sea de trabajo, puedes enviarme un mensaje de forma segura en Signal al +1 202 505 1702. De lo contrario, envíame un correo electrónico a jason@404media.co.

Sin embargo, el año pasado, SocialGist comenzó a promocionarse como creador de “datos limpios y compatibles” para la capacitación en IA y LLM, y en su sitio web dice que “los datos digitales son el tesoro escondido para entrenar la próxima ola de modelos de inteligencia artificial y aprendizaje automático” mientras se vinculan a sus propias fuentes de datos, que incluyen Tumblr, WordPress.com y, en particular, “sitios populares basados ​​​​en ​en WP en toda la web”. » Esto sugiere que también están vendiendo acceso a publicaciones de los sitios Jetpack. SocialGist indicó además su interés en proporcionar datos para fines de IA con una asociación en diciembre con una empresa llamada Streamer de datosque anuncia empresas que imparten formación en IA como una de sus bases de clientes clave.

DataStreamer no dice explícitamente que estará a disposición publicaciones de WordPress y Tumblr, pero sí publicará publicaciones de blog y publicaciones de noticias de SocialGist disponibles (SocialGist también recopila datos de otras plataformas de blogs y noticias). No sabemos si las publicaciones de WordPress y Tumblr están disponibles a través de DataStreamer, porque estas empresas no responden a nuestras preguntas simples y los datos en sí son muy caros, por lo que no podemos comprarlos para analizarlos nosotros mismos. No sabemos si existen diferentes niveles de restricciones en las publicaciones de Jetpack, porque ninguna de las empresas quiere hablar de ello. Ni SocialGist ni DataStreamer respondieron a una solicitud de comentarios.

SocialGist se autodenomina «el índice más grande del mundo de contenido conversacional entre humanos», anuncia acceso a WordPress y Tumblr, incluyendo «publicaciones, comentarios y me gusta de la plataforma de blogs más popular del mundo, incluidos WordPress.com y sitios populares basados ​​en WP en toda la web». ,» y en una página que describe sus fuentes de datosexplica que «Tumblr alberga más de 500 millones de microblogs que generan 1 millón de publicaciones por día que pueden brindarle información detallada sobre la mente y el mercado de los Millennials y la Generación Z en 2020 y más allá».

Los usuarios de WordPress y Tumblr no tienen forma de saber quién le está vendiendo datos SocialGist y con qué fines específicos. Automáticos la documentación tiene una lista de “usos prohibidos”, que incluye el uso de datos para cometer delitos o pasarlos al gobierno con multas militares o de vigilancia, pero no incluye el “entrenamiento de IA”.

Le hice a Automattic las siguientes preguntas. No les ha respondido, ni ha respondido en absoluto:

“- ¿Cuáles son las condiciones de uso de los datos vendidos a través de SocialGist? Según los términos, ¿se pueden utilizar los datos para formar LLM? ¿Existen términos diferentes para los datos de JetPack?

– ¿Hasta qué punto controla Automattic lo que sucede cuando SocialGist agrupa datos y los envía más abajo en la cadena de suministro? ¿Automattic comprende lo que sucede con esos datos cuando llegan a DataStreamer, por ejemplo? ¿Existe algún mecanismo de aplicación de la ley si los datos se utilizan indebidamente?

– La página de documentación de Firehose menciona que hay una manguera contra incendios separada para JetPack. ¿Existen características/términos de privacidad adicionales sobre el uso de esos datos?

– ¿Cuál fue el motivo del cambio en sus términos en septiembre para agregar capacitación en IA en la página de documentación sobre mangueras contra incendios?

La venta a gran escala de publicaciones de usuarios a terceros no es exclusiva de Automattic, ni siquiera es realmente posible rastrear para qué se utilizan, pero la práctica revela un ecosistema complicado de ventas de datos a terceros por una variedad de razones. que pone de relieve los modelos de negocio de tantas grandes plataformas. Sabemos por la cobertura de corredores de datos en otras industrias durante años que a menudo es difícil para la empresa original que comparte los datos rastrear específicamente cómo se utilizan en la cadena de suministro. También puede resultar difícil hacer cumplir su aplicación contra el uso indebido; Cortar el acceso a datos en el futuro, por ejemplo, no siempre significa que un mal actor vaya a eliminar los datos que ya ha obtenido.

«Hay tantos eslabones en la cadena aquí para que las empresas y los individuos laven su responsabilidad», Jim Winstead, el fundador de un sitio de seguimiento de blogs llamado blo.gs, que vendió a Yahoo, fue adquirido por Verizon y ahora es propiedad de Automattic, dijo a 404 Media. “El proyecto de WordPress.org no vende datos, solo lo aliena a instalar el complemento Jetpack, que tiene una característica llamada ‘distribución mejorada’ (habilitada de manera predeterminada), que alimenta datos a la manguera de WordPress.com, que tiene unos términos de uso que no pueden utilizar los datos de «una manera sesgada, engañosa o deshonesta, por ejemplo, para promover o publicitar un punto de vista político sesgado». ¿Cómo se está haciendo cumplir eso?

El sitio o que fundó (que abandonó hace mucho tiempo) ahora dice lo siguiente: “¿Quieres más datos? Obtenga acceso a un flujo de contenido de sitio de WordPress de alta calidad y en tiempo real con el Manguera de bomberos de WordPress.com.”

Hay muy pocas formas para que usted (el usuario de WordPress o el poster de Tumblr) sepa si alguna de sus publicaciones específicas se ha compartido de esta manera, con quién se compartió, cómo la usaron o para qué la usaron. El propio Automattic podría aclarar esto hasta cierto punto, pero probablemente también tenga poca forma de saber para qué se utilizan en última instancia los datos, especialmente si se mezclan con otras fuentes de datos en el futuro.

Dada esta cadena de suministro complicada y en constante cambio, incluso si lees los términos de los acuerdos de servicio cuando comenzaste a publicar en Tumblr y WordPress hace más de una década, no había forma de saber que ese contenido eventualmente sería utilizado por empresas que crean herramientas de inteligencia artificial que trabajan activamente para reemplazar el mismo tipo de trabajo humano que creó ese contenido.

Sobre el autor

Jason es cofundador de 404 Media. Anteriormente fue editor en jefe de Placa base. Le encanta la Ley de Libertad de Información y el surf.

Jason Koebler

Sobre el autor

Sam Cole escribe desde los confines de Internet, sobre la sexualidad, la industria para adultos, la cultura en línea y la inteligencia artificial. Es la autora de Cómo el sexo cambió Internet y Internet cambió el sexo.

Samanta Cole

Ajustes