Saltar al contenido
Ultimas Noticias de Criptomonedas Bitcoin, Ethereum, XRP

Sus publicaciones de Bluesky probablemente ahora estén en un montón de conjuntos de datos

diciembre 3, 2024
sus-publicaciones-de-bluesky-probablemente-ahora-esten-en-un-monton-de-conjuntos-de-datos

Ahora que se ha roto el sello sobre la incorporación de publicaciones de Bluesky en conjuntos de datos para el aprendizaje automático, la gente está trolleando a los usuarios y superándose entre sí al crear conjuntos de datos cada vez más masivos de publicaciones de Bluesky de texto completo. y no anonimizadas tomadas directamente de la manguera de bomberos pública de la plataforma de redes sociales. —incluido uno que contiene casi 300 millones de publicaciones.

La semana pasada, Daniel van Strien, bibliotecario de aprendizaje automático en la plataforma de biblioteca de aprendizaje automático de código abierto Hugging Face, publicó un conjunto de datos compuesto por un millón de publicaciones de Blueskyincluido cuándo se publicaron y quién los publicó. A las pocas horas de su primera publicación, poco después de nuestra historia acerca de que este era el primer conjunto de datos conocidos, público y no anónimo de publicaciones de Bluesky, y luego de cientos de respuestas de personas indignadas porque sus publicaciones fueron eliminadas sin su permiso, van Strein lo eliminó. y se disculpó.

«Eliminé los datos de Bluesky del repositorio». escribió en Bluesky. «Si bien quería apoyar el desarrollo de herramientas para la plataforma, reconozco que este enfoque violó los principios de transparencia y consentimiento en la recopilación de datos. Pido disculpas por este error». Cuenta oficial de Bluesky también publicado sobre cómo funciona el rastreo y el raspado en la plataforma, y ​​dijo que está «explorando métodos para obtener el consentimiento».

Alguien creó un conjunto de datos de un millón de publicaciones de Bluesky para la ‘investigación sobre aprendizaje automático’

Un empleado de Hugging Face creó un enorme conjunto de datos de publicaciones de Bluesky y ya es muy popular.

404 MediosSamanta Cole

Como escribí en ese momento, la infraestructura de Bluesky es un arma de doble filo: si bien su naturaleza descentralizada brinda a los usuarios más control sobre su contenido que sitios como X o Threads, también significa que cada evento en el sitio se cataloga en un alimentar al público. Existen usos de legítimos para las publicaciones en las redes sociales, pero los investigadores suelen seguir pautas éticas y legales de investigación que dictan cómo se utilizan esos datos; Por ejemplo, un artículo de investigación publicado a principios de este año que utilizaron publicaciones de Bluesky para observar cómo la desinformación y la información errónea se difunden en línea utilizando un conjunto de datos de 235 millones de publicaciones, pero esos datos fueron anonimizados. Los investigadores también brindan instrucciones claras para solicitar que se excluyan sus datos.

Si hay una constante en las redes sociales, independientemente de la plataforma, es el efecto Streisand. La publicación original y la disculpa de Van Strien se volvieron virales, y dado que muchas personas utilizan Bluesky y Twitter como sus plataformas principales, el drama del conjunto de datos también pasó a X, donde a la gente le encanta trollear. El conjunto de datos de un millón de publicaciones desapareció de Hugging Face, pero varios conjuntos de datos mucho más grandes han tomado su lugar.

hay onu conjunto de datos de dos millones de publicaciones por Alpine Dale, quien afirma estar asociado con PigmaliónAIun “proyecto de inteligencia artificial de código abierto para chat, juegos de rol, aventuras y más” aún por publicarse, según su sitio. La descripción del conjunto de datos dice que “podría usarse para: entrenar y probar modelos de lenguaje en contenido de redes sociales; Analizar patrones de publicación en redes sociales; Estudiar estructuras de conversación y redes de respuesta; Investigación sobre moderación de contenidos en redes sociales; Tareas de procesamiento del lenguaje natural utilizando datos de redes sociales «. El objetivo, escribe Dale en la descripción del conjunto de datos, «es que te diviertas :)».

La página de la comunidad para ese conjunto de datos está llena de personas que dicen que esto rompe el criterio de Bluesky. directrices para desarrolladores (específicamente “Todos los servicios deben tener un método para eliminar el contenido que un usuario ha solicitado que se elimine”) o va en contra de la ley en los países europeos, donde el Reglamento General de Protección de Datos (GDPR) se aplicará a esta recopilación de datos.

Le preguntó a Neil Brown, un abogado especializado en derecho de Internet y GDPR, si ese es el caso. La respuesta no es sencilla. «El mero procesamiento de datos personales de personas en la UE no hace que la persona que realiza ese procesamiento esté sujeto al RGPD de la UE», dijo en un correo electrónico. Para estar sujeto al RGPD, el procesamiento debería estar dentro de su ámbitos materiales y territoriales. El alcance material implica cómo se procesan los datos: “procesamiento de datos personales realizado a través de medios automatizados o dentro de un sistema de archivo estructurado, incluida la recopilación, el almacenamiento, el acceso, el análisis y la divulgación de información personal”, según la ley. El ámbito territorial implica dónde se encuentra la persona que recopila los datos y también dónde se encuentran los sujetos de esos datos.

«Pero imagino que hay algunos que argumentarían que esta actividad es compatible con el RGPD de la UE», dijo Brown. «Estos argumentos normalmente se basan en el pensamiento de que, si alguien ha hecho públicos sus datos personales, entonces son ‘juego limpio’ pero, en mi humilde opinión, el RGPD de la UE simplemente no funciona de esa manera».

Ninguna de estas cuestiones legales ha impedido que otros crean más y mayores conjuntos de datos. También hay un conjunto de datos de ocho millones de publicaciones compilado por Alim Maasoglu, quien “actualmente se dedica a desarrollar productos inmersivos dentro del espacio de la inteligencia artificial”, según su sitio web. «Este creciente conjunto de datos tiene como objetivo proporcionar a los investigadores y desarrolladores una muestra completa de datos de redes sociales del mundo real para su análisis y experimentación», dice la descripción de Maasoglu del conjunto de datos en Hugging Face. «Esta colección representa uno de los conjuntos de datos de Bluesky más grandes disponibles públicamente y ofrece información única sobre las interacciones en las redes sociales y los patrones de contenido».

Rápidamente fue superado por mucho. hay ahora un conjunto de datos de 298 millones de publicaciones publicado por alguien con el nombre de usuario GAYSEX. Escribieron un diálogo imaginario en la descripción de su proyecto Hugging Face entre ellos y alguien cuyas publicaciones están en el conjunto de datos: “’¡NOOO, no puedes hacer esto!’ Entonces no hay publicaciones. Si no quieres que te graben, no lo publiques. ‘¡¡Pero estaba haciendo XYZ !!’ Entonces no lo hagas. Mirar. Casi todo lo que hay en Internet permanece en Internet hoy en día. Especialmente grandes sitios de redes sociales. Es posible que consideres iniciar un blog. Estos tienen menos posibilidades de ser seleccionados para recibir entrenamiento de IA y hay formas adicionales de proteger los blogs que se eliminan agresivamente”. Como copropietario de un blog, puedo decir que siendo raspado tiene ha sido un gran dolor en el trasero para nosotros, en realidad, y las empresas de IA generativa capacitación en medios de comunicación es un problema grave al que se enfrenta esta industria, hasta el punto de que muchos puntos de venta importantes tienen llegó a acuerdos con las grandes empresas tecnológicas que quieren almorzar.

Hay al menos seis conjuntos de datos más similares de publicaciones de usuarios actualmente en Hugging Face, en cantidades variables. Margaret Mitchell, jefa científica de ética de Hugging Face, publicado en cielo azul tras la eliminación de su conjunto de datos por parte de van Strien: “El mejor camino a seguir en IA requiere que los tecnólogos sean reflexivos y autocríticos sobre cómo su trabajo impacta en la sociedad. La transparencia ayuda a esto. Agradezco a Bsky por señalar la ética de la IA y la respuesta de mi colega. Hagamos del consentimiento informado una realidad”. Cuando alguien respondió a su publicación que vinculaba el conjunto de datos de dos millones pidiéndole que «abordara el tema», ella dijo: «Sí, estoy tratando de abordar todo lo que pueda».

Como casi cualquier otra industria que dependa de la producción creativa humana, incluida periodismo musica, libros, academiay las artes, las plataformas de redes sociales parecen estar tomando una de dos rutas en lo que respetan a la IA: llegar a un acuerdo o esperar y ver cómo los argumentos sobre el uso legítimo se resuelven en los tribunales, donde lo que constituye «transformador» según la ley de derechos de autor sigue siendo siendo determinado. Mientras tanto, todos, desde corporaciones masivas de inteligencia artificial generativa hasta individuos que participan en campañas de trolls, están recopilando datos mientras el área aún está gris.

Sobre el autor

Sam Cole escribe desde los confines de Internet, sobre la sexualidad, la industria para adultos, la cultura en línea y la inteligencia artificial. Es la autora de Cómo el sexo cambió Internet y Internet cambió el sexo.

Samanta Cole

Ajustes