Un bibliotecario de aprendizaje automático de Hugging Face acaba de publicar un conjunto de datos compuestos por un millón de publicaciones de Bluesky, con información sobre cuándo y quién se publicaron, destinado a la investigación sobre aprendizaje automático.
Daniel van Strien publicó sobre el conjunto de datos en Bluesky el martes:
Primer conjunto de datos para la nueva organización comunitaria @huggingface.bsky.social @bsky.app: un millón de publicaciones de bluesky 🦋 📊 1 millón de publicaciones públicas de la API Firehose de Bluesky 🔍 Incluye predicciones de texto, metadatos y lenguaje 🔬 Perfecto para experimentar con el uso de ML para Bluesky 🤗 huggingface.co/datasets/blu…
— Daniel van Strien (@danielvanstrien.bsky.social) 2024-11-26T13:50:34.824Z
«Este conjunto de datos contiene 1 millón de publicaciones públicas recopiladas de la API Firehose de Bluesky Social, destinadas a la investigación del aprendizaje automático y la experimentación con datos de redes sociales», dice la descripción del conjunto de datos. «Cada publicación contiene contenido de texto, metadatos e información sobre archivos adjuntos multimedia y relaciones de respuesta».
Los datos no son anónimos. En el conjunto de datos, cada publicación aparece junto al identificador descentralizado de los usuarios, o DID; van Strien también lo hizo una herramienta de búsqueda para encontrar usuarios según su DID y lo publicado en Hugging Face. Un vistazo rápido a los primeros cientos de millones de publicaciones muestra a personas haciendo publicaciones normales en Bluesky: discutiendo sobre política, hablando de conciertos, diciendo cosas como “El gato es gay” y “¿Cuándo fue la última vez que comieron frijoles horneados en ¿Bostón? ”—pero el conjunto de datos también ha incluido una gran cantidad de contenido para adultos.
También es digno de mención que es una «instantánea» del tiempo en Bluesky, lo que significa que podría incluir, y probablemente incluir, publicaciones eliminadas desde entonces.
Este conjunto de datos podría usarse para “entrenar y probar modelos de lenguaje en contenido de redes sociales, analizar patrones de publicación en redes sociales, estudiar estructuras de conversación y redes de respuesta, investigar sobre moderación de contenido de redes sociales, [and] Tareas de procesamiento del lenguaje natural utilizando datos de redes sociales”. la pagina del proyecto dice. El “uso fuera de alcance” incluye “crear sistemas de publicación automatizados para Bluesky, crear contenido falso o suplantado, extraer información personal sobre los usuarios, [and] cualquier propósito que viole los Términos de servicio de Bluesky”.
El conjunto de datos ya es popular: al momento de escribir este artículo, es uno de los mejores Proyectos de Hugging Face de tendencia.
Las referencias de Van Strien a la API Firehose en la descripción del conjunto de datos son parte de lo que hace que Bluesky sea única entre otras plataformas de redes sociales. Es un flujo cronológico agregado de todas las actualizaciones de datos públicos a medida que ocurren en la red, incluidas publicaciones, me gusta, seguimientos, manejo de cambios y más. según Bluesky. Es público y la plataforma está construida sobre el protocolo AT abierto, por lo que cualquier cosa que pase por la manguera contra incendios (que, nuevamente, es todo lo que sucede en Bluesky) está técnicamente disponible para desarrolladores independientes. La gente ha creado herramientas de seguimiento como cielo de fuego y visualizadores tirando de la manguera contra incendios, así como bots y otras herramientas y servicios de monitoreo.
Dado que todo esto es público, no hay nada que impida que alguien cree conjuntos de datos a partir de datos de usuarios de Bluesky para entrenar modelos de IA. Pero Bluesky, como plataforma, ha prometido que no utilizará ese contenido para entrenar la propia IA generativa.
A principios de este mes, la cuenta oficial de Bluesky publicó su postura sobre los datos de los usuarios y la IA: “Varios artistas y creadores han establecido su hogar en Bluesky y escuchamos sus preocupaciones sobre otras plataformas que se capacitan con sus datos. No utilizamos ninguno de sus contenidos para entrenar IA generativa y no tenemos intención de hacerlo”, decía. “Bluesky utiliza IA internamente para ayudar en la moderación de contenido, lo que nos ayuda a clasificar las publicaciones y proteger a los moderadores humanos del contenido dañino. También utilizamos IA en el feed algorítmico de Discover para mostrarle publicaciones que creemos que le gustarían. Ninguno de estos son sistemas Gen AI entrenados en el contenido del usuario”.
En respuesta a una solicitud de comentarios sobre el conjunto de datos de van Strien, la portavoz de Bluesky, Emily Liu, envió a 404 Media la misma declaración compartida con The Verge sobre las publicaciones de los usuarios como datos de entrenamiento.: “Bluesky es una red social abierta y pública, muy parecida a los sitios web en Internet. Así como los archivos robots.txt no siempre impiden que empresas externas rastreen esos sitios, lo mismo se aplica aquí. Nos gustaría encontrar una manera para que los usuarios de Bluesky se comuniquen con organizaciones/desarrolladores externos si dan su consentimiento a esto y si las organizaciones externas respetan el consentimiento del usuario, y estamos discutiendo activamente cómo lograrlo».
En comparación, X agregó recientemente una cláusula a sus términos de servicio, en el “Sus Derechos y Concesión de Derechos sobre el Contenido” sección, que dice que al publicar en el sitio usted otorga “licencia mundial, no exclusiva y libre de regalías (con derecho a sublicenciar) [and] usted acepta que esta licencia incluye el derecho de nosotros a (i) analizar el texto y otra información que usted proporcione ya proporcionar, promover y mejorar los Servicios, incluidos […] para su uso y entrenamiento de nuestros modelos de aprendizaje automático e inteligencia artificial, ya sean generativos o de otro tipo”. Meta entrena su IA generativa también en los datos de los usuarios.
Mucha gente tiene Dejó viejas plataformas y se mudó a Bluesky. en gran parte por protesta contra el uso de su contenido y conversaciones como material de inteligencia artificial, y porque el modelo descentralizado de redes sociales ofrece a los usuarios más propiedad y control sobre su propio contenido. Pero lo que hace que Bluesky sea atractivo (los aspectos descentralizados y de código abierto de su infraestructura) también lo hace vulnerable a cualquiera que quiera hacer lo que quiera con esos datos, sin necesitar el permiso de nadie.
Sobre el autor
Sam Cole escribe desde los confines de Internet, sobre la sexualidad, la industria para adultos, la cultura en línea y la inteligencia artificial. Es la autora de Cómo el sexo cambió Internet y Internet cambió el sexo.