El rastreador de entrenamiento de OpenAI se quedó atascado haciendo ping a «la granja de contenido más tonta del mundo» millones de veces durante los últimos días, según John Levine, el hombre que escribió Internet para toneladas y creé el sitio.
Levine creó la granja de contenidos como un experimento y recibe muy pocas visitas de humanos, me dijo. Pero el diseño del sitio (que en realidad es una serie de miles de millones de sitios conectados de una sola página) ha demostrado ser capaz de atrapar a varios rastreadores web a lo largo de los años. Las páginas que comienzan en la URL. web.sp.am/.se parece a esto:
Cuando hace clic en cualquiera de estos enlaces, se le dirige a una página que parece básicamente idéntica pero tiene nombres diferentes. Levine dice que se creó utilizando un script PERL de 100 líneas que escribió «en una tarde» y que tiene una base de datos de unas pocas millas de nombres. «Cada vez que haces clic en una página, elige tres de los nombres y los coloca en el nombre de dominio», dijo Levine. “Basándose en esos nombres, los utiliza como semilla para un generador de números aleatorios para seleccionar nueve nombres más de los conjuntos de nombres en la base de datos. Eso es todo lo que hace”.
“En lugar de ser un sitio web gigante, cada página tiene su propio nombre de dominio. Una araña mal escrita, como, por ejemplo, la de OpenAI dirá ‘¡Oh, mira todos estos sitios web que están vinculados entre sí!’” y esencialmente quedará atrapada haciendo ping a los sitios. En un momento del miércoles, GPTBot de OpenAI estaba rastreando el sitio de Levine hasta 150 veces por segundo, según los registros de actividad que vi. Llegó a sus páginas más de 3 millones de veces en los últimos días, dijo.
Levin publicado sobre el problema en el servidor de listas del Grupo de Operadores de América del Norte, que existe desde 1992 y está dirigido a desarrolladores web y profesionales de TI y redes: “Cualquiera tiene un contacto en OpenAI. Tienen un problema de arañas”, escribió.
“Tengo la granja de contenidos más aburrida del mundo en https://www.web.sp.am/. Haga clic en uno o dos enlaces y comprenderá la idea”, escribió. “Desafortunadamente, GPTBot lo ha encontrado y no ha captado la idea. Ha obtenido más de 3 millones de páginas hoy. Antes de que alguien me diga que arregle mi archivo robots.txt, esto es una granja de contenido, por lo que en lugar de ser un sitio web con 6.859.000.000 páginas, son 6.859.000.000 sitios web cada uno con una página. De esos 3 millones de búsquedas de páginas, 1,8 millones fueron para robots.txt”.
Levine encuentra esto principalmente divertido y dijo que el robot dejó de rastrear su sitio en algún momento del jueves por la tarde después de que hizo la publicación. Pero sí muestra el tipo de búsqueda indiscriminada de Internet que OpenAI está haciendo para entrenar sus modelos de IA. Y muestra que GPTBot, que según OpenAI “podría usarse potencialmente para mejorar modelos futuros”, está eliminando sitios que obviamente no tienen sentido para los humanos. Esto es algo que también quedó claro cuando un grupo de investigadores logró engañar a ChatGPT para que escupiendo algunos de sus datos de entrenamiento Hace unos meses.
«Si te preguntasbas qué están usando para entrenar a GPT-5, bueno, ahora lo sabes», escribió Levine en su publicación. OpenAI no respondió a una solicitud de comentarios.
Levine dijo que en el pasado, tanto el robot rastreador de Bing como un robot de Amazon quedaron atrapados en el mismo tipo de bucle, y que esta es al menos la tercera araña que queda atrapada en el web.sp.am/.eh, web.
“Como suele ocurrir, en Internet hay muchas cosas que en principio parecen sencillas, pero que en la práctica resultan complicadas. Y correr telaraña es uno de ellos. Muchas arañas, como el robot de Google, pasan tal vez una vez al día”, me dijo Levine. “Todas estas páginas tienen el mismo aspecto, todas tienen la misma dirección IP y todas comparten el mismo certificado SSL. En realidad, no se trata de ocultar el hecho de que los 6 mil millones de páginas son realmente iguales, pero en realidad debes tener algo de experiencia haciendo estas cosas. [programming a crawler] para evitar golpear a la gente”.
Levine dice que puso los tres anuncios en la página: dos de sus libros y un cartón de huevos falsos (“que eran simplemente lindos”, dijo) para ver si alguien hacía clic en ellos. “Nadie compra Internet para toneladas ya no. Tuvo un gran éxito hace 30 años, pero hoy en día todo el mundo sabe cómo utilizar Internet”, afirmó.
«Excepto OpenAI, en este caso», respondió.
“Bueno, tú lo dijiste”, dijo Levine.
Sobre el autor
Jason es cofundador de 404 Media. Anteriormente fue editor en jefe de Placa base. Le encanta la Ley de Libertad de Información y el surf.