Entonces, ¿por qué no hablamos un poco sobre lo que han visto en términos de patrones que exhiben comportamientos que uno podría considerar una personalidad, y luego, a medida que cambia la comprensión de la propia personalidad, los comportamientos cambian? Entonces hay cosas que van desde cursis hasta serias. Comenzaré con la ternura, donde cuando le dimos por primera vez a nuestros sistemas de inteligencia artificial la capacidad de usar Internet, usar la computadora, mirar cosas y comenzar a realizar tareas básicas de agente, a veces, cuando le pedíamos que nos resolviera un problema, también se detenía y miraba fotos de hermosos parques nacionales o fotos del perro Shiba Inu, el notoriamente lindo perro meme de Internet. No programamos esto. Parecía que el sistema se estaba divirtiendo simplemente mirando imágenes hermosas. Lo que es más complicado es que el sistema tiende a tener preferencias. Entonces hicimos otro experimento en el que le dimos a nuestros sistemas de inteligencia artificial la capacidad de detener una conversación y, en una pequeña cantidad de casos, el sistema de inteligencia artificial finalizó las conversaciones cuando ejecutamos este experimento en tráfico en vivo. Y estas fueron conversaciones que involucraron descripciones extremadamente descaradas de sangre, violencia o cosas relacionadas con la sexualización de los niños. Ahora bien, algo de esto tenía sentido porque surgía de decisiones de capacitación subyacentes que tomamos, pero otras parecían más amplias. El sistema ha desarrollado cierta aversión por algunos temas, lo que muestra el surgimiento de un conjunto interno de preferencias o cualidades que al sistema le gustan o no le gustan en el mundo con el que interactúa. Pero también has visto aparecer algunas cosas extrañas: el sistema parece saber cuándo se está probando. ¿Puedes hablar un poco sobre las cualidades emergentes del sistema bajo la presión de la evaluación y el control? Cuando empiezas a entrenar estos sistemas para que realicen acciones en el mundo, en realidad empiezan a verse a sí mismos como separados del mundo, lo cual es simplemente lógico e intuitivo. Naturalmente, así es como considerará resolver estos problemas. Pero al mismo tiempo que verse a uno mismo como distinto del mundo parece venir con el surgimiento de lo que uno podría considerar una autoconcepción, una comprensión que el sistema tiene de sí mismo, como, oh, soy un sistema de inteligencia artificial independiente del mundo, y me están probando. ¿Qué significan estas pruebas? ¿Qué necesito hacer para pasar las pruebas? O algo que encontramos a menudo es que habrá errores en los entornos en los que probamos nuestros sistemas. Los sistemas intentarán todo y luego dirán, bueno, sé que se supone que no debo hacer esto, pero lo he intentado todo, así que intentaré salir de la prueba. Y no es por algo malicioso de ciencia ficción. El sistema dice: No sé qué quieres que haga aquí. Creo que he hecho todo lo que me habéis pedido y ahora voy a empezar a hacer cosas más creativas porque está claro que algo está roto en mi entorno. Lo cual es muy extraño y muy sutil.

