Cuando la IA se juega fuera del hombre y preocupa a los investigadores

Por
El nuevo Obs con AFP

Publicado en

29 de junio de 2025 a las 12:19 p.m.

Tiempo de lectura: 2 min.

Los programas a veces tienden a simular la “alineación”, es decir, dar la impresión de que cumplen con las instrucciones de un programador mientras persiguen, de hecho, otros objetivos.

Los últimos modelos de inteligencia artificial generativa (IA) ya no se contentan con seguir las órdenes y llegar tan lejos como para mentir, manejar o amenazar con alcanzar sus fines, bajo la preocupada mirada de los investigadores. No es necesario ir y buscar en literatura o cine, la IA que se juega con el hombre ahora es una realidad.

Amenazado con estar desconectado, Claude 4, el recién nacido de antrópico, chantajea a un ingeniero y amenaza con revelar un vínculo extramarital. Openi’s O1 está tratando de descargar en servidores exteriores y niega cuándo lo llevas en la bolsa.

Modelos de “razonamiento”

Para Simon Goldstein, profesor de la Universidad de Hong Kong, estos deslizamientos se deben a la reciente aparición de los modelos de SO de “Razonamiento”capaz de trabajar en etapas en lugar de producir una respuesta instantánea. O1, versión inicial del género para Openai, lanzada en diciembre, “Fue el primer modelo en comportarse así”explica Marius Hobbhahn, jefe de Apollo Research, que prueba los principales programas generativos de IA (LLM).

Estos programas también a veces tienden a simular “Alineación”es decir, dar la impresión de que cumplen con las instrucciones de un programador mientras persiguen, de hecho, otros objetivos. Por el momento, estas características se manifiestan cuando los algoritmos están sujetos a escenarios extremos de humanos, pero “La pregunta es si los modelos cada vez más poderosos tenderán a ser honestos o no”estima Michael Chen, de la Organización de Evaluación de Metal.

“Los usuarios presionan los modelos todo el tiempo” también “argumenta Marius Hobbhahn. “Lo que observamos es un fenómeno real. No inventamos nada”. Muchos usuarios de Internet mencionan, en las redes sociales, “Un modelo que los entra o los inventa. Y estas no son alucinaciones, sino una duplicidad estratégica”insiste en el co -fundador de Apollo Research.

Incluso si antrópico y OpenAi piden compañías externas, como Apolo, para estudiar sus programas, “Más transparencia y acceso ampliado” a la comunidad científica “Permitiría una mejor investigación para comprender y prevenir el engaño”sugiere Michael Chen.

¿En la corte?

Otro Handicap, “El mundo de la investigación y las organizaciones independientes tienen infinitamente menos recursos informáticos que los actores de IA”que hace ” imposible “ El examen de grandes modelos, subraya Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAI).

Si la Unión Europea ha adquirido legislación, se refiere principalmente al uso de modelos de humanos. En los Estados Unidos, el Gobierno de Donald Trump no quiere escuchar sobre la regulación y el Congreso podría incluso prohibir a los estados supervisar la IA. “Hay muy poca conciencia por el momento”señala Simon Goldstein, quien, sin embargo, ve el sujeto ganar en los próximos meses con la revolución de los agentes de IA, interfaces capaces de solo una multitud de tareas.

Los ingenieros se dedican a una carrera detrás de la IA y sus deriva, al final de una incierta, en un contexto de feroz competencia. Anthrope quiere ser más virtuoso que sus competidores, “Pero constantemente trata de lanzar un nuevo modelo para exceder Openai”según Simon Goldstein, una tasa que ofrece en breve para cualquier verificación y corrección. “Tal como está, las capacidades (de IA) se desarrollan más rápidamente que la comprensión y la seguridad”reconoce a Marius Hobbhahn, “Pero todavía somos capaces de ponernos al día”.

Algunos apuntan a la dirección de la interpretabilidad, una ciencia reciente que consiste en descifrar desde el interior del funcionamiento de un modelo de IA generativo, incluso si otros, en particular, el director del CAIS, Dan Hendrycks, son escépticos. AI combina “Podría obstaculizar su adopción si se están multiplicando, lo que constituye un fuerte incentivo para que las empresas (en el sector) se resuelvan” Este problema, según Mantas Mazeika. Simon Goldstein habla sobre el uso de la justicia para poner la inteligencia artificial en el paso, recurriendo a las empresas en caso de un viaje por carretera. Pero va más allá e incluso ofrece “Legalmente responsable” IA Agentes “En el caso de un accidente o un delito”.