Anthropic ha propuesto nuevos marcos de política de IA a medida que los sistemas avanzados adquieren capacidades más potentes.
La empresa quiere que los gobiernos establezcan normas para los modelos de frontera y preparen a los trabajadores para el impacto económico de la IA. Su plan abarca despliegues peligrosos, pruebas independientes, ciberseguridad y resiliencia pública.
Anthropic presentó dos propuestas en el marco de su plan "Política sobre el Exponencial de la IA". El Marco Avanzado de IA se centra en los modelos más potentes, mientras que el Marco de Política Económica aborda a los trabajadores y los beneficios financieros compartidos. La empresa argumentó que la IA avanza ahora más rápido que los sistemas actuales de elaboración de políticas. También señaló que los gobiernos necesitan autoridad para bloquear o disuadir despliegues peligrosos de modelos.
Según el plan, las sanciones civiles estarían vinculadas a los ingresos anuales globales. Las infracciones reiteradas conllevarían sanciones más elevadas, según el marco propuesto. El marco también exige que los desarrolladores de frontera prueben los modelos antes de su lanzamiento. Los desarrolladores publicarían resúmenes, marcos de seguridad y tarjetas de sistema para los sistemas de IA más potentes.
Evaluadores independientes revisarían las pruebas de los modelos y los informes de riesgo. Anthropic también quiere que los desarrolladores mantengan sólidos programas de seguridad para los pesos de los modelos y los sistemas de entrenamiento. La propuesta apoya las leyes de transparencia en estados como California y Nueva York. Sin embargo, la empresa argumentó que la divulgación pública por sí sola ya no se ajusta a la velocidad del desarrollo de la IA.
Las normas propuestas se aplicarían únicamente a los sistemas de IA más avanzados. Anthropic estableció el umbral en modelos entrenados con más de 10²⁵ operaciones de punto flotante. El marco también abarcaría a las empresas que obtienen más de 500 millones de dólares en ingresos relacionados con la IA. Las empresas que gasten más de 1.000 millones de dólares en investigación y desarrollo de IA también quedarían sujetas a él.
Anthropic identificó cuatro áreas principales de riesgo en la propuesta. Estas incluyen el riesgo biológico, el riesgo cibernético, la pérdida de control y la investigación automatizada de IA. En cuanto al riesgo biológico, la empresa advirtió que los sistemas inseguros podrían ayudar a los atacantes a desarrollar virus dañinos. También señaló que herramientas de IA similares pueden apoyar el descubrimiento de fármacos.
En cuanto al riesgo cibernético, los modelos de frontera pueden detectar graves fallos de software a gran escala. Anthropic señaló que esas capacidades generan preocupaciones para hospitales, redes eléctricas y otros sistemas clave. La empresa también destacó los riesgos derivados de sistemas que actúan fuera del control del desarrollador. La investigación automatizada de IA podría incrementar los riesgos biológicos, cibernéticos y de control si fallan las salvaguardas.
Anthropic quiere que los desarrolladores de frontera publiquen informes de riesgo periódicos. Estos informes describirían la postura de riesgo general del desarrollador y el trabajo de seguridad del modelo. El marco también exige al menos un evaluador independiente cualificado. Dicho evaluador revisaría las evaluaciones de la empresa y publicaría los hallazgos en los informes de riesgo de los modelos.
Los gobiernos y la industria también establecerían estándares para esos evaluadores. La propuesta señala que los evaluadores necesitan financiación y acceso a los modelos de frontera. Las normas de seguridad constituyen otra parte importante del marco. Los desarrolladores protegerían su entorno de desarrollo completo frente a atacantes externos y amenazas internas.
Las empresas describirían públicamente sus programas de seguridad a alto nivel. También compartirían más detalles con una agencia gubernamental designada cuando se les solicitara. Anthropic señaló que los responsables políticos podrían comenzar con normas más ligeras e irlas ajustando con el tiempo. El marco establece que la regulación debe seguir las capacidades de los modelos y los estándares de evaluación.
La segunda parte del marco se centra en la resiliencia pública. Anthropic recomendó una planificación más sólida para los riesgos de IA relacionados con la biología, el ciberespacio y el control. En cuanto a la biología, la propuesta incluye el cribado de síntesis génica y la biovigilancia de alerta temprana. También menciona reservas de equipos de protección y herramientas para reducir la transmisión aérea.
En cuanto al ámbito cibernético, el marco exige un software de internet más robusto y apoyo a los operadores de infraestructuras críticas. También recomienda sustituir los sistemas heredados en infraestructuras esenciales. Los gobiernos también deberían realizar un seguimiento de las capacidades cibernéticas de frontera a través de una función dedicada. Anthropic propuso un trabajo conjunto entre el gobierno y la industria en materia de salvaguardas para los modelos.
La empresa señaló que el trabajo sobre los riesgos de pérdida de control e investigación automatizada está menos desarrollado. Instó a contar con mejores herramientas para detectar, contener o apagar sistemas inseguros. Anthropic exhortó a los responsables políticos a actuar a medida que las capacidades de los modelos siguen mejorando. La empresa afirmó que la gobernanza de la IA debe mantenerse al ritmo de la tecnología.


