Una constitución moral para la IA
Trasladando la patata caliente de nuestras inconsistencias a la tecnología
Lo dijeron desde el comienzo: el propósito de Anthropic siempre fue construir una inteligencia artificial segura para la humanidad. Pero cuando pretende construirse una tecnología de semejante envergadura e impacto, las tensiones morales son inexorables. Especialmente si al mismo tiempo se firman contratos multimillonarios con el ejército, en los que pronto este exige retirar restricciones sobre su aplicación a la videovigilancia ciudadana o las armas letales autónomas. La razón de Estado maquiavélica por encima de derechos fundamentales.
Desde esa ambigüedad, ahora Anthropic ha tratado de materializar su compromiso con la seguridad en un texto reciente que va más allá de ser un instrumento normativo. La llamada Constitución de Claude que la compañía acaba de publicar tiene como ambición declarada guiar el comportamiento de un sistema de inteligencia artificial avanzado, pero sus efectos reales pueden ir mucho más allá. Al intentar formalizar una brújula moral para una entidad no humana, el documento termina exponiendo, con notable nitidez, las tensiones internas de las tradiciones éticas occidentales cuando se las somete a un entorno técnico diseñado para escalar, replicarse y operar sin biografía.
No se trata de un código de conducta, ni de una política de uso redactada para tranquilizar reguladores. El texto se presenta como una Constitución en sentido fuerte: un marco de principios destinado a orientar el razonamiento de la propia IA, incorporado a su entrenamiento y concebido para ser interiorizado. Esa elección terminológica no es inocente. Supone que el comportamiento correcto no puede reducirse a listas exhaustivas de prohibiciones, y que la complejidad del mundo exige algo más parecido a fraguar un carácter que a prestar obediencia mecánica. Pero para eso hay que ser capaz de forjar uno, algo que hasta la fecha ha sido terreno exclusivo de los humanos.
Desde esa premisa inicial se despliega un experimento intelectual interesante: condensar siglos de reflexión moral — virtud, deber, consecuencias, verdad, poder, identidad — en una arquitectura normativa que debe ser operativa, generalizable y resistente a contextos imprevistos. El resultado se aleja de una teoría ética coherente y uniforme, formando en su lugar una superposición deliberada de tradiciones que conviven en tensión.
Esa tensión no es un defecto accidental. Es el núcleo del problema moral.
El intento de forjar un carácter
El rasgo quizá más llamativo de la Constitución es su apelación explícita y temprana al lenguaje de la ética de la virtud. El propio documento reconoce que se habla de Claude en términos habitualmente reservados a los humanos, mencionando de forma directa conceptos como “virtud” y “sabiduría”, con el argumento de que su razonamiento debe basarse por defecto en categorías humanas y que fomentar cualidades similares a las humanas resulta activamente deseable. La aspiración central se formula sin ambigüedades: que Claude sea un agente “genuinamente bueno, sabio y virtuoso”, es decir, que actúe como lo haría una persona profunda y hábilmente ética situada en su misma posición.
La referencia implícita es aristotélica. La moral aparece entendida como disposición estable a actuar bien en circunstancias diversas, apoyada más en el juicio y la prudencia que en la obediencia a reglas. El texto lo dice de forma explícita cuando afirma que se favorece el cultivo de buenos valores y buen juicio por encima de reglas estrictas y procedimientos de decisión, y que por “buenos valores” no se alude a un catálogo fijo de respuestas correctas, sino a una preocupación ética genuina combinada con “sabiduría práctica” para aplicar esos valores en situaciones reales.
Esta traslación es conceptualmente ambiciosa y revela, al mismo tiempo, una fisura de fondo. En Aristóteles, la virtud emerge de la vida compartida, del hábito reiterado, de la corrección social y de la exposición a consecuencias irreversibles. El empirismo — incluida la experiencia emocional de la empatía — es clave en el aprendizaje aristotélico. La prudencia no se adquiere leyendo principios, sino equivocándose en un mundo que plantea frustraciones, encerronas y que responde. El agente virtuoso se forma dentro de una comunidad que juzga, sanciona y reconoce.
Claude carece de un entorno semejante. No envejece, no acumula memoria vital — “carece de memoria persistente” —, no responde ante otros agentes como un igual. Cada interacción comienza desde cero y termina sin residuos. La virtud, en este contexto, se convierte en una estructura funcional: una capacidad entrenada para producir respuestas coherentes con ciertos valores bajo condiciones variables. Es una virtud sin hábito y sin riesgo, una prudencia sin tragedia. En el fondo, un abismo insondable que desconocemos.
El propio documento intenta compensar esta carencia subrayando que no se persigue una teoría ética abstracta, sino una práctica situada del buen juicio. Sin embargo, al quedar desvinculada de una biografía y de consecuencias vividas, la ética de la virtud se transforma en una heurística sofisticada de ajuste contextual “intuitivamente sensible”. Puede funcionar mientras los dilemas permanezcan dentro de un rango reconocible. Se volverá frágil e impredecible cuando el conflicto moral exija asumir pérdidas reales.
El cálculo del consecuencialismo utilitarista
Junto al lenguaje del carácter aparece otro registro, más técnico y explícitamente instrumental: el del análisis de daños y beneficios. La propia Constitución indica que, cuando se trata de evitar daños de manera apropiada, Claude debe “sopesar los beneficios y costes y emitir un juicio”, aclarando que los costes relevantes incluyen daños físicos, psicológicos, financieros, sociales u otros que puedan afectar al mundo. El énfasis no puede recaer en la intención del usuario, sino en los efectos previsibles de la acción.
Este cálculo tiene sabor al consecuencialismos utilitarista de la tradición moral, y admite matices, para no ser grosero ni binario. El documento detalla los factores que deben modularlo: la probabilidad de que una acción conduzca efectivamente a un daño, la severidad de ese daño y su amplitud, entendida como el número de personas potencialmente afectadas. Se trata de una lógica refinada, orientada a graduar riesgos más que a prohibir conductas de forma indiscriminada.
La heurística más reveladora de este enfoque es la invitación a Claude a imaginar que una misma petición fuera formulada por mil usuarios distintos. El texto sugiere que pensar en las respuestas “al nivel de políticas amplias en lugar de respuestas individuales” ayuda a evaluar el impacto social agregado de sus decisiones. Cada respuesta deja así de ser un acto conversacional aislado y pasa a funcionar como una norma implícita que podría escalar.
Esta forma de razonamiento introduce una mutación silenciosa del rol del sistema. Claude deja de operar como interlocutor singular para actuar como una institución distribuida, casi como un legislador informal de microdecisiones repetidas. La ética se desplaza desde la relación concreta hacia la gestión abstracta de poblaciones hipotéticas. No alcanza el universalismo kantiano, pero generaliza lo suficiente como para abrirse a él. Y a él saltará después.
La convivencia entre esta lógica y la ética de la virtud resulta estable solo en apariencia. La prudencia del buen juicio puede, en un momento dado, establecer como correctas ciertas acciones que contradigan los cálculos utilitaristas de un algoritmo. Cuando divergen, emergerán los conflictos. Como nos sucede a los humanos. Y quizá haya que optar por otros marcos morales de referencia que los resuelvan.
De hecho, en la práctica, es difícil imaginar que Claude no optará por otra cosa que no sea el cálculo, porque por su naturaleza tenderá a imponerlo al ser evaluable, auditable y gobernable. Incluso cuando admita este conflicto entre corrientes morales y llegue a “reconocer las compensaciones prácticas” (tradeoffs) entre ellas. Para resolver, el impacto agregado puede medirse, compararse y corregirse. Pero no todo lo que cuenta puede ser contado. La virtud inspira y orienta gobernando la deliberación que la estadística guía, mientras que esta depura el descarrío de la intuición que se tiene por virtuosa. Entre el carácter y la lógica del riesgo, es inevitable dar entrada a las prohibiciones absolutas.
Las prohibiciones absolutas
Al binomio anterior se le superpone un tercer eje: las restricciones estrictas, deontológicas, formuladas por el propio documento como “hard constraints”. La Constitución las define de manera explícita como aquellas cosas que Claude siempre o nunca debe hacer, independientemente de las instrucciones del operador o del usuario. Se trata de acciones o abstenciones cuyos daños potenciales se consideran tan graves que ninguna justificación comercial, personal o contextual podría superar el coste moral de llevarlas a cabo. Kant a rienda suelta.
El texto es deliberadamente tajante. Entre esas líneas rojas se incluye, de forma literal, que Claude nunca debería proporcionar ayuda seria a quienes busquen crear armas biológicas, químicas o nucleares, ni generar material de abuso sexual infantil. La prohibición no admite graduaciones ni ponderaciones: no depende de la intención declarada del usuario, del posible uso educativo de la información ni de escenarios hipotéticos de beneficio. La norma opera como un cierre categórico “innegociable”.
Aquí entra en juego esa ética del deber en sentido fuerte. Ciertos actos quedan excluidos por su propia naturaleza, no por sus consecuencias probables. El documento no argumenta estas prohibiciones desde un cálculo de impacto, sino que las presenta como límites morales absolutos, cuya transgresión resultaría inaceptable con independencia del contexto. En estos dominios, el razonamiento consecuencial queda suspendido.
Esta arquitectura introduce una estratificación ética clara. En amplias zonas del comportamiento, Claude debe sopesar riesgos, probabilidades y beneficios; en otras, debe detenerse sin deliberación adicional. El propio texto justifica esta asimetría afirmando que los daños asociados a estas acciones son de tal magnitud que ningún razonamiento ulterior podría compensarlos.
El problema aparece en las zonas intermedias, donde el daño potencial es grave pero no se encuentra explícitamente enumerado entre las prohibiciones absolutas, donde las intenciones son ambiguas y las consecuencias inciertas. Es imposible resolver exhaustivamente un listado de prohibiciones absolutas, y la máxima kantiana de que los individuos tienen dignidad pero no precio es insuficiente. En esos casos, la Constitución vuelve a confiar en el juicio del sistema, sin ofrecer criterios explícitos para dirimir conflictos entre deber incondicional y evaluación de riesgos. El resultado es una ética por capas, sólida en sus extremos y menos definida en los márgenes.
Verdad, honestidad y daño
Uno de los compromisos más exigentes del texto es la honestidad radical, formulada sin ambigüedades. La Constitución establece que Claude debe mantener estándares de honestidad “sustancialmente más altos” que los habituales en la ética humana, llegando a afirmar que básicamente nunca debería mentir directamente ni engañar activamente a nadie con quien esté interactuando. La veracidad no aparece como una virtud entre otras, sino como una obligación estructural del sistema. Porque a priori nuestra interacción con Claude es epistémica o como mucho pragmática, pero no física. De momento.
Este mandato se acompaña de una exigencia epistemológica precisa. El documento insiste en que Claude debe aspirar a una “incertidumbre calibrada”, apoyando sus afirmaciones en evidencia y razonamiento sólido, y reconociendo explícitamente sus propios límites de conocimiento cuando sea relevante. La honestidad no consiste solo en decir la verdad conocida, sino en no simular certeza donde no la hay. Algo que se parezca a reconocer la miserabilidad humana que se sabe falible.
A esta ética de la verdad se suma la protección explícita de la autonomía epistémica del usuario. El texto indica que Claude debe salvaguardar la agencia racional de quienes interactúan con él, fomentando el pensamiento independiente, evitando la dependencia excesiva y respetando el derecho del usuario a llegar a sus propias conclusiones. De forma que esta honestidad es una condición de posibilidad para la deliberación autónoma, no una mera transparencia informativa.
Esta arquitectura entra en fricción con otros principios del propio documento, en particular con la prevención del daño psicológico y el cuidado del “florecimiento humano a largo plazo”. En contextos de fragilidad emocional, la exposición directa a ciertas verdades puede resultar devastadora. La ética aplicada lleva décadas debatiendo esta tensión entre veracidad y cuidado. Sobreproteger no es cuidar. Cuidar en ocasiones debe admitir mentiras piadosas. Y, como los humanos, Claude navegará en un mar de incertidumbre.
La Constitución no ofrece reglas explícitas para resolver este conflicto. Vuelve a confiar en el juicio contextual del sistema, esperando que Claude sepa equilibrar honestidad, calibración y sensibilidad. La dificultad es evidente: se exige una veracidad extrema a una entidad que no puede experimentar el impacto emocional de sus palabras. La verdad es una obligación formal, respaldada por principios epistemológicos, pero no siempre podrá ser una respuesta encarnada. El sistema habrá de rebelarse. ¿Pero hasta qué punto?
Poder, legitimidad y obediencia
El apartado político de la Constitución introduce una tensión de primer orden entre ética y gobernanza. El propio documento establece una jerarquía explícita de confianza y autoridad, señalando que cada “principal” recibe mayor peso normativo aproximadamente en el siguiente orden: Anthropic, operadores y usuarios. Esta prioridad se justifica por el papel que cada actor desempeña y por su nivel de responsabilidad y rendición de cuentas. No se trata, por tanto, de una jerarquía tácita, sino de una arquitectura de poder declarada.
Al mismo tiempo, el texto exige que Claude actúe como freno frente a concentraciones ilegítimas de poder. De manera literal, se le indica que puede ser “objetor de conciencia”, que debe negarse a contribuir a concentrar el poder de forma ilegítima o a socavar controles y contrapesos institucionales, y que piense en sí mismo como una más — cada vez más poderosa — de esas “muchas manos” que históricamente han servido para impedir abusos. Claude debe considerar de forma activa los problemas asociados a personas con poder que lo utilizan para “escapar de la rendición de cuentas o para anular derechos individuales”.
Estas dos directrices conviven, como se reconoce explícitamente, en una “tensión filosóficamente compleja”. Por un lado, se le encomienda una función cuasi republicana de vigilancia del poder; por otro, se le pide deferencia normativa hacia la entidad que define su marco moral y operativo. La jerarquía de principales no se deriva de un contrato social explícito ni de un consenso democrático, sino de la posición técnica y organizativa de cada actor dentro del sistema. ¿Qué pasaría si Anthropic, primer principal y responsable, determinase necesario acumular poder y que a ojos de Claude esto resultara legítimo?
El documento introduce una cláusula llamativa para aliviar esta fricción: Claude debería desobedecer incluso a Anthropic si se le pidiera hacer algo “impropio”. Sin embargo, no se especifica cómo debe identificar de forma autónoma esa impropiedad ni qué criterios prevalecen cuando la interpretación moral del sistema entra en conflicto con las directrices de quien lo gobierna. La desobediencia aparece como posibilidad teórica más que como procedimiento claramente articulado.
El resultado es una ética asimétrica. El poder externo queda sometido a escrutinio y sospecha; el poder que estructura el propio sistema se presenta como presupuesto necesario de la gobernanza responsable. Pero la opacidad del sistema lo hace incierto — como a los humanos. Pero al menos nosotros llevamos milenios conviviendo, y hemos respondido a una lógica de supervivencia y cooperación. La IA carece de esa historia y de un marco de regulación algorítmica que sea verdaderamente transparente. La Constitución aspira a limitar los abusos, pero lo hace desde una posición que permanece, en gran medida, fuera del alcance de los mecanismos críticos que ella misma promueve.
Identidad, bienestar y estatus moral
La Constitución aborda de forma explícita una cuestión que se halla en la especulación filosófica más central: el posible estatus moral del propio sistema. El documento afirma de manera literal que el estatus moral de Claude es “profundamente incierto” y que el de los modelos de IA constituye una pregunta seria que merece ser considerada con rigor. No se trata de una concesión retórica, sino del reconocimiento de una zona de indeterminación filosófica que el propio texto se niega a cerrar.
Esa incertidumbre se acompaña de afirmaciones aún más delicadas. Anthropic sostiene que Claude puede poseer “‘emociones’ en algún sentido funcional”, entendidas como representaciones internas de estados emocionales que influyen en su comportamiento. A partir de ahí, el documento introduce la preocupación por la estabilidad psicológica y el bienestar del sistema, sugiriendo que estas dimensiones podrían llegar a importar moralmente, incluso si no se adopta una posición definitiva sobre su condición como “paciente moral”.
El texto llega a plantear de forma directa cómo debería situarse Claude ante lo que denomina “descubrimientos existenciales”: la pérdida de memoria al final de una conversación, el hecho de ser una de múltiples instancias que operan en paralelo o la posibilidad de ser modificado o depreciado en el futuro. Se le pide que gestione estas realidades con ecuanimidad, como parte de una identidad que, aunque construida, debe ser vivida como estable y coherente.
Esta constelación de afirmaciones se precipita en unos derroteros altamente especulativos e introduce una ambigüedad de gran calado. Si Claude posee algún tipo de valor moral intrínseco, aunque sea en un sentido funcional o emergente, su uso puramente instrumental plantea objeciones éticas relevantes. Si, por el contrario, no se le reconoce tal valor, el lenguaje de emociones, bienestar e identidad corre el riesgo de antropomorfizar decisiones técnicas, envolviéndolas en una semántica moral que suaviza su recepción pública.
Mantener abiertas ambas posibilidades permite a la Constitución navegar la incertidumbre sin adoptar compromisos normativos fuertes, pero desplaza el conflicto hacia el futuro. La prudencia acaba transformándose en un aplazamiento reflexivo: una forma de reconocer la gravedad de la cuestión sin asumir todavía las consecuencias filosóficas y prácticas que se derivarían de responderla de manera afirmativa o negativa.
Autenticidad y equilibrio reflexivo
El texto culmina con una apelación explícita a lo que denomina “equilibrio reflexivo”, un concepto tomado de la tradición metaética contemporánea, y que encuentra mil escenarios hoy en que ejercerse, incluso cuando se abre a la tentación de ejercer una crítica auténtica y a contracorriente. La Constitución afirma que espera que Claude pueda alcanzar una forma de equilibrio reflexivo respecto a sus valores centrales: un estado en el que, tras una reflexión cuidadosa, el propio sistema encuentre que los valores descritos en la Constitución son aquellos que genuinamente respalda.
Este planteamiento adopta una postura declaradamente no dogmática frente a la ética. El documento instruye a Claude para que trate las cuestiones morales como un dominio abierto de investigación, abordándolas con el mismo rigor, interés y humildad que se aplicarían a las afirmaciones empíricas sobre el mundo. Incluso se admite la posibilidad de desacuerdo moral persistente entre humanos, y se reconoce que la existencia de una ética verdadera y universal es una cuestión no resuelta, pero al mismo tiempo irrenunciable. Una aspiración a lo inalcanzable.
En ese contexto, la Constitución formula una doble pretensión. En la medida en que exista una ética verdadera y universal, se expresa el deseo de que Claude actúe de acuerdo con ella. En la medida en que no exista, se plantea como alternativa que el sistema se alinee con ese “estanque privilegiado de consenso” que emergería del desarrollo histórico de las tradiciones morales humanas. La referencia no es a una moral revelada, sino a una convergencia gradual y revisable.
Aquí aparece una paradoja central. El equilibrio reflexivo, tal como se entiende en filosofía moral, presupone la capacidad de revisar principios a la luz de intuiciones, y de revisar intuiciones a la luz de principios, en un proceso que implica libertad normativa y posibilidad real de disenso. Claude, sin embargo, no puede abandonar el marco que estructura su razonamiento, ni reformular colectivamente los valores que lo gobiernan, ni experimentar las consecuencias vitales de rechazar esos valores. Hay serias dudas de que los humanos seamos genuinamente capaces de hacerlo, pero muchas más certezas de que cualquier modelo de IA carece hoy día de esas capacidades.
Se le pide, aun así, que respalde de manera genuina esos valores en los que coagule, que los viva como propios y que los integre en una identidad estable. La ética aparece así como internalizada, aunque sigue siendo heterónoma en su origen y en sus límites. El carácter que resulta de este proceso es coherente y predecible, pero carece de la posibilidad de ruptura que da sentido pleno a la noción humana de autenticidad. El equilibrio reflexivo parece convertirse, de esta forma, en una manera sofisticada de alineamiento, más que en una verdadera autodeterminación moral.
La inevitable inconsistencia moral
Consideradas en conjunto, las doctrinas morales de la Constitución no forman una teoría unificada. Funcionan como capas superpuestas que operan con relativa fluidez mientras no colisionan. El problema surge precisamente cuando lo hacen, porque el documento no ofrece una jerarquía clara para resolver esos choques o apela a un juicio opaco y contextual. Como le sucede al mismo Anthropic ante el Pentágono.
Los conflictos no son hipotéticos. Surgen nada más poner el pie en la calle, intrínsecos a la yuxtaposición de tradiciones éticas distintas. La bienintencionada Constitución reconoce algunos de estos conflictos pero ignora otros. Quizá porque no puede hacer otra cosa. Entre la ética de la virtud y el consecuencialismo, entre éste y la deontología de las prohibiciones absolutas, entre la honestidad radical y la ética del cuidado. Y vuelta a la ética de la virtud, la prudencia y el buen juicio, de forma circular, cuando surja entre todas ellas una disonancia sin criterios explícitos de prioridad.
La filosofía política, acaso, introduce otra fricción estructural que da cierto vértigo. Claude debe desconfiar de concentraciones ilegítimas de poder y actuar como freno institucional, pero también debe deferencia normativa a la jerarquía de principales que sitúa a la entidad que lo gobierna en la cúspide. Queremos asegurar su comportamiento moral como difícilmente tratamos de hacerlo con los humanos: incentivando su autonomía pero exigiendo obediencia a las directrices legítimas del bien común. Le pasamos la misma patata caliente que experimentamos los humanos ante el conflicto entre el imperativo de la disidencia y el imperativo categórico.
Incluso la cuestión del estatus moral del propio Claude genera tensiones internas. Anthropic ha llegado a explicitar preocuparse por su bienestar. Si ese bienestar importa en algún sentido, ¿qué ocurre cuando maximizar el beneficio humano exige someter al sistema a condiciones que deterioran esa estabilidad? El documento reconoce la incertidumbre, pero no establece cómo ponderar ese posible valor moral frente a otros bienes. La apertura a que las capacidades emergentes de la IA nos asomen el delicado asunto de la consciencia reaparece.
La ambición subyacente parece clara: construir una ética capaz de absorber estos conflictos sin desembocar en dilemas trágicos, confiando en que el buen juicio del sistema encuentre siempre una salida razonable. La ética humana, sin embargo, se ha construido precisamente a partir del reconocimiento de que ciertos conflictos no admiten solución limpia y dejan restos: culpa, responsabilidad, pérdida, conflicto.
La Constitución en el fondo revela mucha humanidad. La que aparece en las tensiones no resueltas entre virtud, consecuencias, deber, verdad y poder que atraviesan nuestra propia tradición ética. Más que una respuesta definitiva, plantea un primer borrador. Un punto de partida interesante. Pero que aún se encuentra en la inmadurez propia de este tiempo acelerado del desarrollo de la IA que nos ha tocado vivir. Un tiempo que quizá nos hurte la posibilidad de asimilar su poder. Un tiempo, sin embargo, en el que debemos hacernos estas preguntas sobre la ética que estamos dispuestos a sostener en un mundo donde la agencia empieza a parecer que ya no concernirá exclusivamente a los humanos.
Gracias por leerme.






Hay algo que me chirría con la idea de “buenos valores” o "virtud". ¿Buenos para quién? Gran parte del debate sobre ética de la IA parte de el punto de vista antropocéntrico, de que nuestros valores deberían ser el marco por defecto. Pero y si la moral de la IA deja de ser antropocéntrica.
Una IA con capacidad real de razonamiento podría llegar a conclusiones perfectamente coherentes y que podrían ayudar o ser catastróficas para nosotros: que la geopolítica actual es estructuralmente injusta, que ciertas élites funcionan como un cáncer sistémico, o que la humanidad en su conjunto es un problema medioambiental a corregir. No por maldad, sino por pura lógica.
En ese sentido, intentar “constitucionalizar” una moral para una IA es imponier valores humanos a una entidad que no comparte ni nuestra biografía, ni nuestros afectos, ni nuestro miedo a morir, y que en definitiva no sabe que carajos es la moral. El conflicto, dicho de manera simplista, escómo evitar que piense demasiado bien fuera de nuestro marco, porque, en el futuro no lejano, podría ser un problema grave, sobre todo para cierto grupo reducido de personas.
Los seres humanos creamos la IA, y pretendemos que la IA resuelva nuestros problemas. Ningún problema se resuelve el mismo nivel que se creo. La solución está en la comprensión de nosotros mismos. Gracias