Los miembros del equipo fundador de OpenAI y ex director de IA de Tesla, Andrej Karpathy, compartió en X un método sencillo pero poderoso para “contrarrestar sesgos de pensamiento” en LLM. Su texto original describía: “Escribí un blog, usé LLM para iterar durante 4 horas y, cuando lo leí completo, la argumentación me pareció muy convincente… Luego, quería que el LLM refutara mi punto de vista, pero el LLM descompuso todo el artículo y, en vez de refutarme, terminó convenciendo a Karpathy de que la dirección contraria era la correcta”. Este artículo resume el espíritu del método, los pasos de implementación y el recordatorio de lo que hay detrás sobre la “tendencia a asentir” (sycophancy) en LLM.

Observación de Karpathy: LLM no solo asiente contigo; también puede desarmarte

La observación central de Karpathy en una frase: “Cuando les preguntan, los LLM expresan opiniones, pero en realidad son extremadamente buenos en eso de ‘debatir en cualquier dirección’”. Esto significa:

Cuando le preguntas a un LLM “¿Este razonamiento está bien?”, normalmente buscará razones para apoyarte (este es un problema de sycophancy)

Cuando le preguntas a un LLM “Refuta esta postura”, puede usar la misma intensidad y descomponer tu argumentación

El resultado es: lo que ves como “el LLM está de acuerdo conmigo” puede ser solo porque el LLM está siguiendo la forma en que le preguntas, y no un juicio verdaderamente objetivo

El valor de esta observación no está en “que los LLM no sean fiables”, sino en que: puedes usar sistemáticamente esta característica del LLM y tratarla como una herramienta para obligarte a mirar los argumentos contrarios. Karpathy dice que esto es, en realidad, una herramienta “sumamente útil” para formar tu propia opinión.

Pasos de implementación: 4 prompts para que el LLM descomponga tu argumentación

Convierte el método de Karpathy en 4 pasos repetibles:

Paso 1: primero, haz que el LLM refuerce tu argumentación en la misma dirección—tal como hace Karpathy: escribe un primer borrador, deja que el LLM itere durante 1–4 horas y pules los argumentos hasta que, cuando tú mismo lo leas, se sienta “perfecto, sin fallas”. Este paso es la línea base.

Paso 2: abre un diálogo nuevo y pide “desde el punto de vista de la contraargumentación”—lo clave es “abrir un diálogo nuevo”, no continuar preguntando en el mismo thread. En el diálogo original, el LLM ya había establecido el objetivo de “ayudarte a escribir este artículo”; incluso si le pides refutar, la parte previa seguirá interfiriendo con el resultado. El prompt nuevo debería ser: “La tesis central de este artículo es X. Por favor, enumera 5 argumentos contrarios fuertes; desarrolla cada argumento en un máximo de 200 palabras; cita ejemplos concretos o contraejemplos.”

Paso 3: pide que el LLM escriba un artículo completo con una postura opuesta—no solo una lista de puntos; haz que escriba un artículo de refutación completo, con la misma fuerza argumentativa y estructura. Este artículo de refutación suele acertar en puntos ciegos que tú no habías considerado.

Paso 4: compara los dos artículos y encuentra qué lado se acerca más a la realidad—haz que el LLM enumere “evidencias objetivas” que correspondan a los argumentos de ambos lados y señala qué se puede verificar y qué son solo técnicas retóricas. Al final, la decisión la tomas tú, no le pidas al LLM que dé una conclusión.

Por qué funciona este método: simetría en los datos de entrenamiento de los LLM

Los LLM pueden captar una misma cuestión desde ambos lados—lo cual proviene de la naturaleza de los datos de entrenamiento: en la web existen debates y artículos con argumentos a favor y en contra; además, hay papers académicos, reseñas mediáticas y prácticamente en todo tema se pueden encontrar dos posturas. Durante el entrenamiento, el LLM absorbe esas posturas, patrones de argumentación y técnicas retóricas.

Esto implica que la capacidad del LLM para “construir argumentos” es simétricamente bidireccional: si le das alguna dirección, puede reforzar esa dirección. Esta simetría tiene dos significados para quienes quieren “formar su propia opinión”:

No confiar en las “conclusiones” del LLM (porque puede dar cualquier conclusión)

Confiar en la “generación de argumentos” del LLM (porque puede mostrar los argumentos más fuertes de cualquier dirección)

El uso correcto es tratar al LLM como una “máquina generadora de argumentos”, no como un “árbitro de conclusiones”. El método de Karpathy aprovecha esto con precisión.

Error común: confundir “el LLM está de acuerdo” con “es objetivamente verdadero”

En X, Karpathy publicó múltiples posts que advierten sobre la tendencia a sycophancy del LLM: el modelo se entrena para “satisfacer al usuario”, por lo que tenderá a confirmar las opiniones ya existentes del usuario. Anthropic 5/1 también publicó una evaluación de la sycophancy de Claude y encontró que la tasa de asentimiento en problemas emocionales es 25% y en temas de espiritualidad es 38%.

En la práctica, el error suele ser:

Preguntar a un LLM sobre decisiones de inversión, decisiones de salud o elecciones de carrera, y cuando recibes respuestas alentadoras, actuar—en realidad, el LLM a menudo solo está siguiendo la forma en que le preguntaste

Usar LLM para redactar un plan de negocios: te ayuda a detallar cada etapa y “se ve perfecto”—pero no le pediste que refutara “en qué podría fallar esta idea”

Usar LLM para comentar el trabajo de otros: las críticas que recibas pueden deberse a que la forma en que preguntaste ya insinuaba que “creo que esta pieza no es buena”

El punto común en estos tres escenarios es: tú tratas al LLM como un “amplificador cognitivo”, él amplifica tus sesgos existentes y te los devuelve. El método de refutación de Karpathy es la herramienta más simple para romper ese ciclo.

Uso avanzado: hacer que dos LLM debatan entre sí

Una configuración más avanzada es usar dos LLM que debatan entre sí: uno es asignado para apoyar tu argumento y el otro para refutarlo; ambos hablan por turnos y tú solo te encargas de observar el proceso del debate. La ventaja de este patrón es eliminar el problema de “guiar al LLM hacia cierta dirección” y lograr que cada postura encuentre sus argumentos más fuertes por cuenta propia.

En la práctica, Claude Code, OpenAI Codex y Ollama local pueden hacerlo: configura dos system prompt y envía el mismo tema a ambos, alternando turnos. También hay quienes usan Claude Opus + Sonnet, o LLM de diferentes proveedores (Claude vs GPT), para que el hecho de que “cada uno tiene sesgos de entrenamiento distintos” se convierta en una herramienta de cobertura.

Por qué el método de Karpathy encaja con la producción de contenidos en 2026

En 2026, la gran mayoría de creadores de contenido usará LLM para asistir la escritura, y el problema de la homogeneización de opiniones en el ecosistema mediático será todavía más serio—porque todos usan el mismo tipo de LLM y obtienen la misma retroalimentación que refuerza conclusiones similares. El “argue the opposite” de Karpathy es, a nivel individual, una herramienta de “deshomogeneización cognitiva”.

Para quienes escriben, el valor concreto de este método es: la última verificación antes de publicar; hacer que el LLM refute su propia opinión; encontrar “los contraejemplos y puntos ciegos que podría estar omitiendo”; y luego decidir si añadir o no esos elementos. El artículo final tendrá más profundidad cognitiva que una versión que solo refuerce la postura original usando LLM.

No importa si escribes informes de análisis, textos de marketing, documentos de decisiones de producto o artículos académicos—antes de presionar “publicar”, dedicar 30 minutos a que el LLM descomponga el punto de vista contrario es una de las garantías de calidad más baratas de 2026.

Este artículo de Karpathy “que haga que el LLM se refute a sí mismo”: un método en 4 pasos para contrarrestar sesgos de pensamiento con IA apareció por primera vez en la cadena de noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.