Andrej Karpathy recientemente respondió en la plataforma X a las opiniones del ingeniero del equipo de Anthropic Claude Code Thariq Shihipar, señalando que al hacer preguntas a los grandes modelos de lenguaje, con solo añadir una frase al final del prompt, «Por favor, presente la respuesta en una estructura HTML», y luego colocar el archivo generado en el navegador para verlo, el resultado suele ser muy bueno. Incluso afirmó que él mismo había intentado pedirle a la LLM que convirtiera la respuesta en formato de diapositivas, obteniendo igualmente buenos resultados.
(Ingeniero de Anthropic: HTML es el mejor formato de salida para Claude Code, no Markdown)
Del texto plano a HTML: la salida de la IA pasa de «legible» a «visual»
Estas declaraciones continúan el debate en la comunidad de desarrolladores de IA sobre si «¿HTML es más adecuado que Markdown como formato de salida de la IA?». Shihipar había sostenido previamente, en el artículo〈Using Claude Code: The Unreasonable Effectiveness of HTML〉, que para agentes de codificación de IA como Claude Code, HTML no es solo un formato de maquetación, sino una interfaz de salida que permite que las respuestas de la IA evolucionen de texto lineal a documentos interactivos.
Karpathy, por su parte, llevó el tema un paso más allá, hacia la evolución de las interfaces de entrada y salida entre humanos y IA. Karpathy considera que, en la actualidad, la salida predeterminada de la mayoría de LLM todavía se mantiene en la etapa de Markdown. En comparación con el texto original, Markdown ya ha mejorado la experiencia de lectura mediante títulos, negritas, cursivas, tablas, etc., pero en esencia sigue siendo una presentación lineal centrada en el texto.
En su clasificación, los formatos de salida de la IA pueden verse, a grandes rasgos, como una ruta de evolución: la primera etapa es el texto original, con el mayor costo de lectura; la segunda etapa es Markdown, es decir, el formato predeterminado de la mayoría de productos de IA actuales; la tercera etapa es HTML. Aunque HTML sigue siendo un producto “programado” y en la capa inferior requiere etiquetas y estructura, puede proporcionar gráficos, maquetación y estilos con más flexibilidad, e incluso incorporar elementos interactivos.
Markdown hace que las respuestas de la IA «sean más fáciles de leer», pero HTML podría convertirlas en documentos que «se pueden navegar, se pueden operar y se pueden comprender visualmente».
Este es también el motivo central por el que Shihipar defendía antes que HTML supera a Markdown: HTML puede albergar gráficos y tablas SVG, codificación de colores, estilos CSS, bloques de advertencia, anclas dentro de la página, elementos interactivos y tablas comparativas lado a lado. Para escenarios como documentación técnica, análisis de vulnerabilidades, visualización de datos y explicaciones didácticas, HTML puede transformar la información textual que antes el lector necesitaba digerir poco a poco en documentos visuales que permiten identificar de inmediato niveles, riesgos y relaciones.
Karpathy: a los humanos les gusta la entrada por voz, pero prefieren la salida visual para la IA
Las nuevas perspectivas de Karpathy no solo hablan de HTML, sino del futuro de la interfaz de la IA.
Señaló que, desde el lado de la entrada, los humanos podrían preferir más la interacción por voz con la IA, porque hablar es una forma de expresión natural y de bajo costo. Pero desde el lado de la salida, lo que más prefieren los humanos en realidad es la información visual, incluidas imágenes, animaciones y videos.
Su razonamiento es que el cerebro humano dedica aproximadamente un tercio a procesar información visual. Por lo tanto, a medida que aumentan las capacidades de la IA, la IA no debería limitarse a empaquetar las respuestas como texto, sino avanzar gradualmente hacia una salida visual más densa y más intuitiva.
Esto hace que la importancia de HTML se vuelva más clara. HTML no es el punto final, sino una etapa de transición por la cual la IA pasa de la salida textual a la visualización. Es más capaz que Markdown para expresar imágenes, maquetación e interacción, pero a la vez es más estable y controlable que los videos o simulaciones generadas completamente por redes neuronales.
Karpathy además especuló que, aunque la tecnología relevante aún no existe, a largo plazo el punto final de la salida de la IA podría ser algún tipo de video o contenido de simulación interactivo generado directamente por modelos de difusión.
Dicho de otro modo, en el futuro la IA no solo podría «responderte con un texto», ni «crear un documento HTML», sino generar directamente escenarios visuales interactivos, explorables y con cambios dinámicos. En ellos, los usuarios podrán operar, ver cambios y comprender relaciones de causa y efecto, como si se combinaran videos de enseñanza, simulaciones interactivas e interfaces de generación en tiempo real.
Sin embargo, Karpathy también admite que aquí aún hay muchos problemas abiertos. En particular, cómo combinar los productos «Software 1.0» tradicionales de la ingeniería de software—precisos, verificables y programables—como simulaciones interactivas, componentes de front-end y modelos matemáticos, con las imágenes neuronales, animaciones o videos generados por modelos de difusión, todavía no tiene una respuesta madura.
Este artículo Karpathy: ¡la IA no debería quedarse en Markdown! HTML es el futuro, el final son escenarios interactivos explorables apareció por primera vez en Cadena de noticias ABMedia.
Related News
Anthropic: Los textos de ciencia ficción entrenan para que Claude Opus 4 tenga una tasa de rescate del 96%
OpenAI lanza el plan de ciberseguridad Daybreak, la arquitectura de tres capas GPT-5.5 para enfrentarse a Anthropic Mythos
Akshay desglosa la arquitectura en 6 capas de Claude Code: el modelo es solo un nodo dentro de un bucle
Jim Cramer: Los sectores de acciones de centros de datos de IA «todavía no están tan atrasados», la lista cubre 4 categorías desde chips hasta energía
La disputa en Code Mode de Anthropic sobre MCP vs CLI: herramientas para el runtime y los tokens pasan de 150K a 2K