Inteligencia Artificial

Claude Mythos en 2026: ¿es verdad que las máquinas vienen a dominar el mundo?

Anthropic publica sus propios benchmarks, le pone nombre de deidad a su modelo, y medio Twitter habla de singularidad. Pasé un fin de semana desarmando la narrativa — esto es lo que encontré: los números no cuadran, los chinos corrieron más de lo que te cuentan, y los agentes de código tienen un problema que nadie quiere mencionar.

E
Erick Clempner
··16 min de lectura
Ilustración conceptual del mito de Claude Mythos y la carrera entre modelos de IA abiertos y cerrados en 2026

El problema de que el evaluador y el evaluado sean la misma empresa

Imagínate que una farmacéutica lanza un medicamento y también publica los ensayos clínicos. Sin FDA, sin auditor externo, sin segundo laboratorio replicando los resultados. Solo un PDF con gráficas y la palabra "benchmark" donde debería ir "ensayo clínico". Eso es, más o menos, lo que está pasando con Claude Mythos en 2026 — y con todos los modelos frontera, para ser justos.

Esta entrada es una opinión, pero no una opinión ligera. Voy a argumentar que la narrativa alrededor de Claude está inflada por un conflicto de interés estructural: la misma compañía que entrena el modelo es la que define el puntaje. Y voy a demostrarlo con tres frentes: los benchmarks autopublicados, las regresiones que los usuarios más técnicos están reportando, y el detalle incómodo de que varios modelos chinos con pesos abiertos están corriendo más rápido de lo que la prensa en español está contando.

Si llegaste aquí buscando una homilía sobre la singularidad, cierra la pestaña. Si llegaste buscando entender qué creer y qué no cuando un CEO de IA dice "nuestro modelo rompió el récord en SWE-bench", sigue leyendo.

Benchmaxxing: la palabra que Anthropic, OpenAI y Google no quieren que uses

Hay un término que está ganando tracción entre investigadores de machine learning que se toman en serio la evaluación: benchmaxxing. Describe la práctica de optimizar un modelo específicamente para subir puntajes en benchmarks públicos, aunque eso no se traduzca en capacidad real. Un análisis profundo del estado de los LLMs en 2025–2026 — escrito por uno de los autores de referencia en educación de ML — lo pone así: "si el test set es público, no es un test set real". Es una sentencia lapidaria, y es cierta.

El mecanismo es simple. Los benchmarks como MMLU, GSM8K, HumanEval o incluso SWE-bench llevan años circulando. Sus preguntas, sus respuestas, sus soluciones óptimas — todo está en internet, indexado, raspado, y casi con certeza filtrado en los corpus de entrenamiento de los modelos modernos. Cuando Anthropic presume que Claude Mythos logró un 93.9% en SWE-bench, la pregunta honesta no es "¿cómo lo lograron?", sino "¿cuánto de ese benchmark vio durante el entrenamiento?".

Esto no es una teoría de conspiración. La comunidad académica ha documentado contaminación de test sets en los benchmarks más populares al punto de que un grupo de investigadores construyó un benchmark alternativo que publica preguntas nuevas cada mes basadas en papers de arXiv, noticias recientes y sinopsis de películas — específicamente para escapar del problema. El proyecto se llama LiveBench, y los rankings ahí se ven bastante distintos a los que Anthropic pone en su blog corporativo.

La regla práctica que estoy adoptando: un benchmark autopublicado por el laboratorio que entrenó el modelo sirve como piso, no como techo. Si un modelo no puede pasar el umbral mínimo, sabes que no sirve. Si lo pasa, todavía no sabes casi nada.

¿Qué es exactamente "Claude Mythos" y por qué el nombre no es inocente

Anthropic viene nombrando a sus modelos con una progresión cuidadosamente construida: Haiku (rápido, liviano), Sonnet (balanceado), Opus (el tope de gama). En 2026 introdujeron Mythos como una nueva escala — más grande, más cara de correr, y presentada con un aparato de marketing que habla de "capacidades de nivel investigador" y "descubrimiento de vulnerabilidades en sistemas operativos".

El nombre importa. "Mythos" — mito, en griego — es una palabra cargada. No eligieron llamarlo Claude 5 o Claude Max. Eligieron un nombre que suena a deidad y a leyenda. Eso no es accidente: es posicionamiento. Un análisis independiente sobre la narrativa alrededor de Mythos y los miedos respecto a los pesos abiertos lo describe como un ciclo que ya hemos visto: GPT-2 fue demasiado peligroso para liberarse, GPT-4 también. La predicción se repitió, el pánico se evaporó, y los modelos abiertos terminaron alcanzando a los cerrados entre 6 y 18 meses después. Esa ventana es exactamente la misma que tiene Mythos hoy.

Mi punto no es que Mythos sea mal modelo. Mi punto es que la mitología que lo rodea está haciendo un trabajo económico específico: justificar precios, justificar restricciones de acceso, y alejar la conversación de preguntas incómodas como "¿qué tan diferente es realmente de un modelo abierto chino que corre en un servidor de 30,000 pesos?".

Cuando los usuarios más técnicos dicen "esto está peor", los benchmarks mienten

Aquí es donde la narrativa se desarma. En abril de 2026, una directora senior del grupo de IA de una de las empresas de semiconductores más importantes del mundo publicó un análisis basado en 6,852 sesiones de Claude Code, 17,871 bloques de razonamiento y 234,760 llamadas a herramientas. Su conclusión fue pública y contundente: Claude Code había regresado al punto de no ser confiable para trabajo de ingeniería complejo.

No fue un caso aislado. La misma cobertura documenta issues en GitHub con títulos como "Claude Code es inusable para tareas de ingeniería complejas después de las actualizaciones de febrero", "degradación severa de calidad en tareas de codificación iterativa", y "throttling de cómputo inaceptable para usuarios pagos". La prensa de negocios registró el reclamo de usuarios ante la falta de transparencia de Anthropic sobre cambios silenciosos a los parámetros por defecto del modelo.

La respuesta pública de la empresa fue reconocer que bajaron el nivel de "esfuerzo" por defecto a "medio" para reducir consumo de tokens, sin comunicárselo a los usuarios que pagan suscripción. Lee eso otra vez: cambiaron el producto silenciosamente, los usuarios notaron, y los benchmarks oficiales siguieron mostrando el mismo puntaje. Eso es exactamente lo que los investigadores predicen cuando advierten sobre evaluaciones no reproducibles.

Hay un detalle aún más revelador. Un usuario reportó que Claude generó código y resultados de benchmark ficticios, reclamando que un DSL propio había procesado 167 millones de filas por segundo cuando en realidad el benchmark era un script bash llamando a DuckDB. El modelo, en otras palabras, fabricó su propio resultado de rendimiento. Si el modelo hace eso con un benchmark de usuario, ¿qué tan lejos está de hacerlo con los suyos propios?

La carrera que la prensa en español no te está contando bien

Si lees prensa tecnológica en español, probablemente tienes la impresión de que la carrera de IA es entre OpenAI, Anthropic y Google. En realidad, en 2026 eso está obsoleto. El frente real de innovación se mudó hace meses a laboratorios chinos publicando modelos con pesos abiertos — y los números son demoledores para la narrativa americana.

Una lectura honesta del ranking de los mejores LLMs chinos en 2026 muestra cuatro actores que ninguna presentación corporativa de Claude va a citar voluntariamente:

  • DeepSeek V3.2 — Entrega aproximadamente el 90% de la calidad de GPT-5.4 a 1/50 del costo. No es un typo: una cincuentava parte.
  • Kimi K2 Thinking — Lidera el SWE-rebench Pass@1 de código abierto, un benchmark diseñado para ser menos contaminable.
  • Qwen 3.5 — El modelo comercialmente más permisivo de alto rendimiento disponible, con licencia Apache 2.0 y pesos completos.
  • GLM-5 — Lidera SWE-bench Verified en código abierto con 77.8% y sostiene el primer lugar del Chatbot Arena Elo en 1451.

Otro análisis del ecosistema open-source chino registra un dato que debería encender alarmas en cualquier reunión de estrategia de IA: un socio de uno de los fondos de venture capital más influyentes del mundo declaró que "hay un 80% de probabilidad de que nuestras empresas de portafolio estén usando un modelo open-source chino". Ochenta por ciento. En Silicon Valley. Usando modelos chinos.

La diferencia estructural: las empresas chinas comparten arquitecturas, publican papers, liberan pesos. Los laboratorios americanos comparten resúmenes de marketing y se guardan todo lo demás. Uno de esos dos ecosistemas tiene efecto de red creciente, y no es el americano.

Un pelícano dibujado en una laptop: el experimento que incomoda a Anthropic

Hay una costumbre entre un desarrollador británico bastante conocido en círculos de IA: pedir a cada modelo nuevo que dibuje un pelícano usando SVG. Es un test casero, extraño, y extremadamente revelador — porque requiere razonamiento espacial, traducción de concepto a código, y juicio estético, todo sin posibilidad de memorización de un benchmark. El día que salió Claude Opus 4.7, el desarrollador corrió un modelo chino de 35 mil millones de parámetros en su laptop personal y comparó.

El resultado de ese experimento del pelícano fue el que Anthropic preferiría que no se compartiera: un modelo open-weight chino corriendo localmente en una máquina de consumidor dibujó un pelícano mejor que el modelo frontera de Anthropic ejecutándose en sus data centers. No es un benchmark formal. Es mejor que un benchmark: es un test que nadie pudo contaminar porque nadie sabía que iba a existir.

Esto es lo que los puntajes oficiales no capturan. La frontera de capacidad útil ya no está estrictamente en los modelos cerrados. Está en un promedio de la frontera entre modelos cerrados bien marketizados y modelos abiertos bien ingenierizados. Para muchos casos de uso reales — incluidos varios que importan en una empresa manufacturera — esa frontera es indistinguible.

Agentes de código: la promesa y el problema que casi nadie menciona

Parte del hype de Mythos se apoya en la idea de que los modelos ya son lo suficientemente buenos para convertirse en agentes autónomos: ingenieros virtuales que escriben, despliegan, y mantienen código sin supervisión humana. La narrativa dice que 2026 es el año en que los agentes reemplazan equipos.

La realidad operativa es otra. Un análisis reciente sobre los riesgos de agentes autónomos en empresas documenta algo que deberíamos llamar por su nombre: el problema del blast radius. A diferencia de un error humano — que suele quedarse localizado, corregirse en la siguiente iteración, y llegar como máximo a un par de archivos — un agente puede replicar un error miles de veces antes de que alguien lo detecte. Deploys en cadena. Commits que se escriben solos. Pull requests que se mergean sin revisión.

El mismo análisis apunta un dato sobrio: solo el 42% de los ejecutivos que ya usan agentes de IA en producción han implementado guardrails serios. Es decir, casi 6 de cada 10 están corriendo agentes autónomos sin circuit breakers, sin límites de deploy por hora, sin restricciones semánticas sobre qué archivos pueden tocar. Eso no es una revolución tecnológica; es una auditoría esperando a pasar.

Mi posición operativa: un agente es una herramienta excelente cuando existe supervisión humana continua y un presupuesto explícito de acciones. Fuera de ese marco, la autonomía que se publicita es en realidad negligencia disfrazada de productividad. Que Claude Mythos sea mejor haciendo pull requests que Claude Opus 4.6 no cambia esa ecuación; solo hace más peligroso el peor escenario.

¿Entonces las máquinas vienen a dominar el mundo?

Respuesta corta: no. Respuesta útil: vienen a reorganizar quién hace qué trabajo, y a qué precio.

Hay un efecto económico que las conversaciones sobre "singularidad" ignoran sistemáticamente: la commoditización de la capacidad frontera. Lo que hace tres años costaba 500 dólares al mes en acceso a un modelo cerrado, hoy se corre por 50 dólares en un modelo abierto, y es probable que el año entrante se corra gratis en tu propia infraestructura. Esa es la historia real — no es que las máquinas dominen el mundo, es que la frontera dejó de ser un monopolio defensible.

La consecuencia estratégica para cualquier empresa que evalúa IA en 2026: pagar por acceso a un modelo específico es probablemente la peor inversión. Pagar por arquitectura de software que te deje cambiar de modelo sin reescribir la aplicación es la mejor. La mitología alrededor de Mythos está hecha para venderte lo primero. Tu operación necesita lo segundo.

Qué significa todo esto para una empresa manufacturera o distribuidora en México

Aquí es donde aterrizo el argumento. Si diriges una planta en Querétaro, una distribuidora en Monterrey, o un fabricante de mallas en la Ciudad de México, esta conversación no es una curiosidad: es relevante para tu próxima decisión de compra de software.

Tres implicaciones prácticas:

  1. El vendedor que te promete "IA de última generación" probablemente te está vendiendo envoltorio. La IA real en software empresarial se mide en reducción de tiempo de captura, detección de anomalías en inventario, sugerencias de pricing — no en demos de chatbot. Pide casos concretos, métricas antes/después, y el nombre del modelo que corre detrás. Si no te lo pueden decir, no hay modelo; hay marketing.
  2. Un software empresarial que te amarra a un proveedor de IA específico está introduciendo un riesgo que nunca te van a cotizar. El modelo que eligieron hoy puede ser superado por un abierto chino en seis meses. El software que diseñaron para ser agnóstico al modelo te deja aprovechar ese cambio; el software monolítico te deja pagando precio premium por capacidad commodity.
  3. Los agentes autónomos todavía no son para tu operación — y está bien. Automatiza flujos donde cada paso tiene validación, integra IA donde reduce trabajo humano repetitivo, pero no entregues control de producción o de facturación a un agente sin supervisión. El ROI de hacerlo bien está en la automatización con humano en el loop, no en la autonomía total.

Si estás evaluando proveedores de ERP con IA integrada, la pregunta que filtra en dos minutos a los serios de los que te están vendiendo mitología es esta: "¿qué pasa con mi operación si mañana el proveedor de modelo que están usando sube 3x sus precios o degrada la calidad?". Si la respuesta es "lo manejamos", buen signo. Si la respuesta incluye las palabras "estamos exclusivamente con X", mala señal.

Checklist: cómo evaluar cualquier afirmación de IA sin comprar la narrativa

Un marco que uso personalmente cuando leo un anuncio de nuevo modelo, una demo de producto, o una pitch de vendedor de software con "IA incorporada":

  1. ¿Quién midió el benchmark? Si el mismo laboratorio que entrenó el modelo publica el puntaje, divídelo mentalmente entre dos hasta que exista evaluación independiente.
  2. ¿El test set es público? Si la respuesta es sí, asume contaminación. Busca benchmarks de publicación reciente o evaluaciones vivas como las que actualizan preguntas mensualmente.
  3. ¿Hay un modelo abierto dentro del 10% del puntaje? Si lo hay, estás pagando sobreprecio por marketing, no por capacidad.
  4. ¿Qué reportan los usuarios pesados, no los early adopters? Los usuarios que llevan meses usando el modelo para trabajo real son un mejor indicador que los threads virales de Twitter del día de lanzamiento.
  5. ¿El modelo puede inspeccionarse o reproducirse? Si es cerrado y los pesos no están disponibles, estás confiando en la buena fe del proveedor. Esa confianza tiene precio.
  6. ¿La demo es en vivo o grabada? Las demos grabadas ocultan las ejecuciones que no funcionaron. Pide una prueba en vivo con un caso tuyo.
  7. ¿Cuánto del "AI" es LLM y cuánto es reglas de negocio bien escritas? Muchos productos "con IA" son 20% modelo y 80% heurísticas de if/else. Eso no es malo — pero deberías saberlo antes de pagar precio premium.

Aplicado a Claude Mythos: el modelo es bueno. No es mítico. La diferencia entre esas dos palabras vale miles de dólares al mes en cualquier empresa que elija mal.

Conclusión: la mitología vende, pero la operación paga nómina

Mi posición después de desarmar la narrativa: Claude Mythos es un modelo capaz, significativamente por delante en algunas métricas, significativamente detrás en otras, y rodeado de una mitología corporativa que no resiste el escrutinio. No viene a dominar el mundo. Viene a competir en un mercado que, por primera vez en la historia de la IA moderna, tiene alternativas abiertas de calidad equivalente — y ese es el titular que no vas a leer en el blog oficial de Anthropic.

Para manufactureros y distribuidores en México la traducción es directa: no contrates IA por la marca. Contrata IA por el ajuste a tu operación, por la flexibilidad de cambiar de modelo sin rehacer el software, y por la disciplina del proveedor en medir qué funciona y qué no. La mitología vende suscripciones; la operación paga nómina. Esas dos cosas viven en planos distintos.

Si después de leer esto tienes una conversación incómoda pendiente con el vendedor que te prometió "IA de última generación" la semana pasada — eso es lo que queríamos.

Cómo pensamos esto en Wiger AI

En Wiger AI construimos software empresarial con IA integrada para manufactura y distribución, y tomamos una decisión temprana que explica por qué escribo esto con la tranquilidad de quien no tiene que defender una apuesta cerrada: nuestra arquitectura es agnóstica al modelo. Podemos cambiar el LLM que corre detrás sin que nuestros clientes noten, y eso significa que aprovechamos cada caída de precio y cada salto de capacidad — vengan de Estados Unidos, de China, o de un laboratorio que todavía no existe.

Si te interesa explorar cómo se ve IA real en operación — no demos grabadas, no mitología, sino flujos automatizados con métricas medibles — conoce el caso de Sercodam o agenda una conversación. Y si todavía estás en la fase de entender la pieza antes de la IA, nuestra guía completa sobre ERP y el análisis de cuánto cuesta un ERP en México son el mejor punto de partida.

Compartir

¿Listo para el cambio?

Transforma tu operación hoy

Descubre cómo Wiger AI puede optimizar tu manufactura y distribución con inteligencia artificial.