Hay una forma bastante absurda de ahorrar dinero usando inteligencia artificial, y justamente por eso se volvió viral: pedirle al modelo que responda como un cavernícola. Frases cortas. Cero adornos. Nada de explicaciones largas. Solo acción y resultado.
La idea parece un meme, pero toca un punto muy real del uso de la IA moderna: cada palabra cuesta. O, mejor dicho, cada token cuesta. Cuando usas modelos como Claude, GPT, Gemini u otros sistemas por API, el precio no depende solamente de la dificultad de la tarea. También depende de cuánto texto entra y cuánto texto sale. Por eso, una respuesta elegante, amable y llena de contexto puede ser útil, pero también puede ser más cara de lo necesario.
Un usuario de Reddit habría popularizado este experimento al pedirle a Claude que respondiera con un lenguaje roto, mínimo, casi primitivo. Según la publicación viral, el ahorro podía llegar hasta un 75 %. Ese número debe tomarse con cuidado, porque no es una medición oficial de Anthropic ni una regla universal. Pero el principio sí es correcto: si reduces la cantidad de texto generado, reduces el uso de tokens. Y si reduces tokens, reduces costo cuando trabajas con herramientas que cobran por uso.
Anthropic explica en su documentación que Claude se cobra según tokens de entrada y de salida, dependiendo del modelo utilizado. Incluso herramientas adicionales, como el editor de texto, agregan tokens al consumo total. También indica que técnicas como el prompt caching pueden reducir costos en ciertos casos, lo que confirma algo importante: optimizar tokens no es una rareza, es parte real del uso eficiente de la IA.
Qué son los tokens y por qué importan tanto
Para entender este truco, primero hay que entender qué es un token. Un token es una unidad de texto que el modelo usa para leer y escribir. No siempre equivale a una palabra exacta. A veces una palabra corta puede ser un token; una palabra larga puede dividirse en varios. También cuentan signos, espacios, partes de frases y fragmentos del prompt.
Cuando escribes una instrucción larga, consumes tokens de entrada. Cuando la IA responde, consume tokens de salida. En muchos modelos, los tokens de salida suelen ser más caros que los de entrada. Por eso, una respuesta muy extensa puede aumentar bastante el costo si estás usando la API o una herramienta basada en consumo.
El problema es que muchos modelos están entrenados para ser educados, claros y completos. Eso está muy bien para una conversación normal, pero puede ser excesivo cuando lo único que necesitas es una respuesta operativa. Por ejemplo, si le pides a la IA que corrija un fragmento de código, no siempre necesitas que diga: “Claro, aquí tienes una versión corregida del código, he realizado algunos ajustes para mejorar la legibilidad”. A veces solo necesitas el código corregido y nada más.
Ahí entra el llamado “modo cavernícola”.
En qué consiste el truco del modo cavernícola
El truco consiste en pedirle al modelo que responda con frases mínimas, sin saludos, sin explicaciones innecesarias y sin estructura decorativa. La idea no es que la IA sea menos inteligente, sino que sea menos habladora.
Un prompt básico podría ser:
“Responde en modo cavernícola. Frases de 3 a 6 palabras. Sin saludos. Sin explicación. Primero da el resultado. Para cuando termines.”
La versión más extrema sería algo como:
“Modo cavernícola. Cero relleno. Resultado primero. Frases cortas. No expliques.”
Esto obliga al modelo a eliminar muchas partes habituales de sus respuestas. En lugar de decir “He revisado el texto y aquí tienes una versión mejorada”, puede responder directamente con el texto corregido. En lugar de explicar cinco pasos, puede dar solo los tres comandos necesarios. En lugar de justificar cada decisión, puede entregar el resultado final.
La reducción puede ser enorme en tareas repetitivas. Si usas IA para procesar cientos de textos, resumir datos, clasificar mensajes, corregir código o generar respuestas breves, cada token que ahorras se multiplica.
Por qué funciona este método
Funciona porque gran parte del consumo de tokens no viene de la tarea principal, sino del envoltorio. Los modelos suelen agregar frases de cortesía, advertencias, explicaciones, transiciones y cierres. Todo eso mejora la experiencia conversacional, pero no siempre aporta valor.
Por ejemplo, una respuesta normal podría decir:
“Claro. Aquí tienes una versión más breve y directa del texto, manteniendo el sentido original y mejorando la claridad.”
Eso consume tokens antes de entregar el resultado. En modo mínimo, la IA podría responder simplemente:
“Versión breve: …”
O incluso entregar directamente el texto.
La diferencia parece pequeña en una sola respuesta. Pero si estás ejecutando 1.000 llamadas a una API, el ahorro deja de ser anecdótico. En proyectos grandes, reducir 20, 50 o 100 tokens por respuesta puede tener impacto real en el presupuesto.
Además, el truco también ayuda a que la IA sea más rápida y menos confusa. Cuando le pides que no adorne, el modelo tiende a ir al punto. Eso puede mejorar flujos de trabajo donde importa más la eficiencia que el estilo.
Cuándo conviene usar respuestas tipo cavernícola
Este método sirve sobre todo en tareas técnicas, repetitivas o internas. Por ejemplo, cuando quieres que la IA clasifique datos, devuelva etiquetas, corrija errores, resuma textos en pocas palabras, genere comandos, transforme formatos o revise información sin explicar el proceso.
También puede ser útil en automatizaciones. Si tienes un sistema que envía textos a un modelo y luego usa la respuesta para otra acción, no necesitas una respuesta bonita. Necesitas una respuesta limpia, corta y predecible.
Un caso claro sería pedir:
“Clasifica este mensaje como: venta, soporte, reclamo o spam. Responde solo una palabra.”
Eso ahorra mucho más que recibir una explicación completa. Otro ejemplo:
“Extrae nombre, teléfono y ciudad. Devuelve JSON. Sin comentarios.”
En estos casos, el modo cavernícola no solo reduce tokens. También reduce errores, porque limita la libertad del modelo.
Cuándo no conviene usar este truco
No siempre es buena idea. Si estás escribiendo un artículo, una explicación educativa, una respuesta para clientes o un texto donde importa el tono humano, el modo cavernícola puede arruinar el resultado. Ahorrar tokens no sirve de nada si la respuesta queda pobre, fría o incompleta.
Tampoco conviene usarlo en temas delicados, como salud, legales, seguridad, decisiones financieras o conflictos personales. En esos casos, una explicación clara puede ser más importante que el ahorro.
La clave es simple: usa modo cavernícola cuando la respuesta sea una herramienta, no cuando la respuesta sea el producto final.
Si necesitas pensar, analizar, persuadir o enseñar, no recortes demasiado. Si necesitas ejecutar, clasificar o transformar, sí puedes recortar bastante.
Prompt práctico para ahorrar tokens
Puedes usar este prompt como base:
“Actúa en modo ahorro de tokens. Responde con frases cortas. Sin saludo. Sin introducción. Sin cierre. Da primero el resultado. No expliques salvo que lo pida. Evita relleno. Máximo 5 líneas.”
Para tareas más técnicas:
“Modo mínimo. Devuelve solo el resultado. Sin markdown si no es necesario. Sin explicación. Sin disculpas. Sin contexto. Formato exacto pedido.”
Para clasificación:
“Clasifica el texto. Responde solo con una etiqueta. Etiquetas permitidas: venta, soporte, reclamo, spam.”
Para código:
“Corrige el código. Devuelve solo el código corregido. Sin explicación.”
Para resumen:
“Resume en 3 frases cortas. Sin introducción. Sin opinión.”
Estos prompts son más útiles que simplemente decir “háblame como cavernícola”, porque definen reglas concretas. El chiste viral ayuda a entender la idea, pero en un entorno profesional conviene usar instrucciones claras.
El verdadero aprendizaje detrás del meme
Lo interesante no es que Claude pueda hablar como cavernícola. Lo interesante es que este truco muestra algo que muchos usuarios todavía no tienen presente: el costo de la IA también depende de cómo pedimos las cosas.
Un prompt desordenado puede generar una respuesta larga, confusa y cara. Un prompt preciso puede generar una respuesta corta, útil y barata. La diferencia no está solamente en el modelo. Está en la forma de usarlo.
Por eso, ahorrar tokens no significa tratar de “engañar” a la IA. Significa diseñar mejor las instrucciones. Pedir menos relleno. Definir formatos. Limitar extensiones. Separar tareas. Usar respuestas estructuradas. Y, cuando sea posible, evitar que el modelo explique lo que no necesita explicar.
El modo cavernícola es una versión exagerada de una regla mucho más seria: la IA debe hablar tanto como la tarea lo necesita, no tanto como pueda hablar.
Conclusión
El truco del lenguaje cavernícola puede parecer una broma, pero sirve para recordar una verdad importante: en inteligencia artificial, la claridad ahorra dinero. Si trabajas con modelos por API, cada palabra innecesaria puede convertirse en costo acumulado.
No hace falta que uses siempre frases rotas ni que conviertas a Claude en un troglodita digital. Lo importante es aprender la lógica del truco: respuestas cortas, instrucciones directas, formatos cerrados y cero relleno cuando la tarea no necesita explicación.
Para escribir, enseñar o comunicar, la IA debe sonar natural. Para automatizar, clasificar o ejecutar, la IA debe ser breve. Ahí está el verdadero ahorro.

abril 28, 2026






