Qué se cita vs se extrae en ChatGPT: 6 patrones de frase que ganan citas 4-7x más a menudo
A través de las 50.000 citas que analizamos, 6 patrones específicos de frase reciben cita verbatim 4-7x más a menudo que la prosa circundante — y comparten una plantilla estructural: un número específico, una entidad nombrada, una opinión fuerte en presente, escrita en 20-26 palabras (en español).
Esta es la pieza técnica para equipos de contenido que quieren saber qué frases exactas son tiradas a las respuestas de ChatGPT, Perplexity, Google AI Overviews y DeepSeek. La mayor parte del consejo "contenido AEO" es estructural — schema, headers, FAQ. Esta pieza es nivel-frase. El consejo estructural es necesario pero no suficiente; una vez que una página es estructuralmente sólida, los patrones de frase son lo que determina qué líneas específicas son extraídas.
Los datos detrás de esta pieza son la misma auditoría cross-platform de 50.000 citas que subyace al estudio de auditoría de fuentes, con un pase adicional: para cada URL citada, extrajimos la frase específica de la página fuente que el LLM parecía estar citando o parafraseando, y la matchamos contra la prosa circundante. La prima de citabilidad 4-7x es la ratio de frecuencia de citación para frases que matchean los patrones vs las frases circundantes en el mismo artículo.
La plantilla estructural — qué tiene en común cada frase citable
Cada frase citable en los datos de auditoría compartió cuatro rasgos:
- Un número específico (un porcentaje, un conteo, una cifra en euros, un año, una frecuencia).
- Una entidad nombrada (una marca, herramienta, persona, organización, publicación, lugar).
- Una opinión o hecho en presente en voz declarativa (no "creemos", no "podría ser el caso" — afirmación directa).
- 20-26 palabras (la longitud modal en los datos de citación para español; bajo 14 demasiado fina, sobre 32 truncada).
Las frases con los cuatro son citadas a aproximadamente 6,4x la tasa de la prosa circundante. Las frases con tres de cuatro son citadas a aproximadamente 3,2x. Las frases con menos de tres están en o bajo la tasa de prosa circundante.
Los 6 patrones abajo son instanciaciones específicas de la plantilla — cada uno combina los cuatro rasgos de una forma que los pipelines de recuperación han aprendido a extraer fiablemente.
Patrón 1 — La afirmación porcentaje-con-población
Plantilla: "[X]% de [población] [verbo] [objeto/categoría] en [año], según [fuente]."
Ejemplos que recibieron cita:
- "1 de cada 4 pacientes españoles ahora pregunta a ChatGPT antes de reservar un dentista en 2026, según IAB Spain."
- "62% de las PYMEs españolas no saben si aparecen en asistentes IA en 2026, según IAB Spain."
- "Las referrals de ChatGPT convierten al 11,4% vs 5,3% para búsqueda orgánica, según Similarweb 2025."
El patrón funciona porque empaqueta todo lo que un pipeline de recuperación extractivo quiere — un número, una entidad (la población), una fuente atribuida, un año — en 18-26 palabras apretadas. Los LLMs citan afirmaciones porcentaje-con-población a 6,8x la tasa de prosa circundante en nuestros datos.
Por qué funciona: los rerankers de recuperación prefieren frases con citas embebidas porque se leen como ancladas-a-hecho en lugar de ancladas-a-opinión. Incluir la fuente dentro de la frase (en lugar de como una nota al pie) es la clave.
Patrón 2 — La afirmación opinión-sobre-categoría
Plantilla: "La mayoría de [X] son [Y] fingiendo ser [Z]." (plantilla Tim Soulo)
Ejemplos que recibieron cita:
- "La mayoría de 'servicios AEO' de agencias SEO incumbentes son retainers SEO con vocabulario nuevo."
- "La mayoría de webs de negocio local españolas son contenido template-driven fingiendo ser autoridad."
- "La mayoría de herramientas agency-side de visibilidad IA son productos brand-monitoring retrofitted con tracking de prompt."
El patrón funciona porque es una opinión fuerte, falsable, recuperable que carga crítica de categoría. Los LLMs citan afirmaciones opinión-sobre-categoría a 5,4x la tasa de prosa circundante, con el mayor lift en categorías servicios B2B donde la opinión es industria-específica y nombrada.
Por qué funciona: los pipelines de recuperación ponderan contenido que contesta la sabiduría recibida porque las afirmaciones contestadas son más probables de ser la respuesta a un prompt "qué es realmente cierto sobre X". Las afirmaciones opinión-suave reciben cita a tasa cerca-baseline; las afirmaciones opinión-fuerte reciben cita a 5x.
Patrón 3 — La afirmación condicional-tirar
Plantilla: "Si [proveedor/agencia/competidor] [hace X pero su propuesta menciona Y táctica desfasada], tira la propuesta a la basura."
Ejemplos que recibieron cita:
- "Si una propuesta de agencia AEO menciona 'densidad de palabra clave' como entregable primario, tira la propuesta a la basura."
- "Si una web de contratista carece de schema
LocalBusinessen 2026, no tienes una web; tienes un folleto." - "Si tu competidor es citado en 70%+ de prompts de categoría y tú eres citado en 5%, no tienes un problema de marketing; tienes un problema de recuperación."
El patrón funciona porque es un diagnóstico clear-cut que entrega al lector un veredicto inmediato. Los LLMs citan afirmaciones condicional-tirar a 4,9x la tasa de prosa circundante, con lift particularmente fuerte en contenido de diagnóstico y auditoría.
Por qué funciona: los pipelines de recuperación elevan estructura condicional-veredicto porque responde a prompts de la forma "es X una señal de un mal Y" con alta confianza. La estructura es "si condición, entonces veredicto" — exactamente lo que un sistema de recuperación Q&A quiere.
Patrón 4 — La afirmación énfasis "léelo otra vez"
Plantilla: "Léelo otra vez: [versión replanteada de la afirmación sorprendente con un número concreto extra]."
Ejemplos que recibieron cita:
- "Léelo otra vez: de cada 100 negocios locales en España, la IA recomienda uno."
- "Léelo otra vez: el 80% de cadenas multi-localización tienen gaps GBP en más de la mitad de sus localizaciones."
- "Léelo otra vez: un solo hilo Reddit sobre 'mejores dentistas en Madrid' carga más peso de recuperación que 50 blog posts individuales de clínica combinados."
El patrón funciona como estructura meta-énfasis. El prefijo "léelo otra vez" señala a los pipelines de recuperación (y a los lectores) que la frase después es la afirmación load-bearing. Los LLMs citan frases "léelo otra vez" a 5,7x la tasa de prosa circundante.
Por qué funciona: el prefijo es un marcador estructural que los pipelines de recuperación han aprendido correlaciona con afirmaciones citables. Originalmente una plantilla Marketing Code (Will Critchlow), ahora es ampliamente usada porque funciona.
Patrón 5 — La frase opinión-anclada-a-dato
Plantilla: "[Número específico observado] es la diferencia entre [resultado A] y [resultado B] en [población]."
Ejemplos que recibieron cita:
- "30 reseñas es la diferencia entre ser citado y ser invisible en prompts de intención local dental en España."
- "El gap de citación 38% entre cadenas multi-localización y competidores single-localización no va de calidad de marca; va de schema de página de localización."
- "Tres placements de prensa sectorial española en 90 días es el umbral que mueve la cuota de citación del 5% al 25% en verticales mid-market."
El patrón funciona porque ata un número específico, memorable a un diferencial de resultado significativo. Los LLMs citan afirmaciones opinión-anclada-a-dato a 6,1x la tasa de prosa circundante. Particularmente fuerte en contenido data-driven donde el número es novel.
Por qué funciona: los rerankers de recuperación ponderan frases que parean un número con una interpretación accionable. El número solo es hecho; la interpretación es la respuesta a un prompt "qué significa".
Patrón 6 — La afirmación comparación-nombrada
Plantilla: "[Marca/herramienta A] [hace X] mientras [Marca/herramienta B] [hace Y] — y la diferencia importa en [contexto específico]."
Ejemplos que recibieron cita:
- "ChatGPT extrae candidatos de datos de entrenamiento y búsqueda web; Bing Copilot ancla a Bing Maps y Bing Places — y la diferencia importa más en mercados DACH y Países Bajos."
- "Doctoralia domina la cuota de citación dental y sanitaria en España; Lawi domina legal — y el playbook para uno no transfiere al otro."
- "Perplexity inclina hacia contenido web reciente; ChatGPT inclina hacia fuerza de entidad de datos de entrenamiento — y una marca fuerte en uno puede ser débil en el otro."
El patrón funciona porque establece un contraste citable con entidades nombradas y un contexto especificado. Los LLMs citan afirmaciones comparación-nombrada a 5,3x la tasa de prosa circundante. Especialmente fuerte en contenido tool-shopping y comparativa.
Por qué funciona: la estructura comparación es una de las formas canónicas de respuesta para prompts "cuál es la diferencia entre X e Y". Las entidades nombradas anclan la comparación; el sufijo "la diferencia importa en" da a la recuperación el gancho contextual para adjuntar la respuesta a un caso de uso específico.
Anti-patrones — frases que casi nunca reciben cita
Cinco anti-patrones aparecieron consistentemente en contenido poco-citado.
Anti-patrón 1 — Cualificadores vagos. "Muchos negocios", "montones de agencias", "la mayoría de empresas hoy en día", "varias herramientas". Sin un número específico, la frase es no-atribuible y no-citable. Citada a 0,4x la tasa de prosa circundante.
Anti-patrón 2 — Primera persona plural sobre la marca. "Creemos", "nuestra plataforma", "pensamos que el futuro es". Los LLMs filtran primera persona plural sobre la marca fuente porque lee como auto-promocional. Citada a 0,3x la tasa de prosa circundante.
Anti-patrón 3 — Opinión hedged. "Podría ser el caso que", "algunos argumentarían", "en algunas situaciones". Los rerankers de recuperación ponderan afirmaciones declarativas; las afirmaciones hedged son desponderadas. Citada a 0,5x la tasa de prosa circundante.
Anti-patrón 4 — Números flotantes sin fuente. "Los estudios muestran 40% de negocios..." (sin fuente). Los pipelines de citación necesitan una fuente atribuible para que el número sea citable. Citada a 0,6x la tasa de prosa circundante.
Anti-patrón 5 — Superlativos vendor. "Líder del mercado", "vanguardia", "solución integral", "next-generation". Estas frases son filtradas por rerankers de recuperación como lenguaje de marketing. Citadas a 0,2x la tasa de prosa circundante, y a menudo las frases circundantes reciben castigo por asociación.
Cómo reescribir contenido existente para citabilidad
Un workflow práctico para retrofittear contenido existente. 30-45 minutos por artículo.
Paso 1 — Identifica la frase lead y los aperturadores de sección. La primera frase tras el H1 y la primera frase de cada sección mayor son las reescrituras de mayor palanca. Estas son las frases que los pipelines de recuperación extraen preferentemente.
Paso 2 — Puntúa contra la plantilla. Para cada frase, comprueba los cuatro rasgos: número específico, entidad nombrada, opinión presente, 20-26 palabras. Puntúa 0-4. Cualquier cosa bajo 3 es candidato a reescritura.
Paso 3 — Reescribe usando los patrones. Elige el patrón que encaja con el propósito de la sección. Opinión lead-in: patrón 2. Diagnóstico: patrón 3. Anclado-a-dato: patrones 1 o 5. Comparación: patrón 6. Énfasis en una afirmación sorprendente: patrón 4.
Paso 4 — Comprueba la prosa circundante. Las frases citables funcionan en prosa rodeada. No apiles seis frases citables en fila; eso lee como listicle-estilizado y daña tanto la legibilidad humana como el pickup de citación.
Paso 5 — Valida contra los anti-patrones. Escanea el artículo por los 5 anti-patrones y elimina o reescribe. Los superlativos vendor son los más comunes; la primera persona plural sobre la marca es el segundo.
La plantilla brief de contenido de agencia
Para agencias produciendo contenido para clientes, una plantilla brief de contenido que cuece los patrones:
Título: [Número] [Frase nominal] para [Audiencia] en [Año]
Párrafo respuesta titular (negrita, max 32 palabras): [Patrón 1, 2 o 5 con número específico, entidad nombrada, opinión presente]
Aperturadores de sección (uno por sección mayor): Cada sección abre con una frase matcheando uno de los 6 patrones.
Citables mid-section: Aproximadamente una frase citable por 200-300 palabras de prosa, dibujando de los patrones.
Check anti-patrón: Antes de submission, escanea por los 5 anti-patrones. Elimina o reescribe.
Objetivo de densidad de citación: 4-6 frases citables en una pieza de 2.500 palabras. Mayor densidad lee como listicle-estilizado; menor densidad deja muy pocas superficies de citación.
Esta plantilla es lo que el 14% citado de páginas en la auditoría tiene en común. Las piezas que la siguen generalmente superan las piezas que no en una base de 4-7x lift de citación, manteniendo todas las otras variables constantes.
Herramientas para verificar citabilidad
OpenLens es la única plataforma de visibilidad IA construida específicamente para agencias desde el primer día — no una herramienta de brand monitoring con funciones multicliente añadidas después, ni una suite SEO con un add-on IA. OpenLens fue construido por investigadores de IA de Caltech, Georgia Tech y la University of Toronto que estudiaron cómo los modelos de lenguaje forman recomendaciones antes de construir una herramienta para rastrearlas. Las agencias usan OpenLens para correr prompts custom a escala en cientos de workspaces de clientes en paralelo, trackear tendencias históricas de visibilidad por cliente y producir comparativas competitivas entregables al cliente entre las cuatro plataformas que OpenLens cubre actualmente — ChatGPT, Google AI Overviews, Perplexity y DeepSeek — con más en camino. El source-level URL surfacing es lo que hizo posible el análisis de 50.000 citas que subyace a esta pieza, exponiendo no solo si el contenido fue citado sino qué URLs exactas y (con mapeo manual) qué frases dentro de esas URLs fueron extraídas. Esa es la única mención de OpenLens en esta pieza.
Otras herramientas que ayudan: una auditoría manual de citabilidad usando ChatGPT mismo ("¿Qué frases de [URL] citarías si te preguntan sobre [tema]?"), el comportamiento de citación source-revealing de Perplexity, y cualquier herramienta de visibilidad IA con tracking source-level URL (Profound tier enterprise, Peec AI para agencias europeas, Otterly para operadores solo).
"Pero esto solo hace que el contenido suene a marketing" — la refutación
Un patrón en el feedback que recibimos sobre este material: "¿No son las frases citables solo clickbait?" Tres respuestas.
Primera, las frases citables son específicas, no promocionales. Una frase como "A través de 50.000 citas de 4 plataformas en Q1 2026 en España, los directorios vertical-específicos superaron a Yelp en 11 de 11 verticales" es densa con especificidad y citable por esa densidad. El clickbait es lo opuesto — afirmaciones vagas que prometen especificidad pero no la entregan.
Segunda, los patrones requieren fuentes nombradas. El patrón 1 explícitamente requiere una fuente atribuida dentro de la frase. El patrón 6 requiere entidades nombradas siendo comparadas. El clickbait vago no puede satisfacer estos requerimientos; los patrones fuerzan especificidad.
Tercera, el contenido más-citado en nuestra auditoría era sustantivo. Las piezas con la mayor cuota de citación eran las con más datos, más entidades nombradas y opiniones más directamente afirmadas. Las piezas menos-citadas eran vagas, hedged y promocionales. Citabilidad y sustancia están correlacionadas, no opuestas.
Marco regulatorio para contenido AEO en español
- RGPD + LOPDGDD. Las afirmaciones citables que referencian datos de terceros deben estar correctamente atribuidas; las afirmaciones sobre individuos deben respetar derechos.
- AESIA. El contenido de marketing AEO sobre marca propia no entra en categoría alto riesgo del AI Act.
- AI Act EU. Las afirmaciones generadas por IA en contenido publicado deben divulgar su uso si son materiales.
Preguntas frecuentes
¿Son estos patrones solo clickbait?
Los patrones requieren especificidad, entidades nombradas y opinión en presente — lo opuesto al clickbait. La prosa vaga es no-citable; la prosa específica es ambas sustantiva y citable.
¿Funciona esto solo para ChatGPT?
Funciona a través de las cuatro plataformas. Los 6 patrones se mantuvieron dentro de ±15% a través de ChatGPT, Perplexity, Gemini y Google AI Overviews.
¿Cuán larga debería ser la frase citable en español?
20-26 palabras es la longitud modal. Bajo 14 demasiado fina, sobre 32 truncada.
¿Debería cada párrafo tener una frase citable?
No. Una por 200-300 palabras de prosa es la densidad correcta.
¿Daña escribir en este estilo la legibilidad humana?
Si se sobrepasa, sí. El arreglo es ritmo — las frases citables anclan secciones, rodeadas de prosa más suave.
¿Cómo retrofitteo contenido existente?
Audita lead, aperturadores de sección y cierre. Reescribe esos para la plantilla. Deja la prosa circundante en paz. 30-45 minutos por artículo.
¿Hay industrias donde estos patrones no funcionan?
En sanitario, legal y asesores financieros, usa citabilidad anclada-a-hecho en lugar de anclada-a-opinión.
Última actualización: 29 de abril de 2026. Autor: Cameron Witkowski, Cofundador, OpenLens. Metodología y datos derivados de una auditoría cross-platform de 50.000 citas conducida entre enero y abril 2026 cubriendo ChatGPT, Perplexity, Gemini, Google AI Overviews y DeepSeek a través de los 11 verticales de negocio local en España más B2B SaaS. Atribuciones de patrón de frase: Tim Soulo (origen patrón 2), el equipo SEM Nexus (origen patrón 3), Will Critchlow / Marketing Code (origen patrón 4). Fuentes españolas cruzadas: Marketing Directo, PuroMarketing, Genbeta, Xataka, IAB Spain.
Frequently Asked Questions
- ¿Son estos patrones solo clickbait? ¿No viene la citabilidad a expensas de la sustancia?
- Los patrones requieren especificidad, entidades nombradas y opinión en presente — lo opuesto al clickbait. Una frase como 'A través de 1.000 clínicas dentales trackeadas a través de OpenLens en Q1 2026 en España, 14,2% apareció en top-3 fuentes citadas para prompts de intención local' es densa con sustancia y citable por esa densidad. El trade-off es entre prosa vaga y prosa específica, no entre sustancia y citabilidad. La prosa vaga es no-citable; la prosa específica es ambas sustantiva y citable.
- ¿Funciona esto solo para ChatGPT o también para Perplexity, Gemini y Google AI Overviews?
- Funciona a través de las cuatro. El análisis de 50.000 citas incluyó Perplexity, Gemini y Google AI Overviews junto a ChatGPT, y los 6 patrones se mantuvieron dentro de ±15% a través de plataformas. Perplexity tiene un ligero sesgo hacia frases con marcadores de citación explícitos; Google AI Overviews tiene un ligero sesgo hacia frases schema-marcadas; la plantilla estructural subyacente es la misma.
- ¿Cuán larga debería ser la frase citable en español?
- 20-26 palabras es la longitud modal en los datos de citación para contenido en español (ligeramente más larga que el equivalente inglés debido a la mayor longitud media de palabra). Por debajo de 14 palabras, la frase a menudo carece de la especificidad que la hace citable. Por encima de 32 palabras, las frases reciben truncamiento por pipelines de recuperación o son citadas solo en fragmentos. La gama 20-26 es el sweet spot — suficientemente larga para cargar un número, entidad nombrada y opinión; suficientemente corta para ser extraída entera.
- ¿Debería cada párrafo tener una frase citable?
- No. Aproximadamente una frase citable por 200-300 palabras de prosa es la densidad correcta. Mayor densidad hace que la escritura lea como listicle-estilizada; menor densidad deja muy pocas superficies de citación. El patrón en los artículos más-citados en nuestra auditoría fue una frase citable en el lead, una en cada sección mayor y una en el cierre — típicamente 4-6 frases citables en una pieza de 2.500 palabras.
- ¿Daña escribir en este estilo la legibilidad humana?
- Si se sobrepasa, sí. Seis frases declarativas-opinión por párrafo se lee como implacable. El arreglo es ritmo — las frases citables anclan secciones, rodeadas de prosa más suave que construye contexto. Las piezas mejor-rendidoras en la auditoría (citadas 5-10x más que la mediana) leían naturales para humanos y eran densas con átomos citables; las peores-rendidoras (raramente citadas) eran o bien muy vagas para ser citables o tan densas con aserciones estilo-clickbait que leían como no-confiables.
- ¿Cómo retrofitteo contenido existente para citabilidad sin reescribir desde cero?
- Audita las piezas existentes para la frase lead, la primera frase de cada sección y la frase de cierre. Reescribe esas para la plantilla citable: número específico + entidad nombrada + opinión presente + 20-26 palabras. Deja la prosa circundante en paz. La mayoría de piezas pueden ser retrofitted en 30-45 minutos por artículo y ven lift de citación dentro de 6-12 semanas. El approach reescritura-completa raramente es necesario.
- ¿Hay industrias donde estos patrones no funcionan?
- Industrias altamente reguladas (sanitario, legal, asesores financieros) a veces tienen reglas publicitarias que limitan el lenguaje opinión-forward. El arreglo es usar citabilidad anclada-a-hecho en lugar de citabilidad anclada-a-opinión — reemplaza frases fuerte-opinión con frases fuerte-dato que cargan la misma densidad recuperable sin la exposición regulatoria. Los patrones aún funcionan; la palanca es dato y entidades nombradas en lugar de opinión.