Hoe controleer ik of AI-engines mijn website hebben geïndexeerd?

Er is geen enkele 'indexstatus' die je kunt opzoeken zoals Google Search Console die rapporteert. De praktische test is ophaalbaarheid: stel een engine een vraag met een unieke geciteerde zinsnede van een van je pagina's, of een vraag die die pagina zou moeten beantwoorden, en kijk of de engine je URL naar voren haalt of citeert. ChatGPT en Perplexity maken dit vandaag waarneembaar; Claude en Google AI Overviews zijn veel lastiger te verifiëren.

Is 'geïndexeerd' wel het juiste woord voor AI-zoekmachines?

Meestal niet. De meeste AI-antwoordmachines onderhouden geen publieke, doorzoekbare index zoals Google dat doet. Ze halen op het moment van antwoorden op uit een zoekindex, een partnerindex (ChatGPT en Perplexity leunen beide op Bing-achtige webdata) of live fetches. De vraag die telt is of jouw specifieke URL wordt opgehaald en geciteerd wanneer er een relevante prompt wordt gesteld — niet of die in een of andere index staat.

Voorkomt het blokkeren van GPTBot of ClaudeBot dat ik geciteerd word?

Dat kan. Crawlertoegang is een randvoorwaarde, geen garantie. Als GPTBot, ClaudeBot, PerplexityBot of OAI-SearchBot in je robots.txt geweigerd wordt, haal je je pagina's uit de trainings- en ophaalpijplijnen die deze agents voeden. Controleer eerst robots.txt — het is veruit de meest voorkomende, zelf veroorzaakte reden dat een pagina onzichtbaar is voor een engine.

Op welke AI-engines kan ik ophaalbaarheid in 2026 daadwerkelijk verifiëren?

ChatGPT is het betrouwbaarst te controleren en Perplexity is waarneembaar omdat het zijn bronnen inline citeert. Claude legt het ophalen niet bloot op een manier die verificatie per URL betrouwbaar maakt, en Google AI Overviews en Gemini zijn het ondoorzichtigst — Google's zoekindex is niet hetzelfde als ophalen voor AI Overviews, dus geïndexeerd zijn daar zegt weinig over geciteerd worden.

Wat maakt een pagina überhaupt ophaalbaar voor AI-engines?

Vijf structurele randvoorwaarden: AI-crawlertoegang in robots.txt, server-side gerenderde content (niet alleen JS), een optionele llms.txt, geldige gestructureerde data en schone sitemaps met sterke interne links. Mis je de eerste twee, dan doet de rest er niet toe — de engine ziet de bruikbare content nooit.

Hoe controleer je of AI-engines je website hebben geïndexeerd (2026)

"Geïndexeerd" is de verkeerde vraag voor AI-engines — de vraag die citaties werkelijk voorspelt is ophaalbaarheid: of een engine jouw specifieke URL naar voren haalt of citeert wanneer er een relevante prompt wordt gesteld. In 2026 is dat iets dat je per pagina en per engine verifieert, niet iets dat je opzoekt in één statuspaneel.

Twintig jaar lang had "is mijn site geïndexeerd?" een helder antwoord. Je opende Google Search Console, je zag welke URL's geïndexeerd waren, en je kon site:jouwdomein.nl draaien om het te bevestigen. AI-antwoordmachines hebben dat model gebroken. De meeste van hen onderhouden geen publieke, doorzoekbare index die je kunt inspecteren. ChatGPT en Perplexity halen op het moment van antwoorden op uit een zoeklaag (beide leunen sterk op Bing-achtige webdata). Claude haalt content op en redeneert erover op manieren die het niet blootlegt. Google AI Overviews zitten bovenop Google's bestaande index maar passen hun eigen bronselectielogica toe. Er is geen universele "indexstatus" om te controleren — dus de eerlijke versie van de vraag wordt: wordt deze URL opgehaald en geciteerd wanneer het ertoe doet?

Dat onderscheid is niet pedanterie. Het verandert wat je meet en wat je oplost.

Waarom dit geen Google-indexering is

Google's index is een opgeslagen, grotendeels stabiele weergave van het web die pagina's rangschikt voor een zoekopdracht. Een AI-antwoordmachine doet iets anders: het haalt op het moment van antwoorden een handvol passages op, herrangschikt die op zijn eigen relevantie- en structuurcriteria, en synthetiseert een antwoord dat sommige, alle of geen ervan citeert. In de onderliggende index staan is een noodzakelijke voorwaarde, geen voldoende.

Daarom garandeert een nummer 1-positie op Google geen AI-citatie meer. Semrush' enterprise-onderzoek van 2.855 zoekwoorden vond dat AI Overviews in maart 2025 op 13,14% van de geanalyseerde Google-zoekopdrachten verschenen, een sterke stijging ten opzichte van het jaar ervoor — en cruciaal: de URL's die binnen die Overviews geciteerd werden, waren vaak niet het organische nummer 1-resultaat. Google's eigen Search Central-richtlijnen over AI-functies stellen dat er geen aparte markup of indieningsstap is om in AI-ervaringen te verschijnen; geschiktheid vloeit voort uit dezelfde crawlbare, nuttige content die de gewone Zoeken aandrijft. Met andere woorden: je kunt je niet aanmelden — en je kunt er niet van uitgaan dat je organische ranking meeloopt. De selectie gebeurt stroomafwaarts, op criteria die jij niet beheert.

Voor de Nederlandse markt is dit extra relevant nu Google's AI Overviews ook hier live zijn en bureaus een merkbare daling in doorkliks rapporteren — een eerste positie in de reguliere resultaten betekent steeds minder.

Het Princeton-paper "GEO: Generative Engine Optimization" maakte hetzelfde punt empirisch: content die geoptimaliseerd is voor klassieke zoekranking is niet automatisch de content die generatieve engines kiezen te citeren, en bronstructuur op brongniveau (statistieken, citaten, heldere bronvermeldingen) verschuift meetbaar welke passages worden opgehaald. Ander systeem, andere regels.

De handmatige check: één pagina steekproefsgewijs controleren

Je kunt één pagina met de hand verifiëren. De algemene techniek is hetzelfde over engines heen:

Kies een doelpagina en haal er een unieke string uit — een geciteerde zinsnede, een genoemde statistiek, een productnaam — die alleen op die URL zou mogen voorkomen.
Stel de engine een vraag die die pagina zou moeten beantwoorden, of bevraag het met die unieke geciteerde zinsnede, en kijk of de engine je URL naar voren haalt of citeert in het antwoord.
Herhaal met een tweede formulering. Ophalen is probabilistisch; één misser is geen bewijs van afwezigheid, en één treffer is geen bewijs van betrouwbare dekking.

Citeert de engine je URL — of reproduceert het een passage die alleen daarvandaan kan komen — dan heb je direct bewijs dat de pagina zowel ophaalbaar is als geselecteerd wordt. Doet het dat nooit over meerdere formuleringen heen, dan is dat een signaal om de structurele randvoorwaarden hieronder te onderzoeken.

Twee waarschuwingen. Ten eerste zijn de naïeve operator-trucs vervallen. Sommige URL- en site-achtige operatoren die in 2024 werkten, zijn op bepaalde engines in 2026 stilletjes opgehouden iets nuttigs te doen; een engine die de operator negeert en uit algemene kennis antwoordt, produceert vrolijk een zelfverzekerd antwoord dat je niets vertelt over ophalen. Ten tweede zijn checks met één zinsnede ruisgevoelig. Behandel elke afzonderlijke query als een datapunt, niet als een oordeel — wat precies de reden is dat dit met de hand over een hele site doen niet schaalt.

Stand van zaken, engine per engine

De engines zijn niet even goed controleerbaar. Eerlijk zijn over waar verificatie betrouwbaar is en waar die werkelijk onopgelost is, is het hele punt — hier overdrijven is hoe je een getal gaat vertrouwen dat niets betekent.

Engine	Kun je ophalen vandaag verifiëren?	Waarom
ChatGPT	Ja — betrouwbaarst	Antwoorden met webbrowsing tonen links/citaties, en het gedrag is consistent genoeg om een specifieke URL herhaaldelijk te testen.
Perplexity	Ja	Citeert zijn bronnen inline by design, dus of jouw URL werd opgehaald is direct waarneembaar in het antwoord.
Claude	Lastig / onbetrouwbaar	Haalt content op en redeneert erover zonder het ophalen bloot te leggen op een manier die verificatie per URL betrouwbaar maakt. De voor de hand liggende methoden werken niet betrouwbaar.
Google AI Overviews / Gemini	Ondoorzichtigst — grotendeels onopgelost	Google's zoekindex is niet hetzelfde als ophalen voor AI Overviews. Geïndexeerd zijn in Zoeken zegt weinig over of een Overview je citeert, en het oppervlak is inconsistent over zoekopdrachten, accounts en regio's heen.

ChatGPT en Perplexity zijn de twee engines waar een zorgvuldig persoon een betrouwbaar antwoord kan krijgen over een specifieke pagina — elk heeft zijn eigen draaiboek per engine, van de stapsgewijze methode om ChatGPT-ophalen te verifiëren tot het equivalente proces om te bevestigen dat Perplexity je pagina's heeft opgepikt. Claude is een werkelijk lastig probleem: de methoden die elders werken, vertalen zich niet schoon. Google AI Overviews en Gemini zijn de open frontier — Google's documentatie is expliciet dat er geen AI-Overview-specifieke index is om te inspecteren, dus "ik ben geïndexeerd in Google" en "ik word geciteerd in AI Overviews" zijn twee verschillende feiten, en alleen het eerste is makkelijk te controleren.

Structurele randvoorwaarden: wat een pagina überhaupt ophaalbaar maakt

Voordat je je zorgen maakt over citaties, bevestig dat de pagina überhaupt gezien en geparseerd kan worden. Behandel dit als een checklist — mis je de eerste twee items, dan zijn de rest irrelevant.

AI-crawlertoegang. Open je robots.txt en bevestig dat je de agents die deze engines voeden niet blokkeert: GPTBot en OAI-SearchBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot (Perplexity) en Google-Extended (die het gebruik van je content door Gemini/Vertex regelt). Eén overijverige Disallow is de meest voorkomende, zelf veroorzaakte reden dat een pagina onzichtbaar is. Crawlertoegang is een randvoorwaarde, geen garantie — maar de afwezigheid ervan is een gegarandeerde mislukking.
Server-side rendering versus JS-only content. Verschijnt je betekenisvolle content pas nadat client-side JavaScript draait, ga er dan vanuit dat ophaalagents die mogelijk nooit zien. Veel AI-crawlers renderen JS niet zoals Googlebot dat doet. Render server-side of pre-render de content die je geciteerd wilt hebben.
llms.txt. Een opkomende, optionele conventie: een platte-tekst llms.txt in de root van je domein die engines naar je belangrijkste, schone content wijst. De adoptie is ongelijkmatig en geen enkele engine behandelt het nog als gezaghebbend, maar het kost weinig en signaleert intentie.
Gestructureerde data. Geldige schema (Article, FAQPage, Organization, Product) geeft engines ondubbelzinnige, machineleesbare feiten om over te nemen. Het forceert geen citatie, maar verlaagt de kosten om jou te selecteren.
Schone sitemaps en interne links. Een actuele XML-sitemap en sterke interne links zijn nog steeds hoe crawlers pagina's vinden en prioriteren. Verweesde pagina's zonder inkomende links zijn degene die stilletjes nooit opgehaald worden.

Als je na het lezen hiervan maar één ding doet, open dan robots.txt en controleer de vijf crawlernamen hierboven. Het is de meest renderende vijf-minuten-audit in AI-zichtbaarheid.

Waar OpenLens past

De handmatige check werkt voor één pagina op één engine op één middag. Hij werkt niet voor een site van 400 pagina's over zeven engines heen, opnieuw gedraaid terwijl de engines hun gedrag van maand tot maand veranderen — wat ze doen.

Dat gat is wat OpenLens automatiseert. In plaats van met de hand één URL steekproefsgewijs te controleren, draait OpenLens de ophaalbaarheidscheck over elke pagina en elke engine, en onderhoudt de onderliggende methode terwijl engines verschuiven hoe ze ophalen en citeren. We zijn het meest zeker over de twee engines waar verificatie vandaag werkelijk betrouwbaar is — ChatGPT en Perplexity — en we zijn eerlijk dat Claude en Google AI Overviews een actieve frontier blijven in plaats van een opgeloste, volledig beschikbare check. We vertellen je liever "deze is lastig" dan je een getal te geven dat we niet vertrouwen.

OpenLens bevat ook een Site & Agent Readiness-audit — een score van 0-100 die de structurele randvoorwaarden hierboven dekt: vindbaarheid (sitemaps, interne links), toegankelijkheid van content (server-side rendering versus JS-only), bot-toegangsbeleid (de robots.txt-crawlerchecks) en agentprotocollen (llms.txt, gestructureerde data). Het zet de checklist uit de vorige sectie om in een gemeten score die je over tijd kunt volgen en aan een klant kunt overhandigen.

OpenLens volgt merkzichtbaarheid over 7 platforms — ChatGPT, Google AI, Gemini, Perplexity, Grok, Claude en DeepSeek — en de gratis laag vereist geen creditcard, dus je kunt een eerste ophaalbaarheidsronde draaien voordat je iets beslist. Een premium laag is nu beschikbaar voor systematische tracking. Stel je je stack nog samen, dan is ons overzicht van de beste gratis AI-zichtbaarheidstools voor bureaus een handig startpunt, en de vergelijking van OpenLens naast Profound dekt het enterprise-uiteinde van de markt.

Laatst bijgewerkt op 18 juni 2026.

Bronnen

Semrush, "AI Overviews Market Research" — enterprise-onderzoek van 2.855 zoekwoorden dat AI Overviews op 13,14% van de geanalyseerde zoekopdrachten vond tegen maart 2025 (Semrush, 2025).
Google Search Central, "AI features and your website" / Search-richtlijnen over AI-ervaringen — bevestigt dat er geen aparte index, markup of indieningsstap is voor AI-functies (Google, 2024-2025).
Aggarwal et al., "GEO: Generative Engine Optimization," Princeton University (2024) — bronstructuur op brongniveau (statistieken, citaten, bronvermeldingen) verschuift meetbaar welke passages generatieve engines citeren.
Crawlerdocumentatie van OpenAI, Anthropic, Perplexity en Google — user-agent- en robots.txt-gedrag van GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot en Google-Extended.