AIエンジンが自社サイトをインデックスしたかどうかは、どう確認すればよいですか？

Google Search Consoleが報告するような単一の「インデックス状況」を調べる方法はありません。実務的なテストは「取得可能性 (retrievability)」です。自社ページに含まれる固有の引用フレーズや、そのページが答えるべき質問でエンジンに問いかけ、エンジンが自社URLを提示または引用するかを観察します。ChatGPTとPerplexityは現在これを観察しやすいですが、ClaudeとGoogle AI Overviewsの検証ははるかに困難です。

そもそもAI検索エンジンに「インデックス」という言葉は適切ですか？

ほとんどの場合、適切ではありません。多くのAI回答エンジンは、Googleのように公開された照会可能なインデックスを保持していません。回答時に検索インデックス、パートナーインデックス (ChatGPTとPerplexityはいずれもBing相当のウェブデータに依存)、またはライブ取得から情報を取り出します。重要なのは、関連するプロンプトが尋ねられたときに自社の特定URLが取得・引用されるかどうかであって、どこかのインデックスに収まっているかどうかではありません。

なぜGoogleで1位でもAIの引用が保証されなくなったのですか？

AI回答エンジンは、Googleの青いリンクのランキングではなく、独自の基準 — パッセージ単位の関連性、ソースの構造、クローラーのアクセス可否 — でソースを再ランク付け・要約・選択するからです。Googleで1位のページがAI OverviewやChatGPTの回答で一度も引用されないこともあれば、2ページ目のページが引用されることもあります。

GPTBotやClaudeBotをブロックすると引用されなくなりますか？

なり得ます。クローラーのアクセスは前提条件であって保証ではありません。robots.txtでGPTBot、ClaudeBot、PerplexityBot、OAI-SearchBotを許可していない場合、それらのエージェントが供給する学習・取得パイプラインから自社ページが除外されます。まずrobots.txtを確認してください — ページがエンジンから見えなくなる、最も多い自滅的な原因です。

2026年、実際に取得を検証できるAIエンジンはどれですか？

ChatGPTが最も確実に確認でき、Perplexityはソースをインラインで引用するため観察可能です。Claudeは取得を単一URL検証に足る形で公開しておらず、Google AI OverviewsとGeminiが最も不透明です — Googleの検索インデックスとAI Overviewの取得は別物であり、そこにインデックスされていても引用されるかどうかはほとんど分かりません。

そもそもページがAIエンジンに取得されやすくなる要因は何ですか？

5つの構造的前提条件があります。robots.txtでのAIクローラーのアクセス許可、サーバーサイドレンダリングされたコンテンツ (JSのみではない)、任意のllms.txt、有効な構造化データ、そして強い内部リンクを伴うクリーンなサイトマップです。最初の2つを欠くと他は意味を持ちません — エンジンが使えるコンテンツを一切見られないからです。

AIエンジンが自社サイトを「インデックス」したか確認する方法 (2026年版)

By Cameron Witkowski·Last updated 2026-06-18·2025年3月時点で、Googleクエリの13.14%にAI Overviewが表示された (Semrushによる2,855キーワードのエンタープライズ調査『AI Overviews Market Research』(Semrush, 2025))

AIエンジンに対して「インデックスされているか」という問いは的外れです — 実際に引用を予測するのは「取得可能性」、すなわち関連するプロンプトが尋ねられたときに特定のエンジンが自社の特定URLを提示・引用するかどうかであり、2026年においてそれはページごと・エンジンごとに検証するものであって、単一の状況パネルで調べるものではありません。

20年間、「自社サイトはインデックスされているか？」には明快な答えがありました。Google Search Consoleを開けばどのURLがインデックスされているか分かり、site:yourdomain.com で確認できました。AI回答エンジンはこのモデルを壊しました。その多くは、検査できる公開・照会可能なインデックスを保持していません。ChatGPTとPerplexityは回答時に検索レイヤーから取得します (いずれもBing相当のウェブデータに大きく依存)。Claudeはコンテンツを取得・推論しますが、その過程を公開しません。Google AI OverviewsはGoogleの既存インデックスの上に乗りつつ、独自のソース選択ロジックを適用します。普遍的に確認できる「インデックス状況」は存在しない — だからこの問いの誠実な形は次のようになります。このURLは、重要な場面で取得され引用されるのか？

この区別は些末なものではありません。何を測定し、何を修正するかが変わります。

これはGoogleのインデックスとは違う

Googleのインデックスは、ウェブの保存済みでほぼ安定した表現であり、クエリに対してページをランク付けします。AI回答エンジンは異なる動きをします。回答時にわずかなパッセージを取得し、独自の関連性・構造基準で再ランク付けし、その一部・全部・あるいは一つも引用しない回答を合成します。基盤となるインデックスに入っていることは必要条件であって十分条件ではありません。

だからこそGoogleで1位でもAIの引用は保証されません。Semrushによる2,855キーワードのエンタープライズ調査では、2025年3月時点で分析対象Googleクエリの13.14%にAI Overviewが表示され、前年から急増しました。そして決定的なのは、それらOverview内で引用されたURLが、オーガニック1位の結果ではないことが多かった点です。GoogleのSearch CentralによるAI機能のガイダンスも、AI体験に表示されるための個別のマークアップや申請手順は存在しないと明言しています。つまりオプトインはできず、オーガニックのランキングがそのまま引き継がれると仮定することもできません。選択は下流で、あなたがコントロールできない基準に基づいて行われます。

プリンストン大学の論文「GEO: Generative Engine Optimization」も同じ点を実証的に示しました。従来の検索ランキング向けに最適化されたコンテンツが、生成エンジンが引用を選ぶコンテンツと自動的に一致するわけではなく、ソースレベルの構造 (統計、引用、明確な出典表示) が、どのパッセージが引かれるかを測定可能なほど変えるのです。別のシステム、別のルールです。

手動チェック：1ページをスポットチェックする

1ページなら手作業で検証できます。一般的な手法はエンジン間で共通です。

対象ページを選び、そのページにしか現れないはずの固有の文字列 — 引用フレーズ、固有の統計値、製品名 — を抜き出す。
そのページが答えるべき質問をエンジンに尋ねるか、その固有の引用フレーズで問いかけ、エンジンが回答内で自社URLを提示・引用するかを観察する。
別の言い回しで繰り返す。 取得は確率的です。1回外れても不在の証明にはならず、1回当たっても安定したカバレッジの証明にはなりません。

エンジンが自社URLを引用する — あるいはそのページからしか得られないはずのパッセージを再現する — なら、取得可能かつ選択されている直接的な証拠です。いくつかの言い回しを試しても一度も引用されないなら、下記の構造的前提条件を調べる合図です。

注意点が2つあります。第一に、素朴な演算子テクニックは劣化しました。2024年に効いたURLやサイト形式の一部の演算子は、2026年には特定のエンジンで静かに役立たなくなっています。演算子を無視して一般知識から答えるエンジンは、取得について何も語らない自信たっぷりの回答を平然と返します。第二に、単一フレーズのチェックはノイズが多いです。どの1クエリもデータ点であって判定ではない — まさにこれが、サイト全体を手作業でやるのがスケールしない理由です。

エンジン別の現状

各エンジンは一様に確認できるわけではありません。検証が信頼できる場所と本当に未解決の場所を正直に語ることがすべてです — ここで過大に主張することが、何も意味しない数字を信じてしまう原因になります。

エンジン	現在、取得を検証できるか？	理由
ChatGPT	はい — 最も確実	ウェブブラウジングの回答がリンク/引用を公開し、挙動が安定しているため特定URLを繰り返しテストできる。
Perplexity	はい	設計上ソースをインラインで引用するため、自社URLが取得されたかが回答内で直接観察できる。
Claude	困難／不確実	コンテンツを取得・推論するが、単一URL検証に足る形で取得を公開しない。明白な手法は確実には機能しない。
Google AI Overviews / Gemini	最も不透明 — ほぼ未解決	Googleの検索インデックスとAI Overviewの取得は別物。検索にインデックスされていても、Overviewが引用するかはほとんど分からず、クエリ・アカウント・地域により一貫性がない。

ChatGPTとPerplexityは、慎重な担当者なら特定ページについて信頼できる答えを得られる2つのエンジンです — それぞれに固有の手順があり、ChatGPTの取得を検証する手順から、Perplexityがページを拾ったかを確認する同等のプロセスまで揃っています。Claudeは本当に難しい問題で、他で効く手法がそのまま移転しません。Google AI OverviewsとGeminiは未踏のフロンティアです — Googleのドキュメントは検査できるAI Overview専用インデックスは存在しないと明言しており、「Googleにインデックスされている」と「AI Overviewで引用される」は別々の事実で、容易に確認できるのは前者だけです。

日本市場のメモ： 日本でも2024年8月15日にGoogle AI Overviewsが、2025年9月9日に日本語版AI Modeが導入されました。Yahoo! JapanはGoogleのアルゴリズムをライセンス利用しているため、実務上「Google AI Overviews / AI Modeのカバレッジ = Yahoo! Japanのカバレッジ」とみなせます。またSoftBankとPerplexityの提携によりPerplexityが日本で過剰にインデックスされている傾向があり、日本語で確認する際はPerplexityのチェックの価値が相対的に高くなります。

構造的前提条件：そもそもページが取得されるための条件

引用を心配する前に、ページがそもそも見られて解析できるかを確認してください。チェックリストとして扱い、最初の2項目を欠くと残りは無意味です。

AIクローラーのアクセス。 robots.txt を開き、これらのエンジンに供給するエージェントをブロックしていないか確認します。GPTBot と OAI-SearchBot (OpenAI)、ClaudeBot (Anthropic)、PerplexityBot (Perplexity)、そして Google-Extended (Gemini/Vertexによるコンテンツ利用を統制) です。たった1つの過剰な Disallow が、ページが見えなくなる最も多い自滅的原因です。クローラーのアクセスは前提条件であって保証ではありませんが、その欠如は確実な失敗です。
サーバーサイドレンダリング vs JSのみのコンテンツ。 意味のあるコンテンツがクライアントサイドのJavaScript実行後にしか現れない場合、取得エージェントはそれを一切見られないと考えてください。多くのAIクローラーはGooglebotのようにJSをレンダリングしません。引用させたいコンテンツはサーバーサイドレンダリングまたはプリレンダリングしてください。
llms.txt。 新興の任意規約です。ドメインルートに置くプレーンテキストの llms.txt で、最も重要でクリーンなコンテンツへエンジンを案内します。採用はまばらでまだ権威的に扱うエンジンはありませんが、低コストで意思表示になります。
構造化データ。 有効なスキーマ (Article、FAQPage、Organization、Product) は、エンジンに抽出可能な明確な機械可読の事実を与えます。引用を強制はしませんが、選ばれるコストを下げます。
クリーンなサイトマップと内部リンク。 最新のXMLサイトマップと強い内部リンクは、依然としてクローラーがページを発見・優先する手段です。被リンクのない孤立ページこそ、静かに取得されないページです。

これを読んで一つだけ行動するなら、robots.txt を開いて上記5つのクローラー名を確認してください。AI可視性において最も費用対効果の高い5分間の監査です。

OpenLensの位置づけ

手動チェックは、ある午後に1ページ・1エンジンを確認するには有効です。しかし7エンジンにわたる400ページのサイトを、エンジンが月ごとに挙動を変えるなかで再実行するには機能しません — そして実際に変わります。

そのギャップをOpenLensが自動化します。単一URLを手作業でスポットチェックする代わりに、OpenLensはあらゆるページとあらゆるエンジンで取得可能性チェックを実行し、エンジンが取得・引用の仕方を変えても基盤となる手法を維持します。私たちが最も自信を持てるのは、検証が現在本当に信頼できる2つのエンジン — ChatGPTとPerplexity — であり、ClaudeとGoogle AI Overviewsは解決済みで完全にGA化されたチェックではなく、依然として活発なフロンティアであることを正直にお伝えします。信頼できない数字を渡すより、「これは難しい」と伝えるほうを選びます。

OpenLensには サイト & エージェント準備度監査 も含まれます — 上記の構造的前提条件を網羅する0〜100のスコアで、発見可能性 (サイトマップ、内部リンク)、コンテンツのアクセス性 (サーバーサイドレンダリング vs JSのみ)、ボットアクセスポリシー (robots.txtのクローラーチェック)、エージェントプロトコル (llms.txt、構造化データ) をカバーします。前節のチェックリストを、時系列で追跡しクライアントに渡せる測定スコアに変えます。

OpenLensは 7つのプラットフォーム — ChatGPT、Google AI、Gemini、Perplexity、Grok、Claude、DeepSeek — でブランドの可視性を追跡し、無料プランはクレジットカード不要なので、何かを決める前に最初の取得可能性チェックを実行できます。スタックをまだ組み立て中なら、エージェンシー向けの無料AI可視性ツールまとめが出発点として役立ち、OpenLensとProfoundの比較はエンタープライズ領域をカバーします。

最終更新：2026年6月18日。

出典

Semrush, "AI Overviews Market Research" — 2,855キーワードのエンタープライズ調査。2025年3月時点で分析クエリの13.14%にAI Overviewが表示されたと報告 (Semrush, 2025)。
Google Search Central, "AI features and your website" / AI体験に関する検索ガイダンス — AI機能のための個別インデックス・マークアップ・申請手順は存在しないと確認 (Google, 2024-2025)。
Aggarwal et al., "GEO: Generative Engine Optimization," プリンストン大学 (2024) — ソースレベルの構造 (統計、引用、出典) が、生成エンジンが引用するパッセージを測定可能なほど変える。
OpenAI, Anthropic, Perplexity, Google のクローラードキュメント — GPTBot、OAI-SearchBot、ClaudeBot、PerplexityBot、Google-Extended のユーザーエージェントとrobots.txtの挙動。

Frequently Asked Questions

AIエンジンが自社サイトをインデックスしたかどうかは、どう確認すればよいですか？: Google Search Consoleが報告するような単一の「インデックス状況」を調べる方法はありません。実務的なテストは「取得可能性 (retrievability)」です。自社ページに含まれる固有の引用フレーズや、そのページが答えるべき質問でエンジンに問いかけ、エンジンが自社URLを提示または引用するかを観察します。ChatGPTとPerplexityは現在これを観察しやすいですが、ClaudeとGoogle AI Overviewsの検証ははるかに困難です。
そもそもAI検索エンジンに「インデックス」という言葉は適切ですか？: ほとんどの場合、適切ではありません。多くのAI回答エンジンは、Googleのように公開された照会可能なインデックスを保持していません。回答時に検索インデックス、パートナーインデックス (ChatGPTとPerplexityはいずれもBing相当のウェブデータに依存)、またはライブ取得から情報を取り出します。重要なのは、関連するプロンプトが尋ねられたときに自社の特定URLが取得・引用されるかどうかであって、どこかのインデックスに収まっているかどうかではありません。
なぜGoogleで1位でもAIの引用が保証されなくなったのですか？: AI回答エンジンは、Googleの青いリンクのランキングではなく、独自の基準 — パッセージ単位の関連性、ソースの構造、クローラーのアクセス可否 — でソースを再ランク付け・要約・選択するからです。Googleで1位のページがAI OverviewやChatGPTの回答で一度も引用されないこともあれば、2ページ目のページが引用されることもあります。
GPTBotやClaudeBotをブロックすると引用されなくなりますか？: なり得ます。クローラーのアクセスは前提条件であって保証ではありません。robots.txtでGPTBot、ClaudeBot、PerplexityBot、OAI-SearchBotを許可していない場合、それらのエージェントが供給する学習・取得パイプラインから自社ページが除外されます。まずrobots.txtを確認してください — ページがエンジンから見えなくなる、最も多い自滅的な原因です。
2026年、実際に取得を検証できるAIエンジンはどれですか？: ChatGPTが最も確実に確認でき、Perplexityはソースをインラインで引用するため観察可能です。Claudeは取得を単一URL検証に足る形で公開しておらず、Google AI OverviewsとGeminiが最も不透明です — Googleの検索インデックスとAI Overviewの取得は別物であり、そこにインデックスされていても引用されるかどうかはほとんど分かりません。
そもそもページがAIエンジンに取得されやすくなる要因は何ですか？: 5つの構造的前提条件があります。robots.txtでのAIクローラーのアクセス許可、サーバーサイドレンダリングされたコンテンツ (JSのみではない)、任意のllms.txt、有効な構造化データ、そして強い内部リンクを伴うクリーンなサイトマップです。最初の2つを欠くと他は意味を持ちません — エンジンが使えるコンテンツを一切見られないからです。