ある朝、Google アナリティクス(GA4)を開いたら、見慣れないデータが並んでいた。シンガポールから直近7日間で2,278セッション、滞在時間0秒、エンゲージメント率0.0%。国別で見ると1位である。ちなみに日本からは1,480セッション(エンゲージ55.7%、平均滞在104秒)、地元スペインから156セッション(53.2%、217秒)。2位以下は実在する読者らしく、まっとうに記事を読んでいる。

1位のシンガポール2,278人だけが、開いた瞬間離脱している。気持ち悪い。この記事は、その正体を追った記録である。

アクセス解析に映る「不気味な国」

スペインプレスの直近7日間のGA4データを国別で並べると、こうなる。シンガポール2,278 / 日本1,480 / スペイン156 / アメリカ70 / フランス19 / イギリス11 / 中国10。上位2カ国はどう考えても「スペインを日本語で読みたい人」が大量にいる国ではない。日本は説明がつく。編集長が日本語で書いている以上、日本からの流入が主軸なのは当然だ。しかし、シンガポールは違う。滞在時間ゼロ、エンゲージメントゼロ、この2つの数字が同時にゼロで並ぶのは、人間の行動としてはあり得ない。

もう一つ、決定的な指標がある。セッション数とユーザー数と閲覧ページ数がすべて2,278で完全一致している(2,278 / 2,278 / 2,278)。人間なら1人で複数ページを見たり、翌日に戻ってきたり、するはずだ。ところがシンガポールは1セッション=1新規ユーザー=1ページ閲覧という、ヘッドレスブラウザが機械的にトップページを叩いて即座に離れる典型パターンで綺麗に並んでいる。しかも参照元はDirect(直接流入)。人間なら「Googleで検索して来た」「TwitterのURLをクリックして来た」といった経路が普通は残る。Direct流入だけがこれほど揃うのは、参照元を隠している自動アクセスの証拠である。

シンガポールに何があるのか ─ Jurong West の巨人

正体はほぼ確定している。Google Cloud asia-southeast1 リージョンだ。シンガポール西部のジュロンウェスト・キャンパスに置かれたGoogleのアジア最大級データセンター群である。2011年にGoogleが東南アジア初の自社データセンターとして開設し、累計投資額は85億ドル。2024年に4棟目が完成し、シンガポールへの技術インフラ投資総額は50億ドルを超えた。

ここが問題である。アジア太平洋を対象にしたWebクロールの拠点として、AIクローラーを開発する各社が続々とここに拠点を置いているのだ。CDNサービス最大手Cloudflareが2025年に発表した「Radar 2025 Year in Review」によると、世界のすべてのボットトラフィックのうち、Google Cloud の2つの自律システム(AS)が9.7%、Amazon AWSが14.4%、Microsoft Azureが5.5%を占める。クラウド御三家だけで観測可能なボット由来トラフィックの30%を独占している。ジュロンウェストはその中でもAPAC向けの中枢である。

あなたのブログを覗いている「6つの目」

個人メディアを毎日クロールしているAIボットは、少なくとも6種類ある。それぞれ挙動が違う。

1. OpenAI(3種)。訓練データ収集用の GPTBot、ChatGPT Search用の OAI-SearchBot、ユーザーが「これ読んで」と依頼した瞬間だけ動く ChatGPT-User。3体独立している。GPTBot だけ拒否しても ChatGPT Search は止まらない。IPレンジは openai.com/gptbot.json に公開されており、UAだけ見る運用は偽装される。

2. Anthropic(4種)。訓練用の ClaudeBot、ユーザー依頼の Claude-User、検索インデックス用の Claude-SearchBot、開発ツール由来の claude-codeここが罠で、旧UA名 anthropic-aiClaude-Web は廃止済み。robots.txtに古いUA名だけ書いて安心しているブログは、現行の ClaudeBot にフリーパスを与えている。

3. Google-Extended。2023年9月に発表された、Gemini/Bard学習用のオプトアウト・トークン。「クローラー」ではなく「制御シグナル」で、Googlebotは常時クロールを続けたまま、Google-Extendedを拒否指定した記事だけを学習データから除外する仕組み。SEO順位に影響なくAI学習だけ拒否できる建て付けだが、記事化されている以上、Bing・Yahoo・その他のクロールは止まらない。

4. Perplexity。悪童枠。2025年8月4日にCloudflareが公式ブログで告発した。WAF(Webアプリケーションファイアウォール)で公式UAをブロックすると、macOS版Chromeを装う汎用UAで再アタック、IPをローテーション、複数の自律システムを経由して偽装、数万ドメインに1日数百万リクエスト規模で実施していた。Cloudflareは即座に「検証済みボット」リストから削除し、マネージドルールで自動ブロックに切り替えた。robots.txtで防いだつもりが幻想である典型例。

5. Bytespider。TikTok/Douyin/Doubaoを持つByteDance社のクローラー。これが最凶で、1ドメインあたり1日140万リクエスト、GPTBotの約25倍のアグレッシブさで叩いてくる。robots.txtはほぼ無視。中国語圏のAIモデル訓練用にコンテンツを吸い上げている。CDNレベルでIP・UAを遮断するしかない。

6. Meta-ExternalAgent。2024年7月に新設されたMeta(Facebook/Instagram)のLLaMA訓練用クローラー。従来のOGP取得用 facebookexternalhit とは別物。Instagram/WhatsApp/Facebook上のMeta AI経由リアルタイム取得用の Meta-ExternalFetcher もある。

加えて、非営利プロジェクトCommon Crawl(CCBot)が全世界のWebを月次でクロールし、そのデータセットをAnthropic・Meta・Stability AI等が訓練データとして買っている。「AI企業のクローラーを止めた」つもりでも、Common Crawl経由で回収される盲点がある。

「読み逃げ」の構造 ─ 8,692本読んで1人しか送ってこない

AIクローラーが気持ち悪いのは、単に読まれているからではない。読んで、要約して、AIチャットの回答に組み込んで、送客ゼロで消えるからである。

コンテンツライセンス仲介会社TollBitが2025年通期で調査した「スクレイプ数対人間送客数」の比率が公表されている。Anthropicは8,692本のスクレイプに対して1人しか送客しない。訓練特化で、実質的にコンテンツを回収するだけで一切還元しない構造だ。OpenAIは179対1、Perplexityは369対1、Digital Trends社に至っては966対1。しかも2025年Q1に1対200だったボット対人間比が、Q4には1対31に急収束した。1年でAI対人間のトラフィック比が6.5倍濃くなったのである。

影響はすでに数字に出ている。米NPRが2025年7月に「絶滅レベルの出来事(extinction-level event)」と報じた通り、Google検索がAI Overviews(現在は「AI Mode」)を導入した結果、パブリッシャー2,500社平均で紹介トラフィックが2025年に33%減少、Business Insiderは有機検索が2022年4月から2025年4月で55%減、CNNは月間訪問4.4億から3億強へ縮小した。米PenskeMedia(Rolling Stone/Variety/Deadline)は2025年9月にGoogleを反トラスト法違反で提訴した。

個人メディアの視点から見れば、こうだ。一次情報を出しても、収益にならず、読者にもならず、名前も残らない。ただAIが要約する材料として消費されるだけ。それがGA4に「シンガポールから0秒2,278セッション」という亡霊のような形で残る。

スペインの反撃 ─ EU法とドイツ判決の追い風

スペインを含むEUには、実はAI学習への強力な防波堤がある。EU著作権指令2019/790の第4条である。商業目的のテキストデータマイニング(TDM=生成AI訓練が典型)は、権利者が「機械可読な方法でopt-outを明示」すれば禁止できる、と明文化している。robots.txtやメタタグやTDMRep(W3Cの技術規格)が単なる技術慣行ではなく、EU著作権法上の権利留保の法的手段になっている。スペインはこの指令をReal Decreto-ley 24/2021の第67条で国内法化済みだ。

この条項の効力は、ドイツで実証されつつある。2024年9月27日、ハンブルク地裁がLAIONに対する著作権訴訟で、写真家Kneschkeの自然言語で書かれたopt-outを「機械可読ではない」として無効と判断した。「私の写真をAI学習に使わないでください」と書くだけでは不足で、TDMRepのような機械が読める形式で示さないと防げないという先例である。

そしてより決定的な判決が、2025年11月11日にミュンヘン地裁でGEMA(ドイツ音楽著作権協会) vs OpenAIで出た。ドイツ語ヒット曲9作品(「Atemlos」等)の歌詞について、ChatGPTが単純プロンプトで逐語再現する事実が確認され、訓練中のパラメータへの記憶と出力時の再現が著作権侵害の複製にあたると認定。差止・情報開示・損害賠償を認容した。OpenAI控訴予定だが、EU圏で初めて「AI学習=侵害」を認めた大型判決として今後引用される。

スペイン国内でも動きが出ている。書籍・雑誌・新聞の著作権集中管理団体CEDROが2024年12月、メディアモニタリング会社Hallonを著作権侵害で提訴した。AI関連の複製権をめぐる象徴的な訴訟である。スペイン政府はさらに「AI訓練用の拡張集中ライセンス(ECL)」王令案を2024年12月に提示し、権利処理を集中管理団体経由で行う枠組みを模索している。

大手メディアも動いた。Prisa Media(El País/AS/Cinco Días/Cadena SER)は2024年3月14日にOpenAIとコンテンツライセンス契約を締結した。フランスのLe Mondeと同時発表で、ChatGPT上での要約表示・原文リンク付与、および訓練利用を認めるスペイン語コンテンツの独占的な供給元となった。金額は非公開だが、Le Mondeは後に「OpenAI収入の約4分の1はジャーナリスト協会に還元する」と開示している。一方、Vocento(ABC等)やGrupo Godó(La Vanguardia)は公表情報では動いていない。スペインメディア業界内でも情報格差が生まれつつある

日本メディアの提訴ラッシュ ─ 5週間で3社

日本の動きはもっと生々しい。2025年8月7日、読売新聞がPerplexityを東京地裁に提訴した。日本のメジャー全国紙として初のAI企業提訴で、2025年2月から6月にPerplexityが約119,467記事にアクセスした事実を主張、約15百万ドル(15億円強)の損害賠償を請求した。

わずか19日後の2025年8月26日、日経新聞と朝日新聞が同じくPerplexityを東京地裁に共同提訴。各社22億円、合計44億円の損害賠償請求で、robots.txt無視、独占的な翻案権侵害に加え「大量の不正確な情報を出典表示のうえ配信し社の名誉を毀損」した点、不正競争防止法違反まで並べた包括的な訴えである。

ただし日本の法制度には根本的な弱点がある。著作権法30条の4だ。「情報解析目的なら商用も含めて原則自由」と定めており、EU第4条のようなopt-out権限も、独LAION/GEMA判決のような機械可読要件の議論もない。世界的に見て突出して緩い。日本新聞協会は2024年12月に政府に正式な再検討要請を出したが、法改正には至っていない。読売・日経・朝日の提訴は「30条の4があっても不正競争防止法・名誉毀損法・不法行為責任なら戦える」という迂回戦略である。

個人メディア運営者の実践 ─ 3層で守る

ここまで読んで「うちのブログも狙われている」と思った人向けに、実際にできる防御手段を挙げる。

第1層: robots.txt にAIボット全部書く。GPTBot、OAI-SearchBot、ChatGPT-User、ClaudeBot、Claude-SearchBot、Google-Extended、Applebot-Extended、CCBot、Meta-ExternalAgent、Bytespider、PerplexityBot の11種類が最低ライン。GitHubの ai-robots-txt/ai.robots.txt リポジトリが最新版のデファクトで、コピペ運用できる。盲点: 古いブログの多くが anthropic-ai だけ書いているが、これは廃止UA。現行 ClaudeBot がスルーしている。

第2層: Cloudflare 1クリックAI遮断。無料プランでもダッシュボードのトグル1つで主要AIクローラーを一括ブロックできる。2025年7月以降、新規登録ドメインでは初期選択が必須化され、「AIボットを許可しますか?」と初回に必ず聞かれるようになった。インターネットの基本姿勢が「暗黙のGive」から「明示のPay」へ反転した節目である。2026年1月29日にはCloudflareの「AI Audit」ツールが「AI Crawl Control」にリブランドされ、一般提供が開始された。

第3層: TDMRep。EU第4条の「機械可読なopt-out」要件に法的効力を主張するための技術規格。.well-known/tdmrep.json にJSONで留保を宣言するか、HTMLヘッダに <meta name="tdm-reservation" content="1"> を入れる。ドイツLAION判決でopt-outが敗訴した論点をクリアできる唯一に近い方法である。W3Cが標準化作業中で、大手メディアが徐々に実装している。

絶対にやってはいけないのは、シンガポールIPの一括ブロックだ。Google Cloud asia-southeast1 のIPには、正当な検索クロール、広告配信、OGP取得、そしてシンガポール在住の日本人・スペイン人の実ユーザーまで混在している。ブロックすると Googlebot経由のSEOが死に、在住者の読者が消え、Webhook類も壊れる。UA/ASN(自律システム番号)/行動ベースの選別が正解で、国別ブロックは論外である。

結論 ─ 完全遮断は現実的ではない

ここまで書いてきて、実は矛盾を抱えていることも正直に開示しておく。AI検索経由の実流入もある。GA4のチャネル別を見ると「AI Assistant」経由で週7セッション(エンゲージ14.3%)の実在人間の訪問がある。ChatGPTやPerplexityで検索した誰かが、要約を読んで「元記事も読みたい」とクリックしてきた痕跡である。

だから戦略は二段構えになる。訓練用ボットは拒否(GPTBot/ClaudeBot/CCBot/Google-Extended/Applebot-Extended/Meta-ExternalAgent/Bytespider)、検索用ボットは許可(OAI-SearchBot/Claude-SearchBot/PerplexityBot)。「AIに餌をやらない、でもAI検索の一覧には出る」という選び方である。無視できないほど大きな流入源になる可能性は、GA4の「AI Assistant」7セッションが将来増える方向で示唆している。

ちなみに、この記事を書くにあたって「サーバーログとGA4のシンガポールIPを突合したのか」と技術者から突っ込まれることを予想して書いておくと、実はGA4だけでは決定的な証拠にならない。もう一つの可能性は「Measurement Protocol ゴーストスパム」で、これは第三者がHTMLからGA4のMeasurement IDを抜き取って、実際にサイトを訪問せずGA4のイベント受付エンドポイントに直接偽データを送りつける古典的な迷惑行為である。この場合、CloudFrontの本物のログには痕跡が残らない。両者が混在している可能性もある。しかし、いずれにせよ、アクセス解析にシンガポールから毎週数千件の亡霊が並ぶという現象は、AIクローラー時代の副産物という点で共通する。

参考リンク・関連記事

公式・調査ソース: Cloudflare「Perplexityのステルス偽装疑惑」公式ブログ(2025-08-04) / Cloudflare AI Crawl Control(2026-01-29) / OpenAI × Prisa Media 提携発表 / ai-robots-txt(robots.txt デファクト) / W3C TDM Reservation Protocol

スペインプレスの関連記事: サン・フェルミン2026完全ガイド / スペインでエアコンをお得に手に入れる4本柱ガイド / 45.1℃の夏、終わったのは熱波宣言だけ ─ スペイン327人の死と、日本の40℃との決定的な違い / スペイン旅行ガイドハブ

日本の読者への解説

この記事を最後まで読んでくれたあなたに、日本のブログ運営者として2つの実感を残したい。

1. あなたのブログも、たぶん今日クロールされている。個人ブログ、はてなブログ、note、Zenn、Qiita、すべての日本語コンテンツが同じ状況にある。「うちは小さいから関係ない」ではなく、Bytespiderは規模を問わず叩き、CCBotは全ドメインを月次で舐める。この事実を知ったうえで、robots.txtに11種類のAIボットを書き足す作業を今日の30分でできる。

2. 「気持ち悪さ」を言語化することが最初の一歩。EU圏では権利者が「機械可読なopt-out」で自衛できる制度がすでに動いている。ドイツでは判例が積み上がり、スペインでは大手メディアが個別ライセンス契約に踏み込み、日本では新聞3社が5週間で相次いで提訴した。個人メディア一人ひとりの声は小さくても、この不快感を「気持ち悪い」と言葉にする人が増えるほど、法整備の圧力になる。日本の著作権法30条の4は世界的に見て突出して緩い。それを変えるのは、まず「読み逃げされている」という違和感を可視化することからしか始まらない。

あなたのお気に入りの個人ブログも、丁寧に書かれたレビュー記事も、専門家の解説も、いずれAIに要約されて役割を終える日が来るかもしれない。その日が来る前に、少なくとも「勝手には持っていけない」という技術的・法的な意思表示だけは、しておきたい。編集長タイチが1人で書いているスペインの日本語報道も、シンガポールから毎週2,278回覗かれながら、それを可視化してこうして記事にしている。

この記事をシェア:X (Twitter)WhatsAppLINE