AI 爬蟲怎麼讀你的網站？網站架構對 GEO 排名的影響

有一個數字值得你留意：從 2024 年 5 月到 2025 年 5 月，OpenAI 的 GPTBot 爬蟲流量成長了 305%。根據 Cloudflare 的統計，AI 爬蟲的整體流量在這一年間成長了 18%，部分網站上 AI 爬蟲的請求量甚至已達到 Googlebot 的兩成。

這些爬蟲在做什麼？它們在讀你的網站，然後決定你的內容值不值得被 AI 引用。

AI 爬蟲和 Googlebot 的關鍵差異

Googlebot 已經有辦法執行 JavaScript。Google 的爬蟲基礎設施可以等待頁面渲染完成後，才抓取內容。

大多數 AI 爬蟲做不到這件事。GPTBot（OpenAI）、ClaudeBot（Anthropic）、這些爬蟲拿到的是伺服器回傳的原始 HTML，如果你的重要內容是靠 JavaScript 動態載入的，對它們來說就是不存在的東西。

這個差異在實務上的意思是：如果你的網站用的是大量前端框架渲染的架構（某些 SPA 應用），或者重要資訊藏在需要互動才顯示的元素裡，AI 可能完全讀不到那些內容。

語意化 HTML：給 AI 看得懂的結構

HTML 有「語意化」標籤，像是 <article>、<section>、<header>、<nav>、<main>。這些標籤不只是告訴瀏覽器怎麼顯示內容，更是在說「這是什麼類型的內容」。

當 AI 爬蟲看到 <article> 包著你的文章內容，它知道這是一篇獨立的文章。當它看到 <nav> 裡的連結，它知道這是導覽結構，不是正文。這種語意清晰的架構，讓 AI 能夠更準確地理解你的頁面在講什麼、哪些是核心內容、哪些是輔助元素。

反過來，如果整個頁面就是一堆 <div> 套 <div>，AI 需要額外的推斷才能理解頁面結構——而推斷不一定正確。

結構化資料（Schema Markup）的作用

Schema.org 是一套各大搜尋引擎和 AI 系統都支援的標準化語言，用來告訴爬蟲「這個頁面的內容是什麼類型」。一個服務頁面可以標記為 Service 或 LocalBusiness，文章標記為 Article，常見問題標記為 FAQPage。

沒有結構化資料，AI 還是可以讀你的網站，但理解難度更高。有結構化資料，AI 不需要猜。舉個具體例子：頁面上寫著「Apple」，沒有標記的情況下，AI 不確定你說的是蘋果這種水果、Apple 這家公司、還是某個品牌名稱。有了 @type: "Organization" 加上名稱標記，就沒有這個歧義。

llms.txt：給 AI 的新規格

你大概知道 robots.txt 是告訴搜尋引擎爬蟲哪些頁面可以爬、哪些不行。現在有一個新提案——llms.txt——專門針對大型語言模型設計，提供更精準的說明，讓 AI 系統更容易找到你網站最重要的內容，而不需要自己從幾十個頁面中篩選。

llms.txt 不是搜尋排名的正式標準（Google 沒有官方支援），但它代表了一個趨勢：網站主和 AI 系統之間的「溝通協定」正在逐漸成形。部分 AI 爬蟲和研究工具已開始讀取這個文件。

頁面速度對 AI 爬取的影響

慢的網站不只影響使用者體驗和 SEO，也影響 AI 爬取。爬蟲通常有爬取預算（crawl budget），會在一定時間內對一個網站爬取有限的頁面。如果你的頁面載入很慢，爬蟲可能在抓到所有重要頁面前就離開了。靜態架構的網站因為不需要動態運算，回應速度本來就快，爬取效率也更高。

這對你的網站意味著什麼？

一個對 AI 友善的網站，不需要做什麼特殊的神秘設定。核心其實很簡單：

伺服器端渲染重要內容（不要依賴 JavaScript 才能顯示核心資訊）、用語意化 HTML 標籤組織頁面結構、為重要頁面加上 Schema 結構化標記、保持網站速度快和頁面乾淨。

這些原則和 SEO 的技術要求高度重疊——好的 SEO 基礎，同時也是 AI 友善架構的基礎。

興網設計的技術選型

我們採用 Astro 這個框架，預設行為就是伺服器端渲染 HTML、最小化 JavaScript 輸出。這讓我們的網站對所有爬蟲——無論是 Googlebot 還是 GPTBot——都能完整讀取。我們也在每個網站交付時標準化建置 Schema 結構化資料。如果你想讓你的網站在 AI 搜尋時代保持能見度，這些技術細節值得認真對待。