· 興網設計 · 網站知識庫  · 6 min read

AI 爬蟲怎麼讀你的網站?網站架構對 GEO 排名的影響

AI 爬蟲怎麼讀你的網站?網站架構對 GEO 排名的影響

有一個數字值得你留意:從 2024 年 5 月到 2025 年 5 月,OpenAI 的 GPTBot 爬蟲流量成長了 305%。根據 Cloudflare 的統計,AI 爬蟲的整體流量在這一年間成長了 18%,部分網站上 AI 爬蟲的請求量甚至已達到 Googlebot 的兩成。

這些爬蟲在做什麼?它們在讀你的網站,然後決定你的內容值不值得被 AI 引用。

AI 爬蟲和 Googlebot 的關鍵差異

Googlebot 已經有辦法執行 JavaScript。Google 的爬蟲基礎設施可以等待頁面渲染完成後,才抓取內容。

大多數 AI 爬蟲做不到這件事。GPTBot(OpenAI)、ClaudeBot(Anthropic)、這些爬蟲拿到的是伺服器回傳的原始 HTML,如果你的重要內容是靠 JavaScript 動態載入的,對它們來說就是不存在的東西。

這個差異在實務上的意思是:如果你的網站用的是大量前端框架渲染的架構(某些 SPA 應用),或者重要資訊藏在需要互動才顯示的元素裡,AI 可能完全讀不到那些內容。

語意化 HTML:給 AI 看得懂的結構

HTML 有「語意化」標籤,像是 <article><section><header><nav><main>。這些標籤不只是告訴瀏覽器怎麼顯示內容,更是在說「這是什麼類型的內容」。

當 AI 爬蟲看到 <article> 包著你的文章內容,它知道這是一篇獨立的文章。當它看到 <nav> 裡的連結,它知道這是導覽結構,不是正文。這種語意清晰的架構,讓 AI 能夠更準確地理解你的頁面在講什麼、哪些是核心內容、哪些是輔助元素。

反過來,如果整個頁面就是一堆 <div><div>,AI 需要額外的推斷才能理解頁面結構——而推斷不一定正確。

結構化資料(Schema Markup)的作用

Schema.org 是一套各大搜尋引擎和 AI 系統都支援的標準化語言,用來告訴爬蟲「這個頁面的內容是什麼類型」。一個服務頁面可以標記為 ServiceLocalBusiness,文章標記為 Article,常見問題標記為 FAQPage

沒有結構化資料,AI 還是可以讀你的網站,但理解難度更高。有結構化資料,AI 不需要猜。舉個具體例子:頁面上寫著「Apple」,沒有標記的情況下,AI 不確定你說的是蘋果這種水果、Apple 這家公司、還是某個品牌名稱。有了 @type: "Organization" 加上名稱標記,就沒有這個歧義。

llms.txt:給 AI 的新規格

你大概知道 robots.txt 是告訴搜尋引擎爬蟲哪些頁面可以爬、哪些不行。現在有一個新提案——llms.txt——專門針對大型語言模型設計,提供更精準的說明,讓 AI 系統更容易找到你網站最重要的內容,而不需要自己從幾十個頁面中篩選。

llms.txt 不是搜尋排名的正式標準(Google 沒有官方支援),但它代表了一個趨勢:網站主和 AI 系統之間的「溝通協定」正在逐漸成形。部分 AI 爬蟲和研究工具已開始讀取這個文件。

頁面速度對 AI 爬取的影響

慢的網站不只影響使用者體驗和 SEO,也影響 AI 爬取。爬蟲通常有爬取預算(crawl budget),會在一定時間內對一個網站爬取有限的頁面。如果你的頁面載入很慢,爬蟲可能在抓到所有重要頁面前就離開了。靜態架構的網站因為不需要動態運算,回應速度本來就快,爬取效率也更高。

這對你的網站意味著什麼?

一個對 AI 友善的網站,不需要做什麼特殊的神秘設定。核心其實很簡單:

伺服器端渲染重要內容(不要依賴 JavaScript 才能顯示核心資訊)、用語意化 HTML 標籤組織頁面結構、為重要頁面加上 Schema 結構化標記、保持網站速度快和頁面乾淨。

這些原則和 SEO 的技術要求高度重疊——好的 SEO 基礎,同時也是 AI 友善架構的基礎。

興網設計的技術選型

我們採用 Astro 這個框架,預設行為就是伺服器端渲染 HTML、最小化 JavaScript 輸出。這讓我們的網站對所有爬蟲——無論是 Googlebot 還是 GPTBot——都能完整讀取。我們也在每個網站交付時標準化建置 Schema 結構化資料。如果你想讓你的網站在 AI 搜尋時代保持能見度,這些技術細節值得認真對待。

  • AI搜尋
  • 網站架構
  • GEO架構
Share:

打造您的數位門面

與我們聯繫,獲得初步諮詢,我們將在一個工作天內回覆您。

返回文章列表

Related Posts

View All Posts »