Robots.txt教學:讓Google聽話爬對頁,網站SEO更給力
如果您是網站管理者、部落客、經營 WordPress 的小老闆,或者正在為網站做 SEO 優化,那一定要認識一個小小但超重要的檔案:Robots.txt。它就像網站的大門口守衛,負責告訴搜尋引擎「這裡可以看」、「那裡不准進」,妥善設定後,能幫助節省資源、強化排名,甚至避免 SEO 災難!
一、Robots.txt 是什麼?為什麼它重要?
簡單說,Robots.txt 是放在網站根目錄下的一個純文字檔案,它的功能就是告訴搜尋引擎的「機器人」(像 Googlebot)哪些頁面可以抓,哪些不可以。
這檔案不是強制的,也不是所有機器人都會聽話(惡意爬蟲可能會無視),但對於 Google、Bing、Yahoo 這些守規矩的搜尋引擎來說,它會乖乖照你說的去做。因此它可以:
• 阻擋搜尋引擎抓取你不想曝光的頁面(例如:登入頁、管理後台、測試頁面)
• 節省網站伺服器資源,減少無效爬取
• 聚焦搜尋引擎注意力,讓它優先抓取重要內容
• 幫助搜尋引擎理解網站結構

二、Robots.txt 檔案怎麼找到或建立?
Robots.txt 是放在網站根目錄的檔案,也就是網站的主資料夾裡,例如:
https://你的網站網址.com/robots.txt
可以用 FTP 工具(例如 WinSCP、FileZilla)或主機後台找到它。如果沒有這個檔案,可以自己手動用記事本建立,存檔時記得檔名就是 robots.txt(小寫),副檔名是 .txt,然後上傳到根目錄。
權限方面建議設成 0644,表示自己可讀寫、其他人只能讀。
三、基本語法大解密!你可以怎麼寫?
Robots.txt 是用幾條簡單的規則組成,主要的語法如下:
• User-agent: 指定哪個機器人(用 * 表示全部)
• Disallow: 不允許抓取哪些路徑
• Allow: 允許抓取哪些(可選用)
• Crawl-delay: 要求爬蟲抓取時的等待秒數
例子1:完全不讓機器人抓網站(建議只在開發階段用)
User-agent: *
Disallow: /
例子2:只禁止抓取特定資料夾(例如 /images)
User-agent: *
Disallow: /images/
例子3:只擋特定爬蟲(例如只擋 Googlebot)
User-agent: Googlebot
Disallow: /
例子4:要求爬蟲慢一點抓,避免拖慢伺服器
User-agent: *
Crawl-delay: 10

四、Robots.txt 的限制與常見錯誤
雖然 robots.txt 很方便,但也有陷阱,一不小心會讓網站 SEO 整個出問題!
常見錯誤1:想要「不被索引」,卻用錯方法
很多人誤以為 Disallow 可以防止被收錄,其實不是!
Disallow 只是「不讓抓」,但如果有外部網站連到那個頁面,它還是可能被收錄(但沒內容)。真正想「不收錄」,要在 HTML 裡加:
<meta name=”robots” content=”noindex”>
或用 SEO 插件(如 Yoast SEO)設定即可。
常見錯誤2:用 robots.txt 檔案處理重複內容
網站有重複內容,不該用 Disallow,而應該用更合適的方式,例如:
• 使用 rel=”canonical” 標記原始內容網址
• 使用 301 轉址到主要版本
• 或直接刪除重複頁面
五、Robots.txt 實戰應用情境
• 正在建設中的網站 → 全部封鎖
• 不想被索引的資料夾(ex: /cgi-bin/、/wp-admin/)→ 只擋那幾個
• SEO 最佳化 → 導引 Google 重點爬重要頁面,避免浪費抓取資源
六、進階 Tips:如何測試 Robots.txt 有沒有寫對?
Google 提供一個好用的工具:Robots Testing Tool(robots.txt 測試工具)
可以把 robots.txt 貼上去,然後輸入某個網址測試看看,看看 Googlebot 能不能抓。這樣就能避免錯誤指令把重要頁面封鎖住!
小檔案,大幫助,SEO 的基本功一定要會!
Robots.txt 就像是網站入口的警衛,可以告知哪些人(爬蟲)可以進哪些地方、哪些不能碰。設定得當可以有效提升抓取效率,減少伺服器負擔,還能避免無效收錄影響排名。
如果還沒設定 robots.txt,今天就打開文字編輯器開始做吧!這一步雖小,卻能為 SEO 策略加分不少!




