優化爬取額度提高搜尋影響力的八個方法

我們通常認為"爬取額度"是無法控制的事情。或者更確切地說,根本不考慮爬取額度是很常見的。然而,隨著我們的網站變得越來越大,爬取額度成為我們在搜索中存在的主要影響因素。在本文中,我將討論爬取額度的重要性,並分享一些有關管理網站爬取額度的實用建議。

什麼是"爬取額度(Crawl Budget)"?

爬取額度是 Google 願意花費在抓取您的網站上的資源量。可以說您的爬取額度等於每天抓取的頁面數,但事實並非如此。有些頁面比其他頁面消耗更多資源,因此即使預算保持不變,爬網頁面的數量也會有所不同。

在分配爬取預算時, Google 一般會看四件事:你網站的受歡迎程度、更新率、頁面數量和處理爬取的能力。但即使它是一種複雜的算法,您仍然可以干預並幫助 Google 管理它抓取您網站的方式。

為什麼爬取額度很重要?

爬取額度決定了您的網頁在搜尋中出現的速度,這裡的問題是在爬取額度與您網站更新綠之間可能不存在匹配。如果它發生了,在您創建或更新頁面的那一刻到它出現在搜索中的那一刻之間你將會經受越來大的落後

您沒有獲得足夠的爬取額度的一個可能原因是, Google 認為您的網站不夠重要。所以它如果不是垃圾郵件就是提供非常糟糕的用戶體驗,或者兩者都有。

另外一個您沒有獲得足夠的爬取額度可能的原因是,您的網站充滿了爬蟲困境。爬蟲存在某些技術問題可能會使爬蟲陷入循環、找不到您的網頁 或是以其他方式不鼓勵訪問您的網站。在這種情況下,您可以做一些事情來明顯改善您的爬蟲,我們將在下面進一步討論它們。

優化"爬取額度(Crawl Budget)"的八個操作方法

您應該(或不應該)做很多事情來鼓勵搜索蜘蛛使用您網站的更多頁面並更頻繁地執行此操作。以下是最大化爬取額度功能的操作列表:

第一、在 search consle 送出網站地圖

網站地圖是一份文檔,內容包含我們想在搜尋中被所檢索(crael)和索引(index)的所有頁面

如果沒有網站地圖,google將不得不發現您網站上的內部鏈接之後的頁面。這樣一來,Google 需要一段時間才能了解您網站的範圍,並決定哪些發現的頁面應該被編入索引,哪些不應該被編入索引。

通過網站地圖,Google 可以準確地知道您的網站有多大以及哪些頁面要被索引。甚至可以選擇告訴Google每個頁面的優先級是什麼,以及它的更新頻率。借助所有這些信息,Google 可以為您的網站設計最合適的爬取模式。

現在,您可以通過多種方式創建網站地圖。如果您使用的是CMS平台,例如 Shopify,那麼您的站點地圖可能會自動生成並且已經在 yourwebsite.com/sitemap.xml。其他 CMS 平台肯定會有提供站點地圖服務的 SEO 插件。

如果您有一個定制的網站,或者您不想為您的網站添加額外的插件,您可以使用WebSite Auditor來生成和管理您的站點地圖。轉到站點結構 > 頁面 > 網站工具 > 站點地圖,您將獲得您網站頁面的完整列表。您可以按 HTTP 狀態對頁面進行排序並排除無法訪問的頁面,以及更改頁面的優先級、更新率和上次修改日期

完成站點地圖編輯後,單擊下一步並選擇下載文檔的選項——它將自動轉換為正確的站點地圖協議。然後,您可以將站點地圖添加到您的網站,並將其提交到Google Search Console

同一個網站有多個站點地圖也很常見。有時這樣做是為了方便——更容易管理主題相似的頁面。其他時候它是出於必要 - 站點地圖文檔有 50K 頁的限制,如果您有一個更大的網站,您必須創建多個站點地圖以覆蓋所有這些。

第二、解決抓取衝突

一個常見的抓取問題是Google認為頁面應該被抓取但無法被訪問。 在這種情況下,可能發現以下兩件事情

  • 該頁面不應被抓取,並且錯誤地提交給了 Google。在這種情況下,您必須通過從站點地圖中刪除該頁面或通過刪除該頁面的內部鏈接或可能兩者兼而有之來取消提交該頁面。

  • 頁面應該被爬取,訪問被錯誤拒絕。在這種情況下,您應該檢查阻止訪問的原因(robots.txt、4xx、5xx、重定向錯誤)並相應地解決問題。

無論哪種情況,這些混合信號都會將 Google 逼入死胡同,並不必要地浪費您的抓取預算。查找和解決這些問題的最佳方法是在 Google Search Console 中查看您的覆蓋率報告。錯誤選項卡專門用於抓取衝突,並為您提供錯誤數量、錯誤類型和受影響頁面的列表

第三、隱藏不應該被抓取的頁面

另一種類型的抓取衝突是頁面被錯誤地抓取和索引。這顯然是在浪費您的爬行預算,但更重要的是,這也可能是一個安全問題。如果您使用錯誤的方式阻止抓取,則可能意味著您的某些私人頁面已被編入索引並且現在可以公開使用。

要查找此類頁面,最好還是使用 Google Search Console 及其覆蓋率報告。切換到Valid with warning選項卡,您將獲得爬取的頁面數,以及可疑問題和受影響頁面的列表

這些頁面最常見的問題是它們被 robots.txt 文件阻止。網站管理員仍然經常使用 robots.txt 來阻止頁面被編入索引。同時,Google 將 robots.txt 說明視為建議,並可能決定在搜索中仍顯示“已屏蔽”頁面

要解決這些問題,請查看頁面列表並決定是否要將它們編入索引。如果沒有,您必須使用 noindex 元標記完全阻止爬蟲,然後通過Index > Removals > New request從搜索中刪除頁面。如果是,您必須從robots.txt 文件的disallow指令中刪除該頁面。

第四、 隱藏非必要資源

通過告訴 Google 忽略非必要資源,您可以節省大部分抓取預算。GIF、視頻和圖像等內容可能會佔用大量內存,但通常用於裝飾或娛樂,對於理解頁面內容可能並不重要。

要阻止 Google 抓取這些非必要資源,請使用您的 robots.txt 文件禁止它們。

第五、避免長重定向鏈

如果連續出現不合理數量的 301 和 302 重定向,搜索引擎將在某個時候停止跟踪重定向,並且可能無法抓取目標頁面。更重要的是,每個重定向的 URL 都浪費了您的抓取預算的“單位”。確保您連續使用重定向不超過兩次,並且僅在絕對必要時使用。

要獲取帶有重定向的頁面的完整列表,請啟動WebSite Auditor並轉到Site Structure > Site Audit > Redirects。單擊具有 302 重定向的頁面和具有 301 重定向的頁面以獲取重定向頁面的完整列表。單擊具有長重定向鏈的頁面以獲取具有超過 2 個重定向的 URL 列表

第六、管理動態 URL

受歡迎的內容管理系統生成大量動態 URL,所有這些都指向同一個頁面。默認情況下,搜索引擎機器人會將這些 URL 視為單獨的頁面,因此,您可能既浪費了爬蟲額度,又可能滋生重複內容問題。

如果您網站的引擎或 CMS 將參數添加到不影響頁面內容的 URL,通過在您的 Google Search Console 帳戶中管理這些參數,確保您讓 Google 知道它,在舊工具和報告 > URL 參數下

在那裡,您可以單擊任何參數對面的編輯,並決定是否允許搜索用戶查看該頁面。

第七、解決內容重複問題

重複的內容是指有兩個或多個頁面內容非常相似,這可能由於多種原因而發生,動態 URL 就是其中之一,還有 A/B 測試、www/non-www 版本、http/https 版本、內容聯合以及某些 CMS 平台的細節。具有重複內容的問題是您浪費雙倍的額度來抓取相同的內容。

想要解決內容重複的問題,您首先必須找出重複的頁面。一種方法是在 WebSite Auditor 工具中查找重複的標題和描述

標題,尤其是描述,是具有相同內容的頁面的一個很好的指標。如果您找到任何確實相似的頁面,那麼您必須確定哪個是主要頁面,哪個是重複頁面。現在轉到重複頁面並將此代碼添加到 部分:

其中 URL 是主頁的地址。

這樣,Google 將忽略重複頁面並專注於抓取主頁。

第八、優化網站結構

儘管內部鏈接與您的爬蟲額度沒有直接關係,但 Google 表示直接從您的主頁鏈接的頁面可能被認為更重要並且被更頻繁地抓取。

一般來說,將您網站的重要區域與任何頁面保持距離不超過 3 次點擊是一個不錯的建議,在您的網站menu 或 footer中包含最重要的頁面和類別。對於較大的網站,例如博客和電子商務網站,包含相關帖子/產品和特色帖子/產品的部分可以極大地幫助您將目標網頁放在那裡——無論是對於用戶還是搜索引擎。

總結

如您所見,搜索引擎優化不僅僅與“有價值的內容”和“信譽良好的鏈接”有關。當您網站的前端看起來很漂亮時,可能是時候去地下室進行一些蜘蛛搜尋了——這肯定會在提高您網站的搜索性能方面創造奇蹟。

Last updated