Google爬蟲是如何運作的?

首先,Google 抓取網絡過程找到對新的頁面進行檢索,然後,對這些進行索引,以了解它們的內容,並根據檢索的網頁數據排名。抓取和是兩個不同的以,但是,都是由自己來爬蟲執行的。

在新指南中,我們已經收集了一位 SEO 專家需要了解的關於爬蟲的一切信息。閱讀可以了解什麼是谷歌爬蟲,它是如何工作的,以及你如何通過與你的網站的交互成功。

什麼是谷歌爬蟲?

Google爬蟲是谷歌和其他搜索引擎使用網絡的一種軟件,簡單地說,它在網頁之間掃描那些Google數據庫中還沒有的內容或更新內容。

任何搜索引擎都有自己的一套爬行器。至於Google,有超過15種不同類型的爬蟲,而谷歌的主要爬蟲被稱為Googlebot。 Googlebot同時執行抓取和索引,這就是為什麼我們要仔細看看它是如何工作的。

Google爬蟲是如何工作的?

Google(實際上是任何搜索引擎)沒有中央的URL登記冊,每當有新的頁面創建時就會更新。這意味著谷歌不會自動收到新網頁的 "警報",而是必須主動在網絡上找到它們。 Googlebot不斷地在互聯網上爬行,搜索新的網頁,將它們添加到Google的現有網頁數據庫中。

一旦Googlebot發現了一個新網頁,它就會可視化該網頁,加載所有的HTML、第三方代碼、JavaScript和CSS。這些信息被儲存在搜索引擎的數據庫中,然後用於索引和排名該網頁。

移動裝置和桌面的可視化

移動裝置和電腦的可視化 Googlebot可以通過兩種子類型的爬蟲 "看到 "你的頁面。 Googlebot桌面和Googlebot智能手機。需要這種劃分來為桌面和移動SERP的頁面建立索引。

幾年前,Google使用桌面爬蟲來訪問和可視化大多數的頁面。但隨著移動裝置優先概念的引入,情況發生了變化,Google開始使用Googlebot智能手機來抓取、索引和排名移動版本的網站,用於移動和桌面搜尋結果頁面。

然而,實施移動優先索引的結果比想像的要難。網際網路是非常龐大的,而大多數網站似乎都沒有針對移動裝置進行很好的優化。這使得谷歌使用移動優先的概念來抓取和索引新的網站和那些為移動設備充分優化的舊網站。如果一個網站對移動設備不友好,它則會被Googlebot桌面第一時間抓取和呈現。

即使你的網站已經轉換為移動優先索引,你仍然會有一些頁面被Googlebot 桌面版抓取,因為Google想檢查你的網站在桌面上的表現。谷歌並沒有直接說,如果你的桌面版與移動版差別很大,它就會索引你的桌面版。不過,這樣的假設是合乎邏輯的,因為谷歌的主要目標是為用戶提供最有用的資訊。而谷歌並不想因為盲目地遵循移動優先的概念而失去這些資訊。 注意:在任何情況下,你的網站都會被Googlebot Mobile和Googlebot Desktop訪問。因此,重要的是要考慮你的網站的兩個版本

HTML和JavaScript的可視化

Googlebot在處理和可視化龐大的代碼時可能會遇到一些麻煩。如果你的頁面的代碼很亂,爬蟲可能無法正常可視化它,並認為你的頁面是空的。

至於JavaScript的可視化,你應該記住,JavaScript是一種快速發展的程式語言,Googlebot有時可能不支持最新的版本。確保你的JS與Googlebot兼容,否則你的頁面可能會被錯誤地呈現。

另外要特別注意你的JavaScript加載時間,如果網站需要超過5秒的加載時間,Googlebot將不會可視化和索引該內容。

甚麼會影響爬蟲行為?

Googlebot的行為並不混亂--它是由複雜的算法決定的,這些算法幫助爬蟲在網絡中導航,並製定信息處理規則。

儘管如此,谷歌算法的行為並不是你什麼都不能做,只能傻傻地希望得到最好的結果。讓我們仔細看看什麼賄影響爬蟲的行為,以及你該如何優化你的網頁的抓取。

內部鏈接和反向鏈接

如果Google已經知道你的網站,Googlebot會不時地檢查你的主要頁面的更新。這就是為什麼把新頁面的鏈接放在你網站的重要頁面上是至關重要的。

你可以用最新的新聞或博客文章來充實你的首頁,即使你本來就有單獨的新聞和博客頁面。這將使Googlebot更快地找到你的新頁面,許多網站所有者忽視了這一點,這導致了不良的索引和低位置。

在抓取方面,反向鏈接的作用是一樣的--如果你的頁面是從一些可信的、受歡迎的外部頁面鏈接過來的,Google會更快地找到它。因此,如果你添加一個新的頁面,不要忘記外部推廣。你可以嘗試客串,發起廣告活動,或者嘗試其他你喜歡的方式,讓Googlebot看到你新頁面的URL。

點擊深度

點擊深度顯示一個頁面離首頁有多遠,從而說明Googlebot需要多少個 "步驟 "才能到達一個頁面。理想情況下,一個網站的任何頁面都應該在3次點擊內到達。較大的點擊深度會減慢爬行速度,對用戶體驗沒有好處。

網站地圖

網站地圖是一個包含你希望出現在Google中的全部頁面列表的文件。你可以通過Google Search Console(Index > Sitemaps)向Google提交你網站的網站地圖,讓Googlebot知道要訪問和抓取哪些頁面。另外,網站地圖還可以告訴谷歌你的頁面是否有任何更新。

是否所有的網頁都可供抓取? 有些頁面可能無法被Google抓取和索引。讓我們仔細看看這些類型的頁面。

受密碼保護的頁面

Googlebot模擬一個沒有任何憑證的匿名用戶的行為來訪問受保護的頁面。因此,如果一個頁面有密碼保護,它將不會被抓取。

被索引指示排除的頁面

這些是通過robots.txt指令從谷歌隱藏的頁面,帶有noindex標籤、robots元標籤和 X-Robots標籤的頁面。

孤兒網頁

孤兒網頁是指沒有從網站上的任何其他頁面鏈接到的頁面。谷歌機器人是一個蜘蛛機器人,這意味著它通過跟踪它發現的所有鏈接來發現新頁面。如果沒有指向某個頁面的鏈接,那麼該頁面將不會被抓取,也不會出現在搜索中。

有些頁面可能被故意限制抓取和索引。這些通常是不打算出現在搜索中的頁面:有個人數據的頁面、政策、使用條款、測試版本的頁面、存檔頁面、內部搜索結果頁面等等。

但是,如果你想讓你的網頁供谷歌爬蟲使用,並為你帶來流量,請確保你不要用密碼保護公共網頁,注意鏈接(內部和外部),並仔細檢查索引說明。

我的網站何時會出現在搜索中?

很顯然,在你的網站上線後,你的網頁不會立即出現在搜索中。如果你的網站是絕對新的,Googlebot將需要一些時間來在網絡上找到它。請記住,這個 "一些 "在某些情況下可能需要長達6個月。

如果谷歌已經知道你的網站,並且你做了一些更新或添加了新的頁面,那麼網站變化在網絡上出現的速度取決於抓取預算。

抓取預算是谷歌花在抓取你的網站上的資源數量。 Googlebot需要抓取你的網站的資源越多,它在搜索中出現的速度就越慢。

抓取預算的分配取決於以下因素:

  1. 網站受歡迎程度:一個網站越受歡迎,谷歌就越願意在其抓取上花費更多的抓取點。

  2. 更新率:你越是經常更新你的網頁,你的網站就會得到越多的抓取預算。

  3. 頁面的數量:您的頁面越多,您的抓取預算就越大。

  4. 處理抓取的服務器能力:您的主機服務器必須有能力即時回應爬蟲的請求。

請注意,抓取預算不會平均用於每個頁面,因為有些頁面會消耗更多的資源(比如有大量的JavaScript和CSS,或者因為HTML很亂)。因此,分配的抓取預算可能不足以像您預期的那樣快速抓取您的所有網頁。

結論

谷歌的主要爬蟲,Googlebot,在復雜的算法下運行,但你仍然可以 "駕馭 "它的行為,使之對你的網站有利。此外,大多數爬行過程的優化步驟都是重複我們都熟悉的標準SEO的步驟。

Last updated