Google專利:從科學角度深入探討E-E-A-T

文章目錄

分享給更多人知道

在這篇文章中我們會深入探討,Google在2018年所申請的一項專利,並藉由這個專利深度挖掘,Google是如何把如此多的網路訊息進行分類,並有效率地在海量的網路資訊中找出最佳的搜尋結果。

網站分類系統專利的重點:

以下為依個人經驗所揣測的SEO作法,可能並不為Google演算法所採用。

  1. 搜尋引擎可能會使用網站分類系統的數據來決定搜索結果。
  2. 這個分類系統可能會使用在多個擁有相同屬性的網站中,挑選任一網站作為該分類的代表。
  3. 搜尋引擎會使用網站分類來選擇具有相同或相似分類的網站,來回應搜索結果查詢。
  4. 網站被分到哪種類型取決於該網站所擁有的特徵。
  5. 你的網站內容,包含文字、圖像和連結決定你被分類的方式。
  6. 品質分數可能代表網站的權威性或在特定知識領域的可回應程度,或兩者皆是。
  7. 用於分類網站的標籤可能包含網站的型態、所屬的行業,以及網站擁有者的類型。
  8. 一個網站可能涵蓋多個知識領域。

以下為專利資訊:

Website Representation Vector to Generate Search Results and Classify Website

Publication number: WO2020033805 

Applicants: GOOGLE LLC 

Inventors: Yevgen Tsykynovskyy 

Publication Number WO/2020/033805 

Filed: August 10, 2018

Publication Date February 13, 2020

解密Google網站分類專利

從這項專利發現,Google會使用一個名為網站代表向量(Website Representation Vector)的系統,透過神經網絡 (Neural Networks),來理解網站背後的模式和特徵,並且利用這些特徵進行分析及分類,進一步了解不同網站,針對不同主題的權威性

這個網站分類系統指的是一個綜合性代表,例如,向量 (Vector),用於特定知識領域內的網站分類。這些知識領域可以是健康、金融等主題。如果你的網站被分類在特定知識領域中,當人們搜尋相關領域關鍵字時,你的網站就會有較大的機率出現在搜尋結果頁當中。

專利中又提到,Google會將類別分類得更細一些。 例如,網站分類可能包括由知識領域專家撰寫的第一類網站,例如醫生,第二類網站由知識領域的學徒撰寫,例如醫學院學生,以及由知識領域的外行人撰寫的第三類網站。 由此可知網站會大致被分類為:專家級、學徒級和外行人級的網站。

這和Google的搜尋品質評估指南(Quality Raters Guidelines)中的E-E-A-T有非常高的相似性。指南告訴我們,有些網站是由在主題上沒有太多專業知識的人撰寫的。例如,有些人會在一些討論特定疾病的論壇,分享個人經驗,講述他們的親人與癌症對抗的過程。在這個案例中,雖然這種內容不是專業的醫療建議,但卻是在分享個人經驗,因此也符合E-E-A-T中的Experience。而真正的醫療建議(非經驗的描述)應該來自醫生或其他健康專業人員。因此,在撰寫高專業性及權威性的醫療內容時,應以專業行式撰寫(例如,學術論文),並定期進行編輯、審查和更新。

這項專利提到,搜索排名是基於網站權威性及專業性(含個人經驗),但沒有提到可信度 (Trustworthiness)。因此這個網站分類系統不是完全基於 E-E-A-T 來對網站進行排名,因此僅可以實現質量評估指南的部分目標。

此外,這個系統可能還可以大幅減少Google為了提供搜尋結果而爬網站的次數,因為在搜尋相關內容時,網站都已經被分類好了,當某個知識領域的關鍵字被搜尋時,Google就能搜尋較少的網站,來提供最準確的搜尋結果,不必將整個網路都索引一遍。以下就讓我們更深入了解這項專利背後的邏輯吧!

首先這個系統會將許多網站分類到特定的知識領域中,並根據網站是否滿足特定標準來將他們再進一步評分,而這個分數稱為品質分數(Quality Scores)。雖然在專利中並沒有具體定義“品質分數”,但關於高品質網站的定義可以參考Google官方文件:優質網站建立方式的額外說明

以下簡易解釋整個系統的大概流程:

  • 首先系統會接收到網站的品質分數,這個分數是和其他同領域的網站比較後而得來
  • 將品質分數低於第一層標準的所有網站分類為第一類網站,至少會有一個網站的品質分數低於第一層標準
  • 再來將品質分數高於第二層標準的所有網站分類為第二類網站,至少有一個網站的品質分數高於第一層標準
  • 在被分類為第一類的網站中計算出綜合代表,我們稱它為第一綜合代表
  • 在被分類為第二類的網站中計算出綜合代表,我們稱它為第二綜合代表
  • 再來系統會再找出另一個網站,即為將被分類的網站,在此稱為A網站
  • 計算第一綜合代表與同為第一類的網站之間的差異,該值稱為第一差異度
  • 計算第二綜合代表與同為第二類的網站之間的差異,該值稱為第二差異度
  • 基於第一和第二差異度,將A網站分類為第一類網站、第二類網站,如果既未被分為第一類或第二類網站,該網站就會被分到第三類。
Google網站分類系統

Network(102)

意指網路。

Publisher(104)

Publisher是創作和傳遞線上內容的個體。

Resource(106)

Resource是Publisher發布的內容或網站。

User Devices(108)

用來使用網路進行搜尋的設備(例如,智慧型手機、電腦)。

Search Engine(110)

即搜尋引擎,透過索引(112)在網路上幫用戶找到網路資源。

Index(112)

這是搜尋引擎用來快速查找和檢索訊息的數據庫。

Query Log(114) 

使用者進行搜索的紀錄。

Selection Log (116)

使用者選擇搜索結果的紀錄。

Search History(118)

這可能是關於使用者搜尋行為的數據 (綜合Query和Selection)。

Website Classification(120)

網站系統,可以將網站分類為搜索引擎好分辨的類別。並且可以用網站分類數據庫(122)來儲存網站的特徵(124)。

Website Representation Database(122)

網站代表數據庫,它儲存了能夠代表各種不同網站(124)的數據。

Website Representation(124)

意即網站抽象的版本,如特徵向量(Vector),代表網站的內容和結構。

Website (126a-n)

指的是被網站分類系統(120)分類的各個網站。這些網站已被輸入系統進行分析和分類。

Feature Vector(128a-n)

用於分類網站特徵的量化數值。

Classification(130a-b)

即網站分類的類別(A、B 等),可能是根據內容類型、主題或品質。

Average Feature Vector(132a-b)

代表某一分類的“平均”特徵的參考數值,可用於分類新網站或更新舊網站。

系統如何回應搜尋特定知識領域的關鍵字?

其實這項Google專利還告訴我們,這個系統也能將使用者的搜尋關鍵字轉譯成另一種形式,進而透過響應式的數據提供搜尋結果。這個流程可能會是像以下這樣:

  • 先從權威數據源,提前生成可以回答未來會被搜尋的關鍵字的數個回應(Response)
  • 在生成預先處理的回應後,等待接收到該知識領域的搜尋
  • 當接收到轉譯後的搜索請求時,使用其中一個預處理的回應來回應該搜尋請求。

使用網站分類系統的優勢與目的

Google搜索系統可能選擇、搜尋或同時,對具有特定分類的網站數據進行處理,從而減少生成搜索結果所需的計算資源,例如可以:

 

  • 減少存儲潛在搜索結果數據所需的存儲空間,例如,只需要存儲具有特定分類代表性的網站數據
  • 減少搜尋系統分析網站的數量,例如,將搜尋侷限在只具有特定分類的網站
  • 減少用於向請求搜尋結果的設備的網路頻寬
  • 解決系統的潛在問題,例如使用過高網路頻寬、存取記憶、處理器資源、電力
  • 透過僅處理具有特定分類的網站,來改善搜尋系統所生成的搜尋結果頁面
  • 從現有網站學到的特徵來對未見過的網站進行分類,而不需要使用者主動告訴此系統
  • 自動偵測哪些網站更能滿足某知識領域的搜尋,例如,對某知識領域更具權威性的網站
  • 可以透過分析網站自動學習任何特徵來分類網站,而不僅僅局限於人可辨識的特徵

系統根據什麼進行網站分類?

這項專利中又提到,為了讓Google擁有很大的靈活性,這個網站分類系統可以使用任何”適當”方法來生成分類。分類類型取決於從網站獲取的內容,這些內容可以包括:

  • 網站內的文字
  • 網站內的圖像
  • 網站內的其他網站內容,例如,連結
  • 或是上述中的兩個或多個組合

神經網路

關於神經網絡在系統中扮演的角色:

網站分類系統可能會使用媒合(mapping)的方式,讓網站的內容對應到能代表該類型網站的向量。例如,系統會將A網站的內容做為訓練素材,用來訓練一個神經網路,最後創造出能夠代表A網站特徵的向量。

分類標籤

網站分類有非常大的機率會需要使用標籤。而這些標籤可能是:

  • 由字母數字(One, Two, Three)、純數字(1, 2, 3)或字母(A, B, C)、符號(#,&,*),或這些字元的綜合體所組成
  • 可以代表某些網站的類型,如非營利或營利性組織
  • 可能描述某網站的行業,如人教育、醫療等
  • 可能代表撰寫網站的人的類型,如醫生、醫學院學生或一般人
  • 也可能是代表網站分類的分數

分類分數

分類分數可能用於:

  • 達到不同的分數門檻,就會被歸屬於不同類別
  • 歸類特定知識領域
  • 分類涵蓋多個知識領域網站
  • 選擇能對多個知識領域提供答案的網站
  • 決定網站對特定知識領域的權威性
  • 或計算上述的綜合分數

品質分數

品質分數可能是用來衡量:

  • 權威性的量化數值
  • 對特定知識領域的可回答性的數值
  • 網站的屬性
  • 或上述組合的綜合

總結

在這篇文章,我們了解到Google是如何使用網站表示向量來對網站進行分類。這個系統採用複雜的神經網路來理解網站的模式和特徵,並將其分類到特定的知識領域,如健康、金融等。並且也根據網站作者的專業程度進行分類。我們也得知,Google似乎使用一個稱為“品質分數”的指標來量測網站,是否對特定知識領域有權威性。這種方法使Google能夠讓它的搜尋引擎提供更精準的內容給使用者,同時減少運算資源。

Lewis Ko
Lewis Ko
Hi 我是Lewis,曾任職in-house行銷人員,現職某跨國企業的SEO Specialist。熱愛學習最新的科技和知識,努力透過簡單易懂的方式,分享我學習的過程和心得。如果你/妳剛好也在學習SEO、GA、GTM、Looker Studio的道路上,希望我的內容對你有幫助!

延伸閱讀