SEO中神秘的分詞切詞 以百度分詞為例
作者:晉城網站建設 日期:2012-02-16
對與百度的分詞研究原來也沒有在意,但有一次我在作優化時無意中發現一個詞也就是差了一個字,結果排名大不相同。
我做的是二手房的關鍵詞,但是我的頁面上的關鍵詞設置卻是“二手房源”,可能有的朋友會說,這個沒什么問題啊,“二手房源”不是包含了二手房這個關鍵詞嗎?如果沒有仔細對百度的分詞進行研究,大家可能看不出這兩個詞會有什么區別,不過大家只要稍微留心一下搜索出來的結果,就可以看出端倪了,百度在對“二手房”和“二手房源”這兩個詞分詞出來是不一樣的,百度自己建立有自己的詞庫,所以他會把“二手房“這個詞當作一個整體,但是對于”二手房源“這個詞,百度則拆分成了”二手“和”房源“兩個詞,自然別人在搜索二手房這個關鍵詞的時候就找不到我的頁面了。通過這個小細節,我覺得有必要對百度的分詞進行一下深入的研究,我大概地總結出了以下這么幾點:
1、百度分詞是根據內容中,第一次出現關鍵詞相關詞為標準來分的。例如”今日新開熱血江湖sf“這個詞 如果你的正文中第一個出現的是”今日“這個詞,那么你的頁面上的關鍵詞就會被拆分成”今日”和“新開熱血江湖sf“兩個詞,標題中一定要包含關鍵詞,但不一定要完全匹配,但內容中出現的關鍵詞是要跟百度分詞完全匹配的,在完全匹配中又會根據文件URL路徑的深度來進行排序,在關鍵詞都完全匹配的情況下,比如說目錄比文件有優先權,根目錄下的文件要比二級目錄下的文件有優先權,完全匹配的會排在前面,然后再是部分匹配的。
2、在關鍵詞沒有完全匹配的情況下,如果有分詞,比如說:游覽器下載這個關鍵詞,有一個網頁里第一次出現的關鍵詞是游覽器,并且有較高的關鍵詞密度,但是這個網頁中卻沒有”下載“這個關鍵詞而另一個網頁里第一次出現的關鍵詞是下載,那么這個網頁的關鍵詞就會被拆分成 游覽器 下載 兩個詞,雖然第二個網頁里包含有“游覽器” “下載” 但是第一個網頁還是會排在第二個網頁的前面,這說明關鍵詞的前面部分是最重要的。
3、關鍵詞第一部分出現的頻率是排名的關鍵,比如說 ”游覽器 下載“,如果兩個網頁都沒有完全匹配,都是含有兩個分詞,那么“游覽器”這個分詞密度高的網頁將會排在前面。
4、如果完全匹配,但是關鍵詞第一出現是在頁面內容的最后面部分,那么這個網頁的排名將比前面這些頁面還要低。所以關鍵詞盡早在內容中出現是非常重要的。
5、百度根據第一次出現的相關關鍵詞切詞,如果第一次出現的相關關鍵詞是關鍵詞的尾部,那么就從后面開始切,如果是前面部分就從前面開始切,也就是根據網頁內容的順序和反序進行分詞,順序的時候就是以關鍵詞前半部分為起點,反序的時候就是以關鍵詞的后半部分為起點。例如:”今日新開熱血江湖sf“ 這個關鍵詞,如果你的網頁中第一次出現的關鍵詞是”熱血江湖sf“,那么你這個頁面的關鍵詞會被拆分成”熱血江湖sf”和“今日新開”兩個詞。
6、可以根據百度的切詞原理,自己來選擇比較好作的關鍵詞頭部(也就是調整你網頁內容中第一次出現的關鍵詞)。也就是進行人為切詞,百度會進行從前往后判斷,也會從后往前面切。
7、如果切詞出現前半部分和后半部分有重復的話,那么有重復的會比沒重復的排名低,但如果都有重復那么就是根據前半部分的密度來判斷。例如:今日新開熱血江湖sf 如果被切成 今日新開熱血江湖|新開熱血江湖sf (這樣切出來的詞前半部分太長,所以排名不利)那么排名肯定要比切成今日新開|熱血江湖|sf 的排名差
8、如果在關鍵詞沒有完全匹配的情況下,并且關鍵詞出現得不完整,比如說:今日新開熱血江湖sf,網頁的內容包含的關鍵詞中如果沒有“今日”這個詞,那么切詞就會從“新開”開始,但是這樣的網頁都會排在比較靠后了,因為你關鍵詞的前部分都沒有包含
9、缺詞的情況下下,如果與不缺詞的網頁進行比較的話,那還是根據切詞前部分的密度進行排序,也就是說按照切詞的順序,如果切出來的詞,前部分的密度比后部分的密度比例是關鍵,例如一個網頁中,前部分與后部分關鍵詞的比例是1:2,另外一個網頁的比例是1:4,那么當然前面的那個網頁排名要靠前。同樣在缺詞的情況下,切出來前詞短的排名有優勢
10、如果不缺詞,但是關鍵詞后面部分比前面部分先出現,例如“今日新開熱血江湖sf” sf這個詞先出現,但是“今日新開熱血江湖”這個詞的密度又不高的話,那么排名會比那些缺詞的還要靠后
11、同樣是后詞出現在前面,但是前詞與后詞的比例是關鍵,例如一個網頁中包含有“sf” “今日新開熱血江湖”這樣兩個詞,比例為1:1另外一個網頁包含的是 “新開熱血江湖” “sf” “今日新開” 比例是2:1:1,那么前面的那個網頁排名有優勢,關鍵詞的數量不是關鍵,出現的位置,以及分詞的比例是非常關鍵的。越靠后的分詞占的比例越多,排名越不利
12、關鍵詞在正文中出現的位置過于靠后也是不利的,主詞的密度太低也不利,前面的網頁情況都是在主詞密度差不多的情況下進行比較的。
我研究出來的也就差不多這么多了,不知道大家能不能看懂,如果能看懂的會,你就可以根據百度的分詞去調整自己網頁的關鍵詞權重設計,這樣就可以避免熱詞的競爭,但是又能作到熱詞。希望大家多與小托交流,最后感謝乖乖分享。
我做的是二手房的關鍵詞,但是我的頁面上的關鍵詞設置卻是“二手房源”,可能有的朋友會說,這個沒什么問題啊,“二手房源”不是包含了二手房這個關鍵詞嗎?如果沒有仔細對百度的分詞進行研究,大家可能看不出這兩個詞會有什么區別,不過大家只要稍微留心一下搜索出來的結果,就可以看出端倪了,百度在對“二手房”和“二手房源”這兩個詞分詞出來是不一樣的,百度自己建立有自己的詞庫,所以他會把“二手房“這個詞當作一個整體,但是對于”二手房源“這個詞,百度則拆分成了”二手“和”房源“兩個詞,自然別人在搜索二手房這個關鍵詞的時候就找不到我的頁面了。通過這個小細節,我覺得有必要對百度的分詞進行一下深入的研究,我大概地總結出了以下這么幾點:
1、百度分詞是根據內容中,第一次出現關鍵詞相關詞為標準來分的。例如”今日新開熱血江湖sf“這個詞 如果你的正文中第一個出現的是”今日“這個詞,那么你的頁面上的關鍵詞就會被拆分成”今日”和“新開熱血江湖sf“兩個詞,標題中一定要包含關鍵詞,但不一定要完全匹配,但內容中出現的關鍵詞是要跟百度分詞完全匹配的,在完全匹配中又會根據文件URL路徑的深度來進行排序,在關鍵詞都完全匹配的情況下,比如說目錄比文件有優先權,根目錄下的文件要比二級目錄下的文件有優先權,完全匹配的會排在前面,然后再是部分匹配的。
2、在關鍵詞沒有完全匹配的情況下,如果有分詞,比如說:游覽器下載這個關鍵詞,有一個網頁里第一次出現的關鍵詞是游覽器,并且有較高的關鍵詞密度,但是這個網頁中卻沒有”下載“這個關鍵詞而另一個網頁里第一次出現的關鍵詞是下載,那么這個網頁的關鍵詞就會被拆分成 游覽器 下載 兩個詞,雖然第二個網頁里包含有“游覽器” “下載” 但是第一個網頁還是會排在第二個網頁的前面,這說明關鍵詞的前面部分是最重要的。
3、關鍵詞第一部分出現的頻率是排名的關鍵,比如說 ”游覽器 下載“,如果兩個網頁都沒有完全匹配,都是含有兩個分詞,那么“游覽器”這個分詞密度高的網頁將會排在前面。
4、如果完全匹配,但是關鍵詞第一出現是在頁面內容的最后面部分,那么這個網頁的排名將比前面這些頁面還要低。所以關鍵詞盡早在內容中出現是非常重要的。
5、百度根據第一次出現的相關關鍵詞切詞,如果第一次出現的相關關鍵詞是關鍵詞的尾部,那么就從后面開始切,如果是前面部分就從前面開始切,也就是根據網頁內容的順序和反序進行分詞,順序的時候就是以關鍵詞前半部分為起點,反序的時候就是以關鍵詞的后半部分為起點。例如:”今日新開熱血江湖sf“ 這個關鍵詞,如果你的網頁中第一次出現的關鍵詞是”熱血江湖sf“,那么你這個頁面的關鍵詞會被拆分成”熱血江湖sf”和“今日新開”兩個詞。
6、可以根據百度的切詞原理,自己來選擇比較好作的關鍵詞頭部(也就是調整你網頁內容中第一次出現的關鍵詞)。也就是進行人為切詞,百度會進行從前往后判斷,也會從后往前面切。
7、如果切詞出現前半部分和后半部分有重復的話,那么有重復的會比沒重復的排名低,但如果都有重復那么就是根據前半部分的密度來判斷。例如:今日新開熱血江湖sf 如果被切成 今日新開熱血江湖|新開熱血江湖sf (這樣切出來的詞前半部分太長,所以排名不利)那么排名肯定要比切成今日新開|熱血江湖|sf 的排名差
8、如果在關鍵詞沒有完全匹配的情況下,并且關鍵詞出現得不完整,比如說:今日新開熱血江湖sf,網頁的內容包含的關鍵詞中如果沒有“今日”這個詞,那么切詞就會從“新開”開始,但是這樣的網頁都會排在比較靠后了,因為你關鍵詞的前部分都沒有包含
9、缺詞的情況下下,如果與不缺詞的網頁進行比較的話,那還是根據切詞前部分的密度進行排序,也就是說按照切詞的順序,如果切出來的詞,前部分的密度比后部分的密度比例是關鍵,例如一個網頁中,前部分與后部分關鍵詞的比例是1:2,另外一個網頁的比例是1:4,那么當然前面的那個網頁排名要靠前。同樣在缺詞的情況下,切出來前詞短的排名有優勢
10、如果不缺詞,但是關鍵詞后面部分比前面部分先出現,例如“今日新開熱血江湖sf” sf這個詞先出現,但是“今日新開熱血江湖”這個詞的密度又不高的話,那么排名會比那些缺詞的還要靠后
11、同樣是后詞出現在前面,但是前詞與后詞的比例是關鍵,例如一個網頁中包含有“sf” “今日新開熱血江湖”這樣兩個詞,比例為1:1另外一個網頁包含的是 “新開熱血江湖” “sf” “今日新開” 比例是2:1:1,那么前面的那個網頁排名有優勢,關鍵詞的數量不是關鍵,出現的位置,以及分詞的比例是非常關鍵的。越靠后的分詞占的比例越多,排名越不利
12、關鍵詞在正文中出現的位置過于靠后也是不利的,主詞的密度太低也不利,前面的網頁情況都是在主詞密度差不多的情況下進行比較的。
我研究出來的也就差不多這么多了,不知道大家能不能看懂,如果能看懂的會,你就可以根據百度的分詞去調整自己網頁的關鍵詞權重設計,這樣就可以避免熱詞的競爭,但是又能作到熱詞。希望大家多與小托交流,最后感謝乖乖分享。