域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)
(1)查找是否有黑鏈出現(xiàn)——從日志分析,百度蜘蛛抓取了網(wǎng)站的哪些預(yù)期外的頁(yè)面,是否存在黑鏈。(這個(gè)可能要先賣個(gè)關(guān)子,因?yàn)檫@又是個(gè)大工程啦,本期專題會(huì)提到一些)
(2)百度站長(zhǎng)工具外鏈分析——查看是否有垃圾外鏈、黑鏈等,以及鏈向的站內(nèi)什么地方,如何處理。(本期里面也有所涉及)
(3)百度站長(zhǎng)工具鏈接分析——三大死鏈(內(nèi)鏈死鏈、鏈出死鏈、鏈入死鏈),批量下載數(shù)據(jù),合并數(shù)據(jù),excel操作,按邏輯分類,定位問(wèn)題,處理問(wèn)題。(定位和處理,材料不夠,因?yàn)楹枚嘁呀?jīng)處理過(guò)了,沒(méi)有材料了= =|||||)
(4)從分析這些數(shù)據(jù),得到的與SEO效果相關(guān)的其他信息(垃圾搜索引擎、垃圾外鏈帶來(lái)的無(wú)用抓取,浪費(fèi)資源配額,如何拒絕。)
(5)如何自動(dòng)化地使用shell腳本,定位到被百度蜘蛛抓取到的死鏈,并進(jìn)行復(fù)查,然后將確定為死鏈的URL進(jìn)行自動(dòng)化提交。(本期專題內(nèi)容太多,留作下期專題用)
(6)分析工具介紹(firefox設(shè)置,插件,excel,windows命令提示符批處理)
結(jié)合本文,你也許能學(xué)會(huì)一些新姿勢(shì),比如:
(1)批量下載百度站長(zhǎng)工具中的表格數(shù)據(jù)(活學(xué)活用地去下載其他網(wǎng)站的一些東西,只要你喜歡。比如5118什么的。5118的站長(zhǎng)會(huì)不會(huì)打我呀?)
(2)合并一些常見(jiàn)的文檔,比如txt、csv之類的文本,方便數(shù)據(jù)分析和處理。
(3)分析死鏈數(shù)據(jù)、定位問(wèn)題的一點(diǎn)基本思路
本專題中主要使用到的工具:
(只是結(jié)合例子中,如果有其他相似功能的工具,請(qǐng)結(jié)合自身習(xí)慣使用即可)
【瀏覽器】火狐(Firefox)瀏覽器,版本無(wú)所謂
【插件】:Launch Clipboard
功能:一鍵打開(kāi)剪切板中存在的URL。(注意URL中只能有英文數(shù)字標(biāo)點(diǎn),如果有中文可能無(wú)法被識(shí)別)。快捷鍵:alt + shift +K(先復(fù)制好單個(gè)或者多個(gè)URL)
設(shè)置:打開(kāi)選項(xiàng)設(shè)置,選擇好下載文件自動(dòng)保存的位置(我這里選擇了桌面,你也可以單獨(dú)創(chuàng)建一個(gè)文件夾,好對(duì)批量下載的文件進(jìn)行歸類)
【表格處理】:Microsoft Office 2013 Excel
【文本處理】:Notepad++
【批量處理】:Windows自帶命令提示符
本期專題配合視頻的講解流程:
來(lái)到百度站長(zhǎng)工具鏈接分析。我們看到有兩大板塊,死鏈分析與外鏈分析。
一、我們可以先看一下外鏈分析。
分析外鏈數(shù)據(jù)的主要目的是,找出垃圾外鏈,主動(dòng)去封堵垃圾外鏈可能對(duì)網(wǎng)站造成的惡劣影響。最終目標(biāo):1、找到垃圾外鏈的域名,進(jìn)行防盜鏈處理(針對(duì)來(lái)源為垃圾域名的,直接返回404狀態(tài)碼);2、處理站內(nèi)可能存在問(wèn)題的頁(yè)面。
這里,我會(huì)重點(diǎn)講解第一點(diǎn);第二點(diǎn)比較簡(jiǎn)單,我會(huì)講解得比較粗略。
1、定位出垃圾域名。
圖注:可以看到這是一個(gè)明顯不正常的趨勢(shì)圖
我們可以下載外鏈數(shù)據(jù),來(lái)進(jìn)行初步分析。
圖注:下載得到的表格文件(csv逗號(hào)分隔符)
但是這樣一份原始數(shù)據(jù),是很難進(jìn)行分析的。因此我們需要按照一定邏輯對(duì)其進(jìn)行分析——就是按照【被鏈接的網(wǎng)頁(yè)url】進(jìn)行分類。
首先,我們可以快速瀏覽一下,進(jìn)行直觀判斷,這些頁(yè)面大部分是什么頁(yè)面呢?
針對(duì)我們網(wǎng)站的情況來(lái)說(shuō),外鏈數(shù)據(jù)分為兩類,正常外鏈與垃圾外鏈。
而垃圾外鏈又分為兩種:站內(nèi)搜索結(jié)果頁(yè)面(垃圾搜索詞)以及被黑客入侵植入的黑鏈(已經(jīng)處理為死鏈)。
我們進(jìn)行數(shù)據(jù)處理的目的有兩個(gè):識(shí)別出哪些是正常外鏈,哪些是垃圾外鏈,并根據(jù)垃圾外鏈的相關(guān)數(shù)據(jù),進(jìn)行一些處理,保護(hù)好網(wǎng)站;并且需要使被垃圾鏈接指向的頁(yè)面,不被搜索引擎抓取(浪費(fèi)抓取資源配額)以及被收錄/索引(保證網(wǎng)站詞庫(kù)不受污染,不為網(wǎng)站帶來(lái)形象與關(guān)鍵詞方面的負(fù)面影響)。
第一步,篩選出網(wǎng)站的搜索結(jié)果頁(yè)面
圖注:篩選數(shù)據(jù)、復(fù)制到新的sheet中,刪除原始sheet中的篩選數(shù)據(jù),來(lái)分類數(shù)據(jù)
還有幾類搜索鏈接格式,都以相同方式進(jìn)行處理。
然后把原始sheet中剩下的數(shù)據(jù)進(jìn)行去重(空白行),得到剩余的鏈接信息。
圖注:對(duì)剩余數(shù)據(jù)進(jìn)行簡(jiǎn)單的去重處理。
然后,我們需要對(duì)黑鏈進(jìn)行篩選。黑鏈的數(shù)據(jù),一般需要先從網(wǎng)站日志中分析得到(這樣是最全面的,為了保證效率,會(huì)需要使用到shell腳本來(lái)自動(dòng)運(yùn)行,但是涉及篇幅過(guò)多,我將在以后的專題中進(jìn)行講解)。
當(dāng)然也可以對(duì)表格中【被鏈接的網(wǎng)頁(yè)url】這一列按照順序排序后,挨著分析得到(自己去打開(kāi),同時(shí)黑客會(huì)使用一些特殊手段,妨礙我們?nèi)プR(shí)別真正的會(huì)被搜索引擎識(shí)別到的垃圾內(nèi)容,最常見(jiàn)的情況就是,使用js跳轉(zhuǎn)。這樣我們通過(guò)瀏覽器訪問(wèn)時(shí),會(huì)看到完全不一樣的內(nèi)容,而搜索引擎抓取時(shí),則下載到了垃圾內(nèi)容。)
這時(shí),我們需要使用一款firefox插件【No Script】,旨在屏蔽網(wǎng)站上的js,看到與搜索引擎類似的內(nèi)容。
圖注:屏蔽瀏覽器中java script的插件
另外還有一種不是很靠譜的甄選方法,在搜索引擎里面去搜:【site:域名 *】之類的關(guān)鍵詞,把不符合網(wǎng)站預(yù)期的關(guān)鍵詞拿去搜,就可以得到很多鏈接了。(這里需要使用一些方法,把鏈接全都批量導(dǎo)出,在今后的專題中,我會(huì)繼續(xù)講解的)
篩選過(guò)程我就只能省略啦,可以結(jié)合視頻看一看。
圖注:篩選出來(lái)的網(wǎng)站黑鏈
我們之所以要這么辛苦地找出垃圾外鏈,目的就是要把這些垃圾外鏈的域名記錄下來(lái),避免這些垃圾域名被黑客重復(fù)利用,拿去制作新的垃圾鏈接,從而在第一時(shí)間拒絕掉這些垃圾外鏈,使百度蜘蛛從垃圾外鏈訪問(wèn)我們網(wǎng)站上內(nèi)容時(shí),無(wú)法獲取到任何信息(也就是返回404狀態(tài)碼,被識(shí)別成死鏈),久而久之,這些垃圾域名的權(quán)重就會(huì)越來(lái)越低(因?yàn)閷?dǎo)出了死鏈,影響搜索引擎的正常抓取工作),這樣我們不僅保護(hù)了自己,也懲罰了敵人。
具體方法是,把垃圾頁(yè)面找出來(lái)——從搜索結(jié)果頁(yè)面和黑鏈的兩個(gè)sheet中,把外鏈頁(yè)面整合到一起。如sheet3所示。
圖注:合并垃圾外鏈頁(yè)面
接下來(lái)的處理會(huì)使用到一款小工具,來(lái)快速獲取這些鏈接的主域名。
圖注:將鏈接復(fù)制到左邊紅框里,點(diǎn)擊本地提取,就會(huì)出現(xiàn)在右側(cè)紅框
如此一來(lái),我們就得到了這些垃圾外鏈頁(yè)面的主域名,我們只需要在我們服務(wù)器上配置一下防盜鏈,禁止refer(來(lái)源)為這些域名的訪問(wèn)(返回404http狀態(tài)碼)即可。
2、從站內(nèi)對(duì)搜索結(jié)果頁(yè)面進(jìn)行處理(黑鏈處理我保留在下一次專題,因?yàn)橐罅拷Y(jié)合linux的shell腳本):
權(quán)重比較高的網(wǎng)站的站內(nèi)搜索,一定要注意antispam(反垃圾)。如果不加以防范的話,一旦被黑客利用,那么可能會(huì)造成大量搜索頁(yè)面被百度抓取,黑客利用高權(quán)重網(wǎng)站的資源,快速做好黃賭毒行業(yè)的關(guān)鍵詞排名。但是這對(duì)于我們網(wǎng)站來(lái)說(shuō),則是噩夢(mèng)般的打擊。不作處理的話,可能會(huì)導(dǎo)致如下幾方面的問(wèn)題:浪費(fèi)大量的蜘蛛抓取配額,去抓取垃圾頁(yè)面;垃圾頁(yè)面被搜索引擎收錄,網(wǎng)站詞庫(kù)被黑客污染,使得網(wǎng)站的行業(yè)詞和品牌詞排名不理想;對(duì)網(wǎng)站形象造成損失……等。
在進(jìn)行這類反垃圾策略的時(shí)候,我們需要關(guān)注四個(gè)方面:站內(nèi)用戶可以正常使用;不允許搜索引擎抓取這類頁(yè)面;拒絕垃圾外鏈的訪問(wèn);頁(yè)面上不得出現(xiàn)垃圾關(guān)鍵詞。
既然有了明確的目標(biāo),那么相應(yīng)的應(yīng)對(duì)方案也就出來(lái)了,那就是:
A 限制來(lái)源,拒絕掉所有非站內(nèi)來(lái)源的搜索
B 頁(yè)面上的TKD等關(guān)鍵位置,不對(duì)搜索詞進(jìn)行調(diào)用
C 指定敏感詞庫(kù)過(guò)濾規(guī)則,將敏感詞全部替換為星號(hào)*(有一定技術(shù)開(kāi)發(fā)要求)
D 在robots.txt聲明,不允許抓取
E 在頁(yè)面源代碼head區(qū)間添加meta robots信息,聲明該頁(yè)面不允許建立索引(noindex)
進(jìn)行以上處理,可以解決掉大部分站內(nèi)搜索頁(yè)面(不局限于該類頁(yè)面,甚至其他的頁(yè)面只要不希望搜索引擎抓取以及建立索引的話,都可以這樣處理)容易出現(xiàn)的問(wèn)題。
二、我們?cè)賮?lái)看一下死鏈分析。
死鏈,在站長(zhǎng)工具的死鏈提交工具的幫助文檔中已經(jīng)有詳盡的闡釋,我僅僅進(jìn)行一些補(bǔ)充即可。
死鏈一般有如下幾種:內(nèi)部死鏈、外部死鏈。
內(nèi)部死鏈,就是我們網(wǎng)站上出現(xiàn)的,由于種種原因使得百度蜘蛛抓取鏈接時(shí),無(wú)法獲取到內(nèi)容而被識(shí)別的死鏈。大部分情況下,對(duì)于我們來(lái)說(shuō),這種死鏈?zhǔn)强梢酝ㄟ^(guò)一些方式進(jìn)行避免的,因此是可控的。同時(shí),由于鏈向死鏈的頁(yè)面,都是我們網(wǎng)站上的頁(yè)面,并且鏈出了死鏈的頁(yè)面,對(duì)搜索引擎非常不友好,所以不及時(shí)處理的話,極有可能使搜索引擎無(wú)法順利地對(duì)網(wǎng)站上有價(jià)值頁(yè)面進(jìn)行抓取,從而間接導(dǎo)致“局部降權(quán)”(抓取一些頁(yè)面的周期變得越來(lái)越長(zhǎng),快照更新緩慢,排名上不去之類)。
內(nèi)部死鏈問(wèn)題比較嚴(yán)重,所以應(yīng)當(dāng)優(yōu)先處理內(nèi)部的死鏈。
而我們可以放慢地百度站長(zhǎng)工具中獲取死鏈數(shù)據(jù),并按照一定邏輯方式進(jìn)行整理和劃分,定位問(wèn)題,接下來(lái)我將圍繞進(jìn)行死鏈數(shù)據(jù)分析進(jìn)行講解。
通過(guò)在頁(yè)面上對(duì)死鏈信息進(jìn)行預(yù)覽,誰(shuí)都會(huì),我就不需要過(guò)多說(shuō)明了。而死鏈問(wèn)題,不需要每天都去下載表格進(jìn)行分析,而只需要每天大致看一下數(shù)據(jù),是否有突然出現(xiàn)的死鏈,找到原因并處理(一般大范圍出現(xiàn),比較容易被察覺(jué)到,也是需要緊急處理的);其次我們需要定期進(jìn)行一次較為徹底的死鏈數(shù)據(jù)分析,看看是否有平時(shí)沒(méi)有關(guān)注到的死鏈問(wèn)題(一般出現(xiàn)范圍小,會(huì)比較難以察覺(jué),但是任由其長(zhǎng)期發(fā)展下去的話,可能會(huì)造成大問(wèn)題)。
圖注:一般突然出現(xiàn)的大量死鏈,很容易被察覺(jué),也比較好確定原因
圖注:這是早期定位到的問(wèn)題,雖然提交了處理建議,但被程序員忽視掉,然后在最近突然爆發(fā)出來(lái),因此即使小問(wèn)題,也應(yīng)當(dāng)引起足夠重視(由于發(fā)生后處理及時(shí),沒(méi)有出現(xiàn)過(guò)于嚴(yán)重的問(wèn)題)
接下來(lái),我來(lái)簡(jiǎn)單說(shuō)一下,批量下載百度站長(zhǎng)工具中的死鏈數(shù)據(jù),以及合并數(shù)據(jù)進(jìn)行統(tǒng)一處理。
內(nèi)鏈死鏈(子域名A指向子域名A)和鏈出死鏈(子域名A指向子域名BCD……),一般來(lái)說(shuō)比較容易分析,我們來(lái)針對(duì)鏈入死鏈(子域名BCD……指向子域名A)來(lái)進(jìn)行一些批量處理吧。
圖注:可以對(duì)數(shù)據(jù)進(jìn)行下載,格式為csv(逗號(hào)分隔符),可以方便地使用excel進(jìn)行處理
;并且下方有官方的幫助文檔。
到這里,你可以試著點(diǎn)擊【下載數(shù)據(jù)】,這樣火狐瀏覽器就會(huì)自動(dòng)把文件下載到你設(shè)置好的位置。
這里告訴大家一個(gè)小技巧,可以點(diǎn)擊下載列表中的對(duì)應(yīng)文件,復(fù)制下載鏈接,然后粘貼出來(lái)。
相信長(zhǎng)得帥的朋友已經(jīng)看出來(lái)了,site=就是指定你的網(wǎng)站域名,而day=2016-02-30就是指定你需要的日期了。type=3就是指定下載【鏈入死鏈】的數(shù)據(jù),而type=2是鏈出死鏈,type=1是內(nèi)鏈死鏈。而其他參數(shù)不需要做過(guò)多了解。
腦洞大開(kāi)的朋友一定會(huì)想,如果我把日期參數(shù)做一下處理,是不是能夠批量地直接下載這些文件了呢?沒(méi)錯(cuò),可以的。這里你需要借助一下excel強(qiáng)大的功能。
先手動(dòng)做好兩行URL,然后選中,左鍵按住從右下角,往下拉你就發(fā)現(xiàn)excel已經(jīng)自動(dòng)幫你對(duì)URL進(jìn)行了補(bǔ)完。非常方便。
松開(kāi)左鍵,就得到了想要的結(jié)果
然后,你就可以復(fù)制下這些URL,然后到火狐瀏覽器中,用我們之前安裝好的Launch Clipboard插件,使用其快捷鍵alt + shift +K批量打開(kāi)上圖中的鏈接,然后我們的火狐瀏覽器就會(huì)自動(dòng)把這些文件下載存儲(chǔ)到我們指定好的位置。
來(lái),我們看一看收獲的成果吧:
好像還可以的樣子哦?但是,這么多表格難道要我一個(gè)一個(gè)地打開(kāi)嗎?
當(dāng)然不。我們來(lái)看一看某一個(gè)表格長(zhǎng)什么樣子吧??吹搅藛?這里有記錄時(shí)間的。
也就是說(shuō),如果我們能想辦法把這些文件都合并起來(lái)的話,也是有辦法區(qū)分日期的。
好吧,說(shuō)干就干。
(1)打開(kāi)你的命令提示符:Windows + R,輸入cmd,回車
(2)在命令提示符中,輸入cd再敲入空格,再到保存csv文件的位置,去把文件夾整個(gè)拖拽到命令提示符中,即可自動(dòng)補(bǔ)完路徑。
如果不輸入cd空格的話,會(huì)報(bào)錯(cuò),如下圖。(cd的意思是跳轉(zhuǎn)目錄到指定目錄)
當(dāng)成功后,你就可以把csv文件都合并起來(lái)啦,輸入命令:
copy *.csv..\ok.csv
意思是,拷貝出所有以后綴名為csv的文件,輸出到上一級(jí)目錄下的ok.csv文件中。
這樣就完成了合并。
我們打開(kāi)ok.csv看看?接下來(lái)就可以進(jìn)行簡(jiǎn)單的去重處理。
圖注:簡(jiǎn)單去重后,我們依然可以大致瀏覽一下。
我們發(fā)現(xiàn),死鏈前鏈中,有許多來(lái)自于不同域名的相似目錄下的頁(yè)面。我們不妨把這些頁(yè)面單獨(dú)存起來(lái)。
圖注:篩選出所有zx123.cn子域名下包含xiaoqu目錄的頁(yè)面
然后我們發(fā)現(xiàn),還有一些包含baidu.com/的頁(yè)面,這些頁(yè)面一般是經(jīng)過(guò)推送數(shù)據(jù)來(lái)進(jìn)行抓取的,所以也暫時(shí)分類到一邊。
圖注:百度的抓取數(shù)據(jù)
剩下的數(shù)據(jù)中,還剩下外部死鏈,而外部死鏈中還包含一些垃圾鏈接,我們需要把這些垃圾鏈接找出來(lái)。
圖注:按照死鏈鏈接排序
把垃圾死鏈也單獨(dú)歸為一類,剩下的就是真正的外鏈死鏈了。
圖注:檢驗(yàn)成果的時(shí)候到啦。
我們把數(shù)據(jù)按照一定邏輯關(guān)系分成了四類,分別是【外部死鏈】【垃圾鏈接】【百度】【子域名(也屬于內(nèi)部死鏈)】
我們需要重點(diǎn)關(guān)注的是,【子域名】出現(xiàn)的死鏈。因?yàn)樽佑蛎彩俏覀兊木W(wǎng)站的一部分啊,這些頁(yè)面上出現(xiàn)了死鏈,勢(shì)必對(duì)這些頁(yè)面的SEO效果不利,需要盡快明確原因。
經(jīng)過(guò)與技術(shù)部門(mén)溝通,我確認(rèn)到該類問(wèn)題出現(xiàn)的原因,主要是我們網(wǎng)站的服務(wù)器之間同步數(shù)據(jù)時(shí)不成功,或者服務(wù)器之間連接偶然斷開(kāi)所致。這類問(wèn)題暫時(shí)難以避免,因此只能讓技術(shù)人員將因?yàn)檫@種情況出現(xiàn)的404(永久不可訪問(wèn))狀態(tài)碼改為返回503(臨時(shí)不可訪問(wèn))狀態(tài)碼了。
而【百度】出現(xiàn)的死鏈,理由和上面的一致。只不過(guò)蜘蛛的抓取渠道,是來(lái)自于主動(dòng)推送方式。返回503狀態(tài)碼后,情況有所改善。
【垃圾鏈接】,我已經(jīng)在外鏈分析中做出過(guò)一定程度的說(shuō)明了,可以參考一下。
【外部死鏈】,這個(gè)其實(shí)可以不必過(guò)于關(guān)注,會(huì)受到死鏈影響的不是我們網(wǎng)站,而是導(dǎo)出了死鏈的網(wǎng)站。但是有時(shí)候分析看看,總能發(fā)現(xiàn)一些有趣的現(xiàn)象。
比方說(shuō),我現(xiàn)在看到的數(shù)據(jù)的共性是,死鏈鏈接都不完整,要么中間用點(diǎn)號(hào)來(lái)省略了,要么尾部被強(qiáng)行截?cái)嗔恕N覀兇蜷_(kāi)死鏈前鏈,發(fā)現(xiàn)死鏈鏈接是作為明鏈接(無(wú)錨文本)出現(xiàn)在頁(yè)面上。而死鏈前鏈的頁(yè)面,大多數(shù)都類似于搜索引擎結(jié)果頁(yè)面,并且這些結(jié)果頁(yè)面上對(duì)錨鏈接都以nofollow進(jìn)行了控制。
圖注:這些都是垃圾搜索引擎,目的是抓取其他網(wǎng)站的信息為己所用,制造垃圾站群
可以看出,【垃圾鏈接】和【外鏈死鏈】中的大部分,依然也是抱著惡意目的而來(lái)的。這時(shí)候我們可能就需要考慮,使用反爬蟲(chóng)策略,來(lái)禁止一些垃圾搜索引擎對(duì)我們網(wǎng)站進(jìn)行恣意妄為的抓取行為了。(關(guān)于反爬蟲(chóng)策略專題,我將來(lái)也打算嘗試一下)
好啦,這期的內(nèi)容差不多就是這樣,我們來(lái)總結(jié)一下吧。
(1)分析鏈接數(shù)據(jù)的目的:保證搜索引擎對(duì)網(wǎng)站正常抓取和索引;防止被惡意人士利用而受到損失。
(2)分析鏈接數(shù)據(jù)的手段:一些工具,再加上簡(jiǎn)單的邏輯。
(3)養(yǎng)成良好工作習(xí)慣與意識(shí):每天大致關(guān)注一下這些數(shù)據(jù),定期仔細(xì)分析一下數(shù)據(jù),對(duì)這些環(huán)節(jié)有控制地進(jìn)行操作。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!