當前位置 :SEO動態 >> 百度優化 >> 網站被K后如何讓百度重新收錄
>> SEO動態

網站被K后如何讓百度重新收錄

  每個站長或多或少都會有網站被K的經歷,如何讓百度重新收錄?有很多技巧能讓百度收錄,網友也發布過很多如何讓百度收錄的方法,這邊我用三篇文章來整理下,素材均取自網絡,若有侵權行為請通知刪除。

  廣度優先是指網絡蜘蛛會先抓取起始網頁中鏈接的所有網頁,然后再選擇其中的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式,因為這個方法可以讓網絡蜘蛛并行處理,提高其抓取速度。深度優先是指網絡蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉入下一個起始頁,繼續跟蹤鏈接。這個方法有個優點是網絡蜘蛛在設計的時候比較容易。兩種策略的區別,下圖的說明會更加明確。

  由于不可能抓取所有的網頁,有些網絡蜘蛛對一些不太重要的網站,設置了訪問的層數。例如,在上圖中,A為起始網頁,屬于0層,B、 C、D、E、F屬于第1層,G、H屬于第2層,I屬于第3層。如果網絡蜘蛛設置的訪問層數為2的話,網頁I是不會被訪問到的。這也讓有些網站上一部分網頁能夠在搜索引擎上搜索到,另外一部分不能被搜索到。對于網站設計者來說,扁平化的網站結構設計有助于搜索引擎抓取其更多的網頁。

  網絡蜘蛛在訪問網站網頁的時候,經常會遇到加密數據和網頁權限的問題,有些網頁是需要會員權限才能訪問。當然,網站的所有者可以通過協議讓網絡蜘蛛不去抓取(下小節會介紹),但對于一些出售報告的網站,他們希望搜索引擎能搜索到他們的報告,但又不能完全**的讓搜索者查看,這樣就需要給網絡蜘蛛提供相應的用戶名和密碼。網絡蜘蛛可以通過所給的權限對這些網頁進行網頁抓取,從而提供搜索。而當搜索者點擊查看該網頁的時候,同樣需要搜索者提供相應的權限驗證。

  網站與網絡蜘蛛

  網絡蜘蛛需要抓取網頁,不同于一般的訪問,如果控制不好,則會引起網站服務器負擔過重。今年4月,淘寶就因為雅虎搜索引擎的網絡蜘蛛抓取其數據引起淘寶網服務器的不穩定。網站是否就無法和網絡蜘蛛交流呢?其實不然,有多種方法可以讓網站和網絡蜘蛛進行交流。一方面讓網站管理員了解網絡蜘蛛都來自哪兒,做了些什么,另一方面也告訴網絡蜘蛛哪些網頁不應該抓取,哪些網頁應該更新。

  每個網絡蜘蛛都有自己的名字,在抓取網頁的時候,都會向網站標明自己的身份。網絡蜘蛛在抓取網頁的時候會發送一個請求,這個請求中就有一個字段為User-agent,用于標識此網絡蜘蛛的身份。例如Google網絡蜘蛛的標識為GoogleBot,Baidu網絡蜘蛛的標識為 BaiDuSpider,Yahoo網絡蜘蛛的標識為InktomiSlurp。如果在網站上有訪問日志記錄,網站管理員就能知道,哪些搜索引擎的網絡蜘蛛過來過,什么時候過來的,以及讀了多少數據等等。如果網站管理員發現某個蜘蛛有問題,就通過其標識來和其所有者聯系。下面是博客中)2004年5月15 日的搜索引擎訪問日志:

  網絡蜘蛛進入一個網站,一般會訪問一個特殊的文本文件Robots.txt,這個文件一般放在網站服務器的根目錄下。網站管理員可以通過robots.txt來定義哪些目錄網絡蜘蛛不能訪問,或者哪些目錄對于某些特定的網絡蜘蛛不能訪問。例如有些網站的可執行文件目錄和臨時文件目錄不希望被搜索引擎搜索到,那么網站管理員就可以把這些目錄定義為拒絕訪問目錄。Robots.txt語法很簡單,例如如果對目錄沒有任何限制,可以用以下兩行來描述:

  User-agent:*

  Disallow:

  當然,Robots.txt只是一個協議,如果網絡蜘蛛的設計者不遵循這個協議,網站管理員也無法阻止網絡蜘蛛對于某些頁面的訪問,但一般的網絡蜘蛛都會遵循這些協議,而且網站管理員還可以通過其它方式來拒絕網絡蜘蛛對某些網頁的抓取。

  網絡蜘蛛在下載網頁的時候,會去識別網頁的HTML代碼,在其代碼的部分,會有META標識。通過這些標識,可以告訴網絡蜘蛛本網頁是否需要被抓取,還可以告訴網絡蜘蛛本網頁中的鏈接是否需要被繼續跟蹤。例如:表示本網頁不需要被抓取,但是網頁內的鏈接需要被跟蹤。

  關于Robots.txt的語法和METATag語法,有興趣的讀者查看文獻[4]

  現在一般的網站都希望搜索引擎能更全面的抓取自己網站的網頁,因為這樣可以讓更多的訪問者能通過搜索引擎找到此網站。為了讓本網站的網頁更全面被抓取到,網站管理員可以建立一個網站地圖,即SiteMap。許多網絡蜘蛛會把sitemap.htm文件作為一個網站網頁爬取的入口,網站管理員可以把網站內部所有網頁的鏈接放在這個文件里面,那么網絡蜘蛛可以很方便的把整個網站抓取下來,避免遺漏某些網頁,也會減小對網站服務器的負擔

  內容提取

  搜索引擎建立網頁索引,處理的對象是文本文件。對于網絡蜘蛛來說,抓取下來網頁包括各種格式,包括html、圖片、doc、 pdf、多媒體、動態網頁及其它格式等。這些文件抓取下來后,需要把這些文件中的文本信息提取出來。準確提取這些文檔的信息,一方面對搜索引擎的搜索準確性有重要作用,另一方面對于網絡蜘蛛正確跟蹤其它鏈接有一定影響。

  對于doc、pdf等文檔,這種由專業廠商提供的軟件生成的文檔,廠商都會提供相應的文本提取接口。網絡蜘蛛只需要調用這些插件的接口,就可以輕松的提取文檔中的文本信息和文件其它相關的

作者:沈陽SEO唐朝 微信:1010519812
文章來源:http://www.xgesbw.live/baidu/415.html
[來源:原創] [作者:52chengyi.cn] [日期:14-12-26] [熱度:] [標簽:百度,,,,,,,,,,,]
網站首頁 | 關于我們 | 百度SEO | 谷歌SEO | 英文SEO | SEO報價 | SEO案例 | 百度優化技術 | SEO技術文章 | SEO招聘 | 媒體報道
双色球游戏规则 河南11选5杀号技巧 山东群英会最新开奖号走势图 浙江十一选五走势图表 博远棋牌游戏官网 北京赛车pk10技巧 双色球红球复式投注奖金计算表 中国体育彩票排列三走势图 贵州11选5走势图手机板 财经新闻股票行情查询上证指数绿春环保 影视剧电视台怎么赚钱 重庆幸运农场玩法说明 言情小说赚钱吗 排列三组六普通 福彩复式购买方法 江苏11选5技巧稳赚 卖电器利润赚钱么