編寫 Robots.txt 文件的快速指南

如何查閱一本厚厚的教科書? 篩選索引。 嗯:有一個元素是您網站的真正摘要......

Robots.txt:編程代碼必然會變得越來越複雜
編程代碼將變得越來越複雜

與搜索引擎蜘蛛取得聯繫的唯一方法,或者 履帶,是通過一個名為 robots.txt的。 或更好。 當您向 Google 提交網站提案時,它會面臨海量的信息。

你如何查閱一本如此大的教科書,以至於你感覺永遠找不到你需要的一切? 您諮詢 線索。 好吧:robots.txt 文件是您網站的索引。

這是一個易於填寫的文檔,它告訴搜索引擎爬蟲要尋找什麼。 簡而言之:您將幫助他了解您的網站是由什麼組成的,以便算法可以為您提供與您所做的工作相符的排名。

任何人都可以編寫 robots.txt 文件嗎?

簡短的回答是肯定的。 誠實的答案是否定的。 儘管robots.txt文件的語法極其簡單,並且其組成也只有幾行,但最好還是依靠知道該把手放在哪裡的專家網站管理員的照顧。 畢竟,一個小錯誤就足以損害您網站的定位,從而使所有 SEO 操作在開始之前就停止。

在開始之前,請先了解一件事: 任何人都可以通過在域名後寫入 /robots.txt 來查閱任何網站的 robots.txt 文件。 你甚至可以諮詢谷歌!

您無需下載特殊軟件即可編寫這樣的文件。 事實上,使用記事本並以 .txt 格式保存(你猜怎麼著)就足夠了。

我們一起寫一個robots.txt: header

讓我們從頭開始,因為這樣做總是合乎邏輯的。 文件的打開,或者更確切地說是標題,完全專用於蜘蛛的名稱,前面有一個始終相同的小文字。 假設您希望引起 Google 的注意。 所以第一行是:

用戶代理:Googlebot

這個非常短的字符串告訴 Google,接下來的所有內容肯定會對其感興趣。 如果您希望所有讀取此類文件的抓取工具都能夠查閱該文檔,請將 Googlebot 替換為簡單的 *、a 星號.

現在您已經指出了哪個蜘蛛,即 WHO,您需要指出 還有他必須讀的內容.

根據定義,每一行代碼都對應於機器的一個動作。 不用說,robots.txt 文件中的每個命令都對應於機器不應該執行的操作。 這是讓你寫出真正有效的文章的關鍵。 我們正在討論 DISALLOW 命令。

什麼是 DISALLOW 命令?

Il 禁止命令 允許您通過排除進行推理。 換句話說,當說首先要說不應該做什麼時——好吧,你是在排除推理。 除了禁止之外,還有允許,這是塊的例外。

如果你想編寫一個好的機器人文件,你就必須反過來思考,所以你必須告訴谷歌它不應該讀取什麼。 如果你寫:

禁止:

蜘蛛將讀取您的整個網站,沒有任何制動。

如果在“Disallow:”之後插入斜杠(因此Disallow: /),該網站將不會進入搜索引擎,句號。

禁止:/目錄/

將單詞目錄替換為您想要從蜘蛛視圖中拒絕的文件夾。 您可以對特定文件執行相同的操作。

禁止:/myfile.html

注意 標點符號和字母,大寫或小寫。 這種類型的文件非常重視這些“小事”,但它們卻有很大的不同。

您為什麼要阻止 Google 閱讀您網站的大部分內容? 當您編寫這種類型的文件時,重要的是要了解哪些文件不應出現在搜索引擎上,但又不能濫用它們。 但是,請注意,任何知道該特定文件的確切地址的人在任何情況下都可以訪問它。

什麼是允許命令?

在文件中,您可以使用以下命令添加例外 允許。 語法是相同的,但它將創建一些 DISALLOW 的例外,這將為蜘蛛開闢有趣的探索空間。

一個小樣本文件:

用戶代理:Googlebot

禁止:/圖像/

允許:/images/holidays.jpg

基本上,我們告訴 Googlebot 不要考慮圖像文件夾,除了其中的一張特定照片,即假期中的照片。

伙計們,就是這樣。 我們編寫了第一個 robots.txt 文件。 當然,我們要為實際站點做的事情可能會略有不同,但差別不大。 如有疑問,請務必向專業網站管理員尋求建議。 我們建議您首先嘗試自己編寫,然後發送給他檢查,以便掌握基本知識並更好地了解您的網站是如何工作的。

robots.txt 和站點地圖之間有什麼關聯?

站點地圖是由特殊插件生成的文件,其中包含站點上的所有鏈接。 當蜘蛛進入站點時,它首先讀取機器人,然後爬行該站點。 如果在抓取過程中機器人找到了站點地圖地址,整個過程就會容易得多。

在上面的代碼中添加以下內容:

網站地圖: http://www.ilnomedeltuositobellissimo.com/sitemap.xml

結論

所有機器人文件都是相同的。 這意味著為 Google 編寫的 Robots 文件也適用於 Bing,並且遵循相同的語法。

組織良好的 robots.txt 文件允許您 節省爬蟲時間。 不要灰心:這是邁向成功的第一步!

Robots.txt:Google 是互聯網上最強大的搜索引擎
谷歌是互聯網上最強大的搜索引擎