[分享] 關於搜尋引擎來訪的控制與管理

phpBB-TW Knowledge Base
收集網友們在竹貓所發表的教學主題或文章,以利分享!
(僅供瀏覽,由版主群維護)
回覆文章
Artemas
竹貓忠實會員
竹貓忠實會員
文章: 514
註冊時間: 2003-08-23 03:18
來自: NorthBlue
聯繫:

[分享] 關於搜尋引擎來訪的控制與管理

文章 Artemas »

自己的論壇或網站到底該不該給搜群引擎來訪,或者該怎引導搜尋引擎,或者該怎禁止搜尋引擎來訪
甚至要怎讓搜尋引擎快速更新你的網站,而關鍵字或搜尋排位是怎定義,對很多人的確是一個困惑。

1.決定怎讓搜尋引擎該不該來的第一步:事實上不管你網站規格大或小,搜尋引擎都會利用DNS來查詢漫遊,
這世界上哪裡有網站,所以只要你有網域名稱你就躲不掉!遲早都會被漫遊的機器人所找到,所以在搜尋引擎業界就有個
方式來決定你要不要讓他們到訪,在你的站台根目錄下設置 robots.txt 檔案,內容為:
User-Agent:
Disallow:
或者設置 <META>,例如:

代碼: 選擇全部

如果您只要阻擋漫遊器進入特定的網頁,請在網頁的 HTML 程式碼裏加入如下的 meta 標籤:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

如果您不介意其他的漫遊器,只單單不要 Google,請使用下面的指令:
<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW"> 
以上詳細資料請參閱 http://www.google.com.tw/intl/zh-TW/remove.html
以及META代碼查詢 http://blog.blueshop.com.tw/formosa/articles/1813.aspx 或者 http://www.robotstxt.org/meta.html (英文版)
至於搜尋引擎要不要遵守這協議,目前無法可管,只有看他們自己的道德囉。

2.如何加速讓搜尋引擎盡速到你新網站上來訪:以下用google的sitemap工具來做範例說明
申請一個google帳號,(亦可等同採原你gmail的帳號)登入位置 http://www.google.com/webmasters/sitemaps/?hl=zh-TW
申請好一個帳號之後即可輸入你的網址,然後會給你一組 META 代碼,請你貼上網站<head>內,讓機器人驗證網站是否存在。
驗證完成之後,就會有許多工具可以讓你管理使用,並且可以記錄與驗證 sitemap.xml 在你的站台根目錄下,那麼幾乎會三步五時來訪
sitemap.xml 範例

代碼: 選擇全部

<?xml version="1.0" encoding="UTF-8"?> //Sitemap 檔案必須以 UTF-8 編碼
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84"> //Sitemap 通訊協定版本宣告
<url>
<loc>http://你的網址/</loc> //網址
<lastmod>2008-08-01</lastmod> //Sitemap 建立時間
<changefreq>weekly</changefreq> //需要機器人到訪周期
<priority>0.5</priority> //網站上各網頁的相對重要性。 例如,首頁的相對重要性可能是 1.0,類別網頁的重要性是 0.8,而個別網誌項目或產品網頁的重要性則是 0.5。
</url>
</urlset>
所以從<url>...到..</url>這段可以重複增加,每個網址頁面的周期與重要性,讓機器人去批次處理。

到訪週期值:
* always
* hourly
* daily
* weekly
* monthly
* yearly
* never

其次所有網址URL都是必須實體逸出,例如

代碼: 選擇全部

符號 &  為 &
單引號 ' 為 &apos;
雙引號 " 為 "
大於 > 為 >
小於 < 為 <
你可以到 http://www.sitemaps.org/zh_TW/protocol.php 查詢,或者登入 google 的 sitemap 帳號查詢說明。

3.搜尋引擎的名單排位:依據 google 說明網站上寫 http://www.google.com/intl/zh-TW/corporate/tech.html 技術說明與 http://www.google.com/support/webmaster ... tx=sibling 排位說明。
這是一個很值得探討的問題:網頁的排名以 google 說法是搜群結果頁面中的排位是無關任何交易的,只有關鍵字才會交易,
而關鍵字就是通俗名詞,例如:寵物、食品、補習班、字典、法律、等等。
特有專屬名稱是不太需要購買的,例如:史萊姆、黑師傅、竹貓星球..等等,這些是與他人不會重複的字,
所以絕對會再第一頁出現,除非你業務需求屬性比較廣泛而且競爭大,例如竹貓也能買phpBB或論壇關鍵字!
而關鍵字的廣告,就是當你搜尋通俗字的時候,瀏覽器右邊或上下方出現的其他小視窗廣告,那就是關鍵字廣告。
至於如果你的網站名稱跟他人相同時後,其排位根據我的經驗,就是看誰網站成立最久,那麼誰就是上方!

好!有趣的問題就來了,如果你是位精明的設計架站人員,你計畫成立網站時後,名稱必須很明確且能跟他人區隔當然更好,其次縱使正在設計當中,
你也必須先設計首頁然後架設網站完成,內容單調都無彷,趕緊登記到google sitemap去,先佔時間先機。將來絕對會有幫助!

根據我幫客戶的架設網站的經驗,最近的一個有趣案例,這個客戶以前並沒有自己的網站,所以透過公司的小妹,到處去類似工商網站的黃頁廠商登記,
後來找我設計網站,網站架設好之後,問題來了!雖然公司名稱是特殊的,沒有競爭對手,但是一查結果,前面一堆工商網站的登記紀錄連結,
反而正式網站掉到後面,而公司總可能會換地址、電話、服務窗口、郵件等等。都是錯誤的舊資料,問他之前那些登記的帳號密碼在哪,一概不知!
因為小妹來來去去流動,誰曉得要記錄這些事情。這下可好,天天忙這些跟工商網站協商客訴,滿頭包!

因此強烈建議,若沒必要就別到工商網站登記公司,要登記也一定要記住帳號密碼,其實整體規劃來說,應該是先建置網站,而後去登記其他工商網站,
如此才不會絆倒自己喔!

4.網站名稱與描述的重要性:搜尋引擎依據你網站名稱的方式是內碼中的<title>,而顯示在搜尋引擎標題下短述內容,則第一優先採用你的
<meta name="description" content="敘述內容" />,如果你沒有設置這個description,那麼第二優先是主目錄標題或者論壇大標題內的敘述,
往往很多設計者都忽略 meta description 的重要性,所以常常搜尋到自己網站,內容都是擷取站內部分文字,常常雞同鴨講。
所以你若想搜尋頁面能精確顯示你的網站描述,那麼就要記得寫 meta description 喔。

再舉個名稱例子:假設你的網站類型是餐廳,店名多半人會想用個特殊或優雅名字來設,理論上沒錯,但是網站名稱學問就在這,假設為"阿寶食堂"
你店面招牌或公司登記當然可以沒差,不過網站就不能用食堂這二個字,因為你必須站在搜尋者角度去想,找吃飯想到最快的關鍵字是啥?餐廳嘛!
美食嘛!因此你必須在網站內碼中的<title>取名為阿寶餐廳的美食食堂或阿寶美食餐廳,你必須按照關鍵字的重要性順序去調整你的標題內碼<title>,
當然不能離題誇張喔,不然被查到是會被列入搜尋黑名單的。而後網站內的顯示美工大標題正式寫"阿寶食堂"OK拉!
圖檔
Os: Windows 2003
Constitute: IIS.6 + php4 + MySql 4 + ODBC + phpMyAdmin2.6.0 + phpBB 2.0.23
url: http://oops.cafepark.com

頭像
心靈捕手
默默耕耘的老師
默默耕耘的老師
文章: 8643
註冊時間: 2004-04-30 01:54
來自: Taiwan

拒絕搜尋引擎訪問您的網站之方法

文章 心靈捕手 »

網站根目錄底下, 新建一個文字檔 robots.txt (內容如下).
網站根目錄: http://YOUR_WEBSITE/robots.txt
  • 拒絕所有搜尋引擎訪問您的網站

    代碼: 選擇全部

    User-agent: * 
    Disallow: /
    
  • 只有拒絕 "百度" 搜尋引擎訪問您的網站

    代碼: 選擇全部

    User-agent: Baiduspider
    Disallow: /
    
  • 拒絕所有搜尋引擎訪問您的網站底下四個目錄

    代碼: 選擇全部

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /images/
    Disallow: /mp3/
    Disallow: /phpBB3/
    
  • 只有拒絕 "百度" 搜尋引擎訪問您的網站底下四個目錄

    代碼: 選擇全部

    User-agent: Baiduspider
    Disallow: /cgi-bin/
    Disallow: /images/
    Disallow: /mp3/
    Disallow: /phpBB3/
    
--
參考資料:
http://www.robotstxt.org/
http://www.httpuseragent.org/list/
http://www.baidu.com/search/spider.htm
http://www.baidu.com/search/robots.html

--
P.S.
目前 phpBB 3 已經將多達 50 個搜尋引擎, 預設為 "機器人" 群組;
只要於 ACP 妥善加以設定其風格, 版面權限,..等, 便可有效管理.
施比受有福,歡迎來信賜教,謝謝 & 再見!
祝福您 好運 ^_^
歡迎加入★★心靈捕手★★ :: 討論區!!
http://wang5555.hopto.org/phpBB3/
p.s. 奉老婆之命:在晚上十一點前,得關機睡覺!!!

回覆文章

回到「教學文件庫」