PCDVD數位科技討論區

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)
-   七嘴八舌異言堂 (https://www.pcdvd.com.tw/forumdisplay.php?f=12)
-   -   搜尋引擎自動去抓網頁的robot是用什麼實作的? (https://www.pcdvd.com.tw/showthread.php?t=698701)

comefish 2007-02-25 04:03 PM

搜尋引擎自動去抓網頁的robot是用什麼實作的?
 
像YAHOO GOOGLE 的ROBBOT都會到各地去抓網頁

搜尋引擎自動去抓網頁的robot是用什麼實作的?

希望能給個方向,謝謝

michelle_lai529 2007-02-25 04:23 PM

不是到各地去抓網頁,而是由ip去拼湊網址,開啟網址後在分析原始碼,找出連結點貨關鍵字...
有點像,ajax使用XMLHTTP去抓取其他頁面的原始碼一樣,重點不再抓取,怎麼有效率的去分析原始碼,建立關鍵字庫,跟分析連結點,進而向下抓取...這個才是最頭痛的

我愛麗子 2007-02-25 06:06 PM

那這個算不算盜連分析呢 ?
就只因為是偉大的股溝
就不算嗎 ?

search engine雖然很方便
不過
讓很多人直接去網站的深層
找到他們要的圖片或資訊
卻不用拜訪首頁
之前好像有一些人很討厭這種行為
會用程式導到首頁
並說 :請勿非法連結本網頁
要不是透過search engine
誰有辦法直接access到這些深層網頁呢 ?

michelle_lai529 2007-02-25 07:33 PM

引用:
作者我愛麗子
那這個算不算盜連分析呢 ?
就只因為是偉大的股溝
就不算嗎 ?

search engine雖然很方便
不過
讓很多人直接去網站的深層
找到他們要的圖片或資訊
卻不用拜訪首頁
之前好像有一些人很討厭這種行為
會用程式導到首頁
並說 :請勿非法連結本網頁
要不是透過search engine
誰有辦法直接access到這些深層網頁呢 ?

其實這種東西本來就是互相嘛,沒有搜尋引擎,誰會知道你的網頁呢
如果真的不希望搜尋引擎分析你的頁面,也可以在頁面裡告知啊,meta旗標就是作這些功用的
<meta name="robots" content="noindex">


所有的時間均為GMT +8。 現在的時間是12:58 PM.

vBulletin Version 3.0.1
powered_by_vbulletin 2025。