跨境電商必知的搜索引擎運行機理
搜索引擎(search engine)是指根據(jù)一定的策略,運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索的相關(guān)信息展示給用戶的系統(tǒng)。
一個搜索引擎由搜索器、索引器、檢索器和用戶接口四個部分組成。
搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息;索引器的功能是理解搜索器所搜索的信息,從中抽取索引項,用于表示文檔以及生成文檔庫的索引表;檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制;用戶接口的作用是輸人用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。
搜索引擎的運行機理:由于互聯(lián)網(wǎng)上的信息資源紛繁復(fù)雜,而用戶對信息的需求又具有特定性,為了能從成千上萬個網(wǎng)站中快速有效地查詢到所需要的信息,用戶可以通過搜索引擎對自己所需要的信息進行搜索定位,發(fā)現(xiàn)所需信息所在的站點,然后再去該站點查找所需要的資料。
搜索引擎的運行機理主要包括收錄頁面、分析頁面、排序頁面和查詢關(guān)鍵詞四個方面的內(nèi)容。
1.收錄頁面收錄頁面是指搜索引擎通過自動化的檢索程序按照一定的規(guī)則在互聯(lián)網(wǎng)上抓取相關(guān)頁面,然后將頁面儲存在相關(guān)數(shù)據(jù)庫中的過程,它是搜索引擎開展各項工作的基礎(chǔ)。
2.分析頁面搜索引擎在收錄頁面的基礎(chǔ)上,按照一定的要求對收錄的原始頁面建立索引,實現(xiàn)對收錄頁面的定位,然后提取和分析收錄頁面的正文信息,得到關(guān)鍵詞,并為之建立索引,從而形成頁面與關(guān)鍵詞之間的對應(yīng)關(guān)系,最后搜索引擎對關(guān)鍵詞進行重組,最終形成關(guān)鍵詞與頁面間對應(yīng)關(guān)系的反向列表,從而能夠根據(jù)關(guān)鍵詞快速鏈接到相應(yīng)的頁面。
3.排序頁面搜索引擎結(jié)合頁面的內(nèi)外部因素(網(wǎng)頁地址、編碼類型、頁面內(nèi)容包括的關(guān)鍵詞及位置、生成時間、網(wǎng)頁大小、與其他網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法計算出頁面與某個關(guān)鍵詞的相關(guān)程度,并按照相關(guān)度數(shù)值對頁面進行排序,形成與該關(guān)鍵詞相關(guān)的頁面排序列表。
4.查詢關(guān)鍵詞搜索引擎在接收到用戶的查詢請求后,開始對查詢信息進行切詞,并與收錄頁面的關(guān)鍵詞進行匹配,再將搜索到的含有鏈接地址、內(nèi)容摘要等內(nèi)容的頁面排序列表返回給那用戶。
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。