文本搜索
說明:文章內容來源于課程視頻和課程ppt。我只學習了課程沒有做習題。文章不是翻譯,是我對課程的理解。
什么是文本搜索(Text Retrieval)
存在一個文檔集,用戶輸入查詢語句表示查詢需求,搜索引擎返回搜索結果。這個過程一般被稱為信息檢索。但其實信息檢索的范圍更廣泛。信息檢索報告:文本檢索、圖片檢索、視頻檢索等。
TR的特點
1 數據是非結構化的,并且有歧義;
2 查詢語句是有歧義的,是不完整的;
3 返回的結果是與查詢條件相關的
4 TR是一個經驗主義的問題
TR的公式
計算R′(q),得到一個文檔與搜索語句的相關性。計算策略使用文檔排序,而不是文檔選擇。 f(d,q)=?
按照相關度降序排序是基于兩個假設:1對一個用戶來講,文檔之間是獨立的;2 用戶線性方式瀏覽結果的。
文檔排序函數設計思路
1 基于相似度Similarity-based models f(d,q)=similarity(d,q)
Vector space model
2 概率模型(Probabilistic models) f(d,q)=p(R=1|d,q),whereR∈{0,1}
Language model
3 公理化模型(Axiomatic model)
總結
- 上一篇: 第五章数理统计--样本和抽样分布
- 下一篇: Amesim学习——气体混合室仿真