技术关注:搜索引擎经验
生活随笔
收集整理的這篇文章主要介紹了
技术关注:搜索引擎经验
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
[搜索技術] 搜索引擎經驗總結 #
這里是一點我在學習和開發搜索引擎過程中的一點學習和經驗總結,文中講述了蜘蛛、切詞、索引、查詢器等名模塊的一些概述和細節,希望能給搜索引擎中的初學點的一點幫助,對于那些高手也能夠帶來一點點啟發的幫助!這是我在2004年學習和開發搜索引擎相關東西時的一點總結,可能比較膚淺,最近還是一直在搞這方面的研究,相對于這篇文章又有了一些新的總結,等以后有時間再寫一篇和大家分享! [ajax] Build an Anthem.NET [AJAX] Autosuggest Textbox #
he new ATLAS framework has an Autosuggest feature built in, but in this article I will focus on the Anthem.NET framework, reworking some very nice code that was originally submitted to the Anthem.NET Sourceforge repository as a suggested patch by J.C. Murphy. I've changed around the offering in order to make it more 'self - contained' and moved a lot of brand new data access code and related properties directly into the control. The sample control is presented here in both ASP.NET 1.1 and ASP.NET 2.0 versions, along with the entire source tree so that interested users can look at everything in Anthem.NET. [.NET開發; 搜索技術; Lucene] DotLucene (Lucene.NET) + KStemmer + Searcharoo = great! #
The overall search engine is composed of three parts:1. A site crawler: In the past, I've built search engines that utilites the raw data inside our CMS, but a crawler seems to work better when you have a fair amount of dymaic content. I found a nice crawler in Searcharoo. It's a full search engine by itself, but since I wanted to use Lucene, I only used the crawler portion Searcharoo.2. An indexer: This is where Lucene.NET (or DotLucene) comes in. When Searharoo downloads a page, the text is sent to Lucene to index.3. A Stemmer: Lucene does a great job of indexing and searching, but it doesn't natively have the ability to search for derivatives of a stem word. For example, if a user seraches for 'tests', Lucene doesn't by default figure out the stem ('test' removing the plural 's') and then search for all words based on the stem ('test' 'testing' or 'tested'). But there is a port of KStemmer which handles all the stemming automagically handles stemming. Example http://www05.dts.edu/search/?q=tests [人物; 微軟] 看蓋茨大叔是如何工作的 #
蓋茨大叔可能是世界上最忙的人了吧(有人反對么?)對于大忙人來說,如何安排協調工作,實在太重要了。CNN 的 Money 頻道搞了一個“How I work”欄目,定期邀請一些 BOSS 級的人物分享他們的工作技巧。4月4號,輪到Bill Gates 了。 [搜索技術; PDF] dotnet環境下從PDF文檔中抽取Text文本的一些方法匯總 #
dotnet環境下從PDF文檔中抽取Text文本的一些方法匯總 [CDN; VeryCD] 自建CDN服務 #
DNS服務器可以用bind9來建,Cache則可以選squid。這2個都是linx平臺下的開源軟件,高效、免費,國內收費的CDN服務基本上也是依賴這2個軟件。可惜的是linux平臺相對復雜,而且之前中文文檔太少,普通用戶要架設起一套自己的CDN服務器還是非常麻煩。好在聲仔已經把bind9的安裝說明以及區分電信網通用戶解決方案整理過了,甚至還提供了免費的dnspod服務,直接免去了自己架設DNS服務器的苦惱。Cache服務器所要用到的squid,基本原理是用它做反向代理。可以Google一下,也可以參考我的書簽,不過相關的文檔都已經較老,且沒有大并發、大流量下的實踐,對配置的敘述也較簡單。回頭我會把VeryCD使用squid以來的經驗進行總結,并公布我們所使用的squid.conf參數,希望能夠對大家有所幫助。 [.NET開發] 真正的取真實IP地址及利弊 #
現在越來越多的網站使用了代理加速方式,比如 新浪、SOHU的新聞 都使用Squid做代理方式,利用多臺服務器分流。Squid本身類似透明代理,會發送“HTTP_X_FORWARDED_FOR” ,HTTP_X_FORWARDED_FOR 中包括客戶的IP地址,如果此時客戶已經使用了一層透明代理,那么程序取的 “HTTP_X_FORWARDED_FOR” 就包括兩個IP地址。(我遇到過3個IP地址的情況,4個的未遇到過)所以取“真正”IP地址的方式,還應該判斷 “HTTP_X_FORWARDED_FOR” 中是否有“,”逗號,或者長度是否超長 [web2.0] Web 2.0 編程思想 #
當然,Web 2.0是一個極其廣泛和深奧的話題,沒有一個人能夠列舉出它的所有重點和特征。如果你對此充滿了興趣,請花一點時間來補充我沒有提到的地方。我想這就是Web 2.0的參與性吧! [.NET開發] 投票機的實現及相關技術(一) #
這里只是簡單的說明了一個基本的投票機的原理,如果有足夠的資源,而且不能使用代理的時候,就可以使用自動切IP(要求你有足夠多的合法IP資源)和ADSL自動斷線重撥(要求你有足夠多的ADSL)。下一篇文章將說明如何切IP和ADSL自動斷線重撥。 [.NET開發; iTextSharp; PDF] PDFToText with ITextSharp #
ITextSharp can be used to extract text from PDF files. The advantage over PDFBox C# version is the smaller size of the ITextSharp and the pure C# implementation This text extraction class is based on the algorithm in C from http://www.codeproject.com/cpp/ExtractPDFText.asp [軟件] 中外流氓軟件大比拼 #
在國內叫停流氓軟件,政府怕事、企業心虛。我們只有團結起來,將流氓軟件的內幕曝光,才能讓用戶不再吃虧。我們不用限令也不要期望流氓軟件能改邪歸正,但愿這些所謂的伎倆能曝光于天下,讓我們遠離它,BS他。 [搜索技術; Google; 數學] 數學之美 #
首先成功利用數學方法解決自然語言處理問題的是語音和語言處理大師賈里尼克 (Fred Jelinek)。當時賈里尼克在 IBM 公司做學術休假 (Sabbatical Leave),領導了一批杰出的科學家利用大型計算機來處理人類語言問題。統計語言模型就是在那個時候提出的。 專注于企業信息化,最近對股票數據分析較為感興趣,可免費分享股票個股主力資金實時變化趨勢分析工具,股票交流QQ群:457394862
本文轉自滄海-重慶博客園博客,原文鏈接:http://www.cnblogs.com/omygod/archive/2006/11/08/554530.html,如需轉載請自行聯系原作者
這里是一點我在學習和開發搜索引擎過程中的一點學習和經驗總結,文中講述了蜘蛛、切詞、索引、查詢器等名模塊的一些概述和細節,希望能給搜索引擎中的初學點的一點幫助,對于那些高手也能夠帶來一點點啟發的幫助!這是我在2004年學習和開發搜索引擎相關東西時的一點總結,可能比較膚淺,最近還是一直在搞這方面的研究,相對于這篇文章又有了一些新的總結,等以后有時間再寫一篇和大家分享! [ajax] Build an Anthem.NET [AJAX] Autosuggest Textbox #
he new ATLAS framework has an Autosuggest feature built in, but in this article I will focus on the Anthem.NET framework, reworking some very nice code that was originally submitted to the Anthem.NET Sourceforge repository as a suggested patch by J.C. Murphy. I've changed around the offering in order to make it more 'self - contained' and moved a lot of brand new data access code and related properties directly into the control. The sample control is presented here in both ASP.NET 1.1 and ASP.NET 2.0 versions, along with the entire source tree so that interested users can look at everything in Anthem.NET. [.NET開發; 搜索技術; Lucene] DotLucene (Lucene.NET) + KStemmer + Searcharoo = great! #
The overall search engine is composed of three parts:1. A site crawler: In the past, I've built search engines that utilites the raw data inside our CMS, but a crawler seems to work better when you have a fair amount of dymaic content. I found a nice crawler in Searcharoo. It's a full search engine by itself, but since I wanted to use Lucene, I only used the crawler portion Searcharoo.2. An indexer: This is where Lucene.NET (or DotLucene) comes in. When Searharoo downloads a page, the text is sent to Lucene to index.3. A Stemmer: Lucene does a great job of indexing and searching, but it doesn't natively have the ability to search for derivatives of a stem word. For example, if a user seraches for 'tests', Lucene doesn't by default figure out the stem ('test' removing the plural 's') and then search for all words based on the stem ('test' 'testing' or 'tested'). But there is a port of KStemmer which handles all the stemming automagically handles stemming. Example http://www05.dts.edu/search/?q=tests [人物; 微軟] 看蓋茨大叔是如何工作的 #
蓋茨大叔可能是世界上最忙的人了吧(有人反對么?)對于大忙人來說,如何安排協調工作,實在太重要了。CNN 的 Money 頻道搞了一個“How I work”欄目,定期邀請一些 BOSS 級的人物分享他們的工作技巧。4月4號,輪到Bill Gates 了。 [搜索技術; PDF] dotnet環境下從PDF文檔中抽取Text文本的一些方法匯總 #
dotnet環境下從PDF文檔中抽取Text文本的一些方法匯總 [CDN; VeryCD] 自建CDN服務 #
DNS服務器可以用bind9來建,Cache則可以選squid。這2個都是linx平臺下的開源軟件,高效、免費,國內收費的CDN服務基本上也是依賴這2個軟件。可惜的是linux平臺相對復雜,而且之前中文文檔太少,普通用戶要架設起一套自己的CDN服務器還是非常麻煩。好在聲仔已經把bind9的安裝說明以及區分電信網通用戶解決方案整理過了,甚至還提供了免費的dnspod服務,直接免去了自己架設DNS服務器的苦惱。Cache服務器所要用到的squid,基本原理是用它做反向代理。可以Google一下,也可以參考我的書簽,不過相關的文檔都已經較老,且沒有大并發、大流量下的實踐,對配置的敘述也較簡單。回頭我會把VeryCD使用squid以來的經驗進行總結,并公布我們所使用的squid.conf參數,希望能夠對大家有所幫助。 [.NET開發] 真正的取真實IP地址及利弊 #
現在越來越多的網站使用了代理加速方式,比如 新浪、SOHU的新聞 都使用Squid做代理方式,利用多臺服務器分流。Squid本身類似透明代理,會發送“HTTP_X_FORWARDED_FOR” ,HTTP_X_FORWARDED_FOR 中包括客戶的IP地址,如果此時客戶已經使用了一層透明代理,那么程序取的 “HTTP_X_FORWARDED_FOR” 就包括兩個IP地址。(我遇到過3個IP地址的情況,4個的未遇到過)所以取“真正”IP地址的方式,還應該判斷 “HTTP_X_FORWARDED_FOR” 中是否有“,”逗號,或者長度是否超長 [web2.0] Web 2.0 編程思想 #
當然,Web 2.0是一個極其廣泛和深奧的話題,沒有一個人能夠列舉出它的所有重點和特征。如果你對此充滿了興趣,請花一點時間來補充我沒有提到的地方。我想這就是Web 2.0的參與性吧! [.NET開發] 投票機的實現及相關技術(一) #
這里只是簡單的說明了一個基本的投票機的原理,如果有足夠的資源,而且不能使用代理的時候,就可以使用自動切IP(要求你有足夠多的合法IP資源)和ADSL自動斷線重撥(要求你有足夠多的ADSL)。下一篇文章將說明如何切IP和ADSL自動斷線重撥。 [.NET開發; iTextSharp; PDF] PDFToText with ITextSharp #
ITextSharp can be used to extract text from PDF files. The advantage over PDFBox C# version is the smaller size of the ITextSharp and the pure C# implementation This text extraction class is based on the algorithm in C from http://www.codeproject.com/cpp/ExtractPDFText.asp [軟件] 中外流氓軟件大比拼 #
在國內叫停流氓軟件,政府怕事、企業心虛。我們只有團結起來,將流氓軟件的內幕曝光,才能讓用戶不再吃虧。我們不用限令也不要期望流氓軟件能改邪歸正,但愿這些所謂的伎倆能曝光于天下,讓我們遠離它,BS他。 [搜索技術; Google; 數學] 數學之美 #
首先成功利用數學方法解決自然語言處理問題的是語音和語言處理大師賈里尼克 (Fred Jelinek)。當時賈里尼克在 IBM 公司做學術休假 (Sabbatical Leave),領導了一批杰出的科學家利用大型計算機來處理人類語言問題。統計語言模型就是在那個時候提出的。 專注于企業信息化,最近對股票數據分析較為感興趣,可免費分享股票個股主力資金實時變化趨勢分析工具,股票交流QQ群:457394862
本文轉自滄海-重慶博客園博客,原文鏈接:http://www.cnblogs.com/omygod/archive/2006/11/08/554530.html,如需轉載請自行聯系原作者
總結
以上是生活随笔為你收集整理的技术关注:搜索引擎经验的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HDU 1724 Ellipse ——S
- 下一篇: 推荐一个SAM文件中flag含义解释工具