當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

cassandra使用心得_使用Cassandra和Nutch爬网

發布時間：2023/12/3 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了 cassandra使用心得_使用Cassandra和Nutch爬网小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

cassandra使用心得

因此，您想從互聯網上收集大量數據嗎？有什么比Cassandra更好的存儲機制？使用Nutch可以輕松做到這一點。

人們經常在Nutch后面使用Hbase。這可行，但是如果您是（或想成為）Cassandra商店，則可能不是理想的解決方案。幸運的是，Nutch 2+使用Gora抽象層訪問其數據存儲機制。 Gora支持Cassandra。因此，對配置進行一些調整后，您可以使用Nutch將內容直接收集到Cassandra中。

我們將從Nutch 2.1開始……我想直接從源代碼中獲取：

$ git clone https://github.com/apache/nutch.git -b 2.1 ... $ ant

構建之后，您將擁有一個nutch / runtime / local目錄，其中包含要執行的二進制文件。現在讓我們為Cassandra配置Nutch。

首先，我們需要通過將以下xml元素添加到nutch / conf / nutch-site.xml中來向Nutch添加代理：

<property><name>http.agent.name</name><value>My Nutch Spider</value> </property>

接下來，我們需要告訴Nutch使用Gora Cassandra作為其持久性機制。為此，我們在nutch / conf / nutch-site.xml中添加以下元素：

<property><name>storage.data.store.class</name><value>org.apache.gora.cassandra.store.CassandraStore</value><description>Default class for storing data</description> </property>

接下來，我們需要向Gora講述Cassandra。編輯nutch / conf / gora.properties文件。注釋掉SQL條目，并取消注釋以下行：

gora.cassandrastore.servers=localhost:9160

此外，我們需要為gora-cassandra添加依賴項。編輯ivy / ivy.xml文件，然后取消注釋以下行：

<dependency org="org.apache.gora" name="gora-cassandra" rev="0.2" conf="*->default" />

最后，我們要使用新的配置和附加的依賴項重新生成運行時。使用以下ant命令執行此操作：

ant runtime

現在我們可以運行了！

創建一個名為“ urls”的目錄，其中包含一個名為seed.txt的文件，其中包含以下行：

http://nutch.apache.org/

接下來，將conf / regex-urlfilter.txt中的正則表達式url更新為：

+^http://([a-z0-9]*\.)*nutch.apache.org/

現在，爬行！

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

那將把網頁收獲到卡桑德拉！！

讓我們再看一下數據模型…

您會注意到創建了一個新的鍵空間：webpage。該鍵空間包含三個表：f，p和sc。

[cqlsh 2.3.0 | Cassandra 1.2.1 | CQL spec 3.0.0 | Thrift protocol 19.35.0] Use HELP for help. cqlsh> describe keyspaces; system webpage druid system_auth system_traces cqlsh> use webpage; cqlsh:webpage> describe tables; f p sc

這些表中的每一個都是純鍵值存儲。要了解它們中的每個，請查看nutch / conf / gora-cassandra-mapping.xml文件。我在下面添加了一個代碼段：

從該映射文件中，您可以看到它在表中的內容，但是不幸的是，該架構并沒有真正從CQL提示符中進行探索。（我認為這里還有改進的余地）如果有一個CQL友好模式會很好，但是通過gora可能很難實現。 las，這可能是抽象的代價。

因此，最簡單的方法是使用螺母工具來檢索數據。您可以使用以下命令提取數據：

runtime/local/bin/nutch readdb -dump data -content

完成后，進入數據目錄，您將看到用于提取數據的Hadoop作業的輸出。然后，我們可以將其用于分析。

我真的希望Nutch為C *使用更好的架構。如果該數據可立即在C *中使用，那將是很棒的。如果有人進行了增強，請告訴我！

參考：在Brian ONeill的Blog博客上，我們的JCG合作伙伴 Brian ONeill 使用Cassandra和Nutch爬網。

翻譯自: https://www.javacodegeeks.com/2013/10/crawling-the-web-with-cassandra-and-nutch.html

cassandra使用心得

總結

以上是生活随笔為你收集整理的cassandra使用心得_使用Cassandra和Nutch爬网的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：你被公司监控了吗你被公司监控了吗表情包
下一篇：占用内存的Enum.values（）方法