cassandra使用心得_使用Cassandra和Nutch爬网
cassandra使用心得
因此,您想從互聯網上收集大量數據嗎? 有什么比Cassandra更好的存儲機制? 使用Nutch可以輕松做到這一點。
人們經常在Nutch后面使用Hbase。 這可行,但是如果您是(或想成為)Cassandra商店,則可能不是理想的解決方案。 幸運的是,Nutch 2+使用Gora抽象層訪問其數據存儲機制。 Gora支持Cassandra。 因此,對配置進行一些調整后,您可以使用Nutch將內容直接收集到Cassandra中。
我們將從Nutch 2.1開始……我想直接從源代碼中獲取:
構建之后,您將擁有一個nutch / runtime / local目錄,其中包含要執行的二進制文件。 現在讓我們為Cassandra配置Nutch。
首先,我們需要通過將以下xml元素添加到nutch / conf / nutch-site.xml中來向Nutch添加代理:
<property><name>http.agent.name</name><value>My Nutch Spider</value> </property>接下來,我們需要告訴Nutch使用Gora Cassandra作為其持久性機制。 為此,我們在nutch / conf / nutch-site.xml中添加以下元素:
<property><name>storage.data.store.class</name><value>org.apache.gora.cassandra.store.CassandraStore</value><description>Default class for storing data</description> </property>接下來,我們需要向Gora講述Cassandra。 編輯nutch / conf / gora.properties文件。 注釋掉SQL條目,并取消注釋以下行:
gora.cassandrastore.servers=localhost:9160此外,我們需要為gora-cassandra添加依賴項。 編輯ivy / ivy.xml文件,然后取消注釋以下行:
<dependency org="org.apache.gora" name="gora-cassandra" rev="0.2" conf="*->default" />最后,我們要使用新的配置和附加的依賴項重新生成運行時。 使用以下ant命令執行此操作:
ant runtime現在我們可以運行了!
創建一個名為“ urls”的目錄,其中包含一個名為seed.txt的文件,其中包含以下行:
http://nutch.apache.org/接下來,將conf / regex-urlfilter.txt中的正則表達式url更新為:
+^http://([a-z0-9]*\.)*nutch.apache.org/現在,爬行!
bin/nutch crawl urls -dir crawl -depth 3 -topN 5那將把網頁收獲到卡桑德拉!!
讓我們再看一下數據模型…
您會注意到創建了一個新的鍵空間:webpage。 該鍵空間包含三個表:f,p和sc。
[cqlsh 2.3.0 | Cassandra 1.2.1 | CQL spec 3.0.0 | Thrift protocol 19.35.0] Use HELP for help. cqlsh> describe keyspaces; system webpage druid system_auth system_traces cqlsh> use webpage; cqlsh:webpage> describe tables; f p sc這些表中的每一個都是純鍵值存儲。 要了解它們中的每個,請查看nutch / conf / gora-cassandra-mapping.xml文件。 我在下面添加了一個代碼段:
<field name="baseUrl" family="f" qualifier="bas"/> <field name="status" family="f" qualifier="st"/> <field name="prevFetchTime" family="f" qualifier="pts"/> <field name="fetchTime" family="f" qualifier="ts"/> <field name="fetchInterval" family="f" qualifier="fi"/> <field name="retriesSinceFetch" family="f" qualifier="rsf"/>從該映射文件中,您可以看到它在表中的內容,但是不幸的是,該架構并沒有真正從CQL提示符中進行探索。 (我認為這里還有改進的余地)如果有一個CQL友好模式會很好,但是通過gora可能很難實現。 las,這可能是抽象的代價。
因此,最簡單的方法是使用螺母工具來檢索數據。 您可以使用以下命令提取數據:
runtime/local/bin/nutch readdb -dump data -content完成后,進入數據目錄,您將看到用于提取數據的Hadoop作業的輸出。 然后,我們可以將其用于分析。
我真的希望Nutch為C *使用更好的架構。 如果該數據可立即在C *中使用,那將是很棒的。 如果有人進行了增強,請告訴我!
翻譯自: https://www.javacodegeeks.com/2013/10/crawling-the-web-with-cassandra-and-nutch.html
cassandra使用心得
總結
以上是生活随笔為你收集整理的cassandra使用心得_使用Cassandra和Nutch爬网的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你被公司监控了吗你被公司监控了吗表情包
- 下一篇: 占用内存的Enum.values()方法