大数据项目实战之数据采集
數(shù)據(jù)源分類(lèi)
數(shù)據(jù)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、數(shù)據(jù)庫(kù)采集
HTTP請(qǐng)求過(guò)程
常見(jiàn)的請(qǐng)求方法分為兩種:GET請(qǐng)求和POST請(qǐng)求。
GET請(qǐng)求:常用于獲取數(shù)據(jù) ??明文發(fā)送數(shù)據(jù)【地址中可見(jiàn)的參數(shù)】不安全
請(qǐng)求地址的URL鏈接
HTTP請(qǐng)求頭是指在超文本傳輸協(xié)議的請(qǐng)求消息中協(xié)議頭部分的組件。可查看教材了解請(qǐng)求頭詳細(xì)介紹。
請(qǐng)求體通常出現(xiàn)在POST請(qǐng)求中,用于存放POST請(qǐng)求中的表單數(shù)據(jù),而對(duì)于GET請(qǐng)求而言,請(qǐng)求體為空。
HTTP響應(yīng)代碼表示服務(wù)器返回給客戶端的響應(yīng)狀態(tài),例如常見(jiàn)的響應(yīng)代碼200代表服務(wù)器正常響應(yīng),404代表頁(yè)面未找到等等。
響應(yīng)頭包含了服務(wù)器對(duì)客戶端請(qǐng)求的應(yīng)答信息,如Content-Type、Server、Set-Cookie等。可查看教材了解響應(yīng)頭詳細(xì)介紹。
響應(yīng)的正文數(shù)據(jù)都在響應(yīng)體中,如HTML代碼、二進(jìn)制數(shù)據(jù)、JSON數(shù)據(jù)等資源。
爬蟲(chóng)部分項(xiàng)目說(shuō)明:
Eclipse EE?+?Maven?3+?+ Hadoop環(huán)境
搭建開(kāi)發(fā)環(huán)境
為了更好的開(kāi)發(fā)項(xiàng)目,可以如下圖所展示的去搭建開(kāi)發(fā)環(huán)境
配置Maven
conf/settings.xml
設(shè)置阿里云遠(yuǎn)程公共倉(cāng)庫(kù)
https://developer.aliyun.com/mvn/guide
<mirror>
??<id>aliyunmaven</id>
??<mirrorOf>*</mirrorOf>
??<name>阿里云公共倉(cāng)庫(kù)</name>
??<url>https://maven.aliyun.com/repository/public</url>
</mirror>
設(shè)置本地倉(cāng)庫(kù)路徑
<localRepository> D:\項(xiàng)目開(kāi)發(fā)環(huán)境\repository </localRepository>
?設(shè)置jkd
<profile> ????
????<id>JDK-1.8</id> ??????
????<activation> ??????
????????<activeByDefault>true</activeByDefault> ??????
????????<jdk>1.8</jdk> ??????
????</activation> ??????
????<properties> ??????
????????<maven.compiler.source>1.8</maven.compiler.source> ??????
????????<maven.compiler.target>1.8</maven.compiler.target> ??????
????????<maven.compiler.compilerVersion>1.8</maven.compiler.compilerVersion> ??????
????</properties> ??????
</profile>
配置eclipse
本項(xiàng)目中小編使用的是eclipse-jee-2021-06-R-win32-x86_64.zip
?
?
?
?
?
編寫(xiě)pom.xml
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
? <modelVersion>4.0.0</modelVersion>
? <groupId>com.csnf.jobcase</groupId>
? <artifactId>jobcase-reptile</artifactId>
? <version>0.0.1-SNAPSHOT</version>
? <dependencies>
? ? <dependency>
? ? ? ? <groupId>org.apache.httpcomponents</groupId>
? ? ? ? <artifactId>httpclient</artifactId>
? ? ? ? <version>4.5.4</version>
? ? ? ? </dependency>
?? ?<dependency>
?? ??? ?<groupId>org.apache.hadoop</groupId>
?? ??? ?<artifactId>hadoop-common</artifactId>
?? ??? ?<version>2.7.4</version>
?? ?</dependency>
?? ?<dependency>
?? ??? ?<groupId>org.apache.hadoop</groupId>
?? ??? ?<artifactId>hadoop-client</artifactId>
?? ??? ?<version>2.7.4</version>
?? ?</dependency>
? ?</dependencies>
</project>
后續(xù)代碼看下篇文章
總結(jié)
以上是生活随笔為你收集整理的大数据项目实战之数据采集的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Java中文乱码处理
- 下一篇: [转载]MVVM、MVVMLight、M