为什么用python写爬虫_python-做爬虫,如何避免牢狱之灾
隨著數(shù)據(jù)資源的爆炸式增長(zhǎng),網(wǎng)絡(luò)爬蟲(chóng)的應(yīng)用場(chǎng)景和商業(yè)模式變得更加廣泛和多樣,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)為數(shù)據(jù)收集者提供了極大的便利,也給專業(yè)網(wǎng)絡(luò)爬蟲(chóng)公司帶來(lái)巨大的收益。但是與之相伴的是許多人好奇的一件事——爬蟲(chóng)是否違法?
關(guān)于這個(gè)問(wèn)題,一直都是比較難定性的,因?yàn)榕老x(chóng)本身只是個(gè)工具,就和菜刀一樣,所以很多人都拿"菜刀無(wú)罪論"、"技術(shù)無(wú)罪論"來(lái)為爬蟲(chóng)辯護(hù)。那么,爬蟲(chóng)到底犯不犯法?作為一個(gè)程序員,如何避免這些坑呢?本文就為大家介紹一下程序員怎么跳出這些坑。
基本可以確定的是,如果爬蟲(chóng)使用不當(dāng),那么爬蟲(chóng)的開(kāi)發(fā)者是有可能觸犯法律的,而根據(jù)情況不同,獲得的刑罰也有可能有差異。要看開(kāi)發(fā)和使用爬蟲(chóng)是否犯法,需要從爬什么數(shù)據(jù)、如何爬取數(shù)據(jù)以及爬到數(shù)據(jù)之后怎么用三個(gè)方面來(lái)判斷。接下來(lái)就簡(jiǎn)單分析一下:
一、爬什么數(shù)據(jù)犯法?
1、高度敏感信息,包括四種信息:行蹤軌跡信息、通信內(nèi)容、 征信信息、財(cái)產(chǎn)信息。涉及高度敏感信息的違法活動(dòng),由于定罪門檻最低,因此嚴(yán)格限制在此四類,不做任何擴(kuò)展;
2、敏感信息, 即住宿信息、通信記錄、健康生理信息、交易信息等其他可能影響人身、財(cái)產(chǎn)安全的公民個(gè)人信息。與第一類相比較,《解釋》對(duì)第二類信息的界定仍留有空間, 意味著在司法實(shí)踐中,仍有可能會(huì)出現(xiàn)目前所列舉之外的第二類信息類型;
3、其他個(gè)人信息。即上述第二、三類以外的個(gè)人信息。個(gè)人信息的類型是定罪量刑的重要依據(jù)。越敏感信息,達(dá)到定罪1 ]檻的信息數(shù)量越少。
二、怎么爬犯法?
如果是爬取公開(kāi)的數(shù)據(jù),通常不會(huì)被認(rèn)為是侵權(quán)。Google、百度等搜索引擎都是這么爬取的。那么,到底怎么爬數(shù)據(jù)是有可能觸犯法律的呢,主要考慮是否涉及以下兩種行為:
未遵守Robots協(xié)議
Robots協(xié)議(也稱為爬蟲(chóng)協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過(guò)Robots協(xié)議告訴爬蟲(chóng)哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。
如何查看采集的內(nèi)容是的有rebots協(xié)議?其實(shí)方法很簡(jiǎn)單。你想查看的話就在IE上打http://你的網(wǎng)址/robots.txt要是說(shuō)查看分析robots的話有專業(yè)的相關(guān)工具 站長(zhǎng)工具就可以!
繞過(guò)防護(hù)措施對(duì)數(shù)據(jù)的訪問(wèn),強(qiáng)行突破反爬措施
由于爬蟲(chóng)的批量訪問(wèn)會(huì)給網(wǎng)站帶來(lái)巨大的壓力和負(fù)擔(dān),因此許多網(wǎng)站經(jīng)營(yíng)者會(huì)采取技術(shù)手段,以阻止爬蟲(chóng)批量獲取自己網(wǎng)站信息。企圖通過(guò)技術(shù)手段,繞過(guò)網(wǎng)站的反爬機(jī)制,都屬于《刑法》中規(guī)定的"侵入",都是要被處罰的。
三、怎么用犯法?
比如通過(guò)爬蟲(chóng)抓取到的數(shù)據(jù)進(jìn)行盈利、損害他人利益、造假、誹謗等都是可能觸犯法律的。此外,未經(jīng)被收集者同意,即使是將合法收集的公民個(gè)人信息向他人提供的,也屬于刑法第二百五十三條之一規(guī)定的“提供公民個(gè)人信息”,可能構(gòu)成犯罪。
總結(jié)
作為程序員,我們手里的技術(shù)就是工具,那么,我們有責(zé)任也有義務(wù)來(lái)保證我們的工具是用在正途的。最后,技術(shù)無(wú)罪、人會(huì)犯錯(cuò)、知錯(cuò)能改、善莫大焉。
總結(jié)
以上是生活随笔為你收集整理的为什么用python写爬虫_python-做爬虫,如何避免牢狱之灾的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Arcpy计算字段
- 下一篇: C语言正函数nosign,C语言标准库函