您現在的位置是：首頁 » python編程資訊

資訊內容

深入理解Python分布式爬蟲原理

極客小將2021-01-10-

簡介python視頻教程欄目介紹分布式爬蟲原理。免費推薦：python視頻教程首先，我們先來看看，如果是人正常的行為，是如何獲取網頁內容的。(1)打開瀏覽器，輸入URL，打開源網頁(2)選取我們想要的內容，包括標題，作者，摘要，正文等信息(3)存儲到硬盤中上面的三個過程，映射到技術層面上，其實就是：網絡

python視頻教程欄目介紹分布式爬蟲原理。4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

免費推薦：python視頻教程4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

首先，我們先來看看，如果是人正常的行為，是如何獲取網頁內容的。
4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

(1)打開瀏覽器，輸入URL，打開源網頁
4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

(2)選取我們想要的內容，包括標題，作者，摘要，正文等信息
4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

(3)存儲到硬盤中4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

上面的三個過程，映射到技術層面上，其實就是：網絡請求，抓取結構化數據，數據存儲。
4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

我們使用Python寫一個簡單的程序，實現上面的簡單抓取功能。4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

#!/usr/bin/python #-*- coding: utf-8 -*- ''''' Created on 2014-03-16 @author: Kris ''' import urllib2, re, cookielib def httpCrawler(url): ''''' @summary: 網頁抓取 ''' content = httpRequest(url) title = parseHtml(content) saveData(title) def httpRequest(url): ''''' @summary: 網絡請求 ''' try: ret = None SockFile = None request = urllib2.Request(url) request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)') request.add_header('Pragma', 'no-cache') opener = urllib2.build_opener() SockFile = opener.open(request) ret = SockFile.read() finally: if SockFile: SockFile.close() return ret def parseHtml(html): ''''' @summary: 抓取結構化數據 ''' content = None pattern = '<title>([^<]*?)</title>' temp = re.findall(pattern, html) if temp: content = temp[0] return content def saveData(data): ''''' @summary: 數據存儲 ''' f = open('test', 'wb') f.write(data) f.close() if __name__ == '__main__': url = 'http://www.baidu.com' httpCrawler(url)

看著很簡單，是的，它就是一個爬蟲入門的基礎程序。當然，在實現一個采集過程，無非就是上面的幾個基礎步驟。但是實現一個強大的采集過程，你會遇到下面的問題：
4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

(1)需要帶著cookie信息訪問，比如大多數的社交化軟件，基本上都是需要用戶登錄之后，才能看到有價值的東西，其實很簡單，我們可以使用Python提供的cookielib模塊，實現每次訪問都帶著源網站給的cookie信息去訪問，這樣只要我們成功模擬了登錄，爬蟲處于登錄狀態，那么我們就可以采集到登錄用戶看到的一切信息了。下面是使用cookie對httpRequest()方法的修改：4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

ckjar = cookielib.MozillaCookieJar() cookies = urllib2.HTTPCookieProcessor(ckjar) #定義cookies對象 def httpRequest(url): ''''' @summary: 網絡請求 ''' try: ret = None SockFile = None request = urllib2.Request(url) request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)') request.add_header('Pragma', 'no-cache') opener = urllib2.build_opener(cookies) #傳遞cookies對象 SockFile = opener.open(request) ret = SockFile.read() finally: if SockFile: SockFile.close() return ret

(2)編碼問題。網站目前**多的兩種編碼：utf-8，或者gbk，當我們采集回來源網站編碼和我們數據庫存儲的編碼不一致時，比如，163.com的編碼使用的是gbk，而我們需要存儲的是utf-8編碼的數據，那么我們可以使用Python中提供的encode()和decode()方法進行轉換，比如：4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

content = content.decode('gbk', 'ignore') #將gbk編碼轉為unicode編碼 content = content.encode('utf-8', 'ignore') #將unicode編碼轉為utf-8編碼

中間出現了unicode編碼，我們需要轉為中間編碼unicode，才能向gbk或者utf-8轉換。4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

(3)網頁中標簽不完整，比如有些源代碼中出現了起始標簽，但沒有結束標簽，HTML標簽不完整，就會影響我們抓取結構化數據，我們可以通過Python的BeautifulSoup模塊，先對源代碼進行清洗，再分析獲取內容。4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

(4)某些網站使用JS來生存網頁內容。當我們直接查看源代碼的時候，發現是一堆讓人頭疼的JS代碼。可以使用mozilla、webkit等可以解析瀏覽器的工具包解析js、ajax，雖然速度會稍微慢點。4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

(5)圖片是flash形式存在的。當圖片中的內容是文字或者數字組成的字符，那這個就比較好辦，我們只要利用ocr技術，就能實現自動識別了，但是如果是flash鏈接，我們將整個URL存儲起來了。 4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

(6)一個網頁出現多個網頁結構的情況，這樣我們如果只是一套抓取規則，那肯定不行，所以需要配置多套模擬進行協助配合抓取。4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

(7)應對源網站的監控。抓取別人的東西，畢竟是不太好的事情，所以一般網站都會有針對爬蟲禁止訪問的限制。
一個好的采集系統，應該是，不管我們的目標數據在何處，只要是用戶能夠看到的，我們都能采集回來。所見即所得的無阻攔式采集，無論是否需要登錄的數據都能夠順利采集。大部分有價值的信息，一般都需要登錄才能看到，比如社交網站，為了應對登錄的網站要有模擬用戶登錄的爬蟲系統，才能正常獲取數據。不過社會化網站都希望自己形成一個閉環，不愿意把數據放到站外，這種系統也不會像新聞等內容那么開放的讓人獲取。這些社會化網站大部分會采取一些限制防止機器人爬蟲系統爬取數據，一般一個賬號爬取不了多久就會被檢測出來被禁止訪問了。那是不是我們就不能爬取這些網站的數據呢？肯定不是這樣的，只要社會化網站不關閉網頁訪問，正常人能夠訪問的數據，我們也能訪問。說到底就是模擬人的正常行為操作，專業一點叫“反監控”。4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

源網站一般會有下面幾種限制：
4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

1、一定時間內單個IP訪問次數，一個正常用戶訪問網站，除非是隨意的點著玩，否則不會在一段持續時間內過快訪問一個網站，持續時間也不會太長。這個問題好辦，我們可以采用大量不規則代理IP形成一個代理池，隨機從代理池中選擇代理，模擬訪問。代理IP有兩種，透明代理和匿名代理。4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

2、一定時間內單個賬號訪問次數，如果一個人一天24小時都在訪問一個數據接口，而且速度非常快，那就有可能是機器人了。我們可以采用大量行為正常的賬號，行為正常就是普通人怎么在社交網站上操作，并且單位時間內，訪問URL數目盡量減少，可以在每次訪問中間間隔一段時間，這個時間間隔可以是一個隨機值，即每次訪問完一個URL，隨機隨眠一段時間，再接著訪問下一個URL。
4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

如果能把賬號和IP的訪問策略控制好了，基本就沒什么問題了。當然對方網站也會有運維會調整策略，敵我雙方的一場較量，爬蟲必須要能感知到對方的反監控將會對我們有影響，通知管理員及時處理。其實**理想的是能夠通過機器學習，智能的實現反監控對抗，實現不間斷地抓取。
4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

下面是本人近期正在設計的一個分布式爬蟲架構圖，如圖1所示：4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

純屬拙作，初步思路正在實現，正在搭建服務器和客戶端之間的通信，主要使用了Python的Socket模塊實現服務器端和客戶端的通信。如果有興趣，可以單獨和我聯系，共同探討完成更優的方案。

以上就是深入理解Python分布式爬蟲原理的詳細內容，更多請關注少兒編程網其它相關文章！4NQ少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

上一篇
python為啥運行效率不高

簡介原因：1、python是動態語言；2、python是解釋執行，但是不支持JIT；3、python中一切都是對象，每個對象都需要維護引用計數，增加了額外的工作。4、pythonGIL；5、垃圾回收。當我們提到一門編程語言的效率時：通常有兩層意思，第一是開發效率，這是對程序員而言，完成編碼所需要的時間；

下一篇
PostgreSQL9.5服務不能啟動怎么辦

簡介PostgreSQL9.5服務不能啟動怎么辦檢查及解決方法如下：1、看看服務里的Postgres服務的用戶名、密碼，必須用postres用戶啟動的。2、若是重啟后啟動不了，看看是不是服務設置成了手動，或者是安裝了影子系統3、會不會是安裝的時候，上一次的安裝沒有卸載干凈？4、手動啟動服務試試看，看看系

相關資訊

預約試聽課

已有385人預約都是免費的，你也試試吧...

精品課程

Scratch自學精品課程(45節課)目...

官方教程 10、錄制聲音

官方教程 9、制作音樂

官方教程 8、創作故事

官方教程 7、角色動畫

推薦下載

Scratch 3.29.1 Windows版 Mac...

Scratch 3.26.0 Setup Windows...

Scratch 3.26 Mac版本官方下載...

scratchlink 下載

Scratch 3.23.1 Mac版本官方下...

Scratch 3.23.1 Setup Windows...

Scratch 3.22.0 Mac版本官方下...

Scratch 3.22.0 Setup Windows...

標簽云

Scratch(112) python(56) 少兒編程(44) 藍橋杯(32) 小升初(20) Scratch教材(19) 清華大學出版社(19) 電子學會(17) 等級考試(15) scratch作品(13) 真題(11) 數學(10) 人工智能(10) 算法(9) scratch等級(9) 四級考試(9) 三級考試(9) 電子協會(9) Scratch下載(9) 字典(6)

猜你喜歡

認識Scratch的舞臺

Scratch電子學會等級考試時間和...

Scratch考試將會在近期進行全面...

Scratch編程：培養孩子創新思維...

學Scratch編程的費用一般是多少

Scratch教程：進階課程-打地鼠

Scratch教程：進階課程-打蝙蝠...

scratch教程判斷 if then

Scratch計算三角形面積

Scratch會飛的巫婆

Scratch迷宮游戲設計

国产日韩欧美一区二区三区综合,日本黄色免费在线,国产精品麻豆欧美日韩ww,色综合狠狠操

資訊內容

深入理解Python分布式爬蟲原理

python為啥運行效率不高

PostgreSQL9.5服務不能啟動怎么辦

相關資訊

預約試聽課