本文共 2274 字,大约阅读时间需要 7 分钟。
[Python]网络爬虫总结
本文将对Python网络爬虫进行简要的总结,涵盖了我目前所使用的所有方法。
静态网页
对于静态网页,就不多说了,太简单了。只要用requests库直接把html爬下来,然后用正则表达式匹配即可。但是到了目前互联网发展阶段,已经很少有静态网页了。如果你遇到要爬虫静态网页,那你一定是非常幸福了。
动态网页
动态网页是比较常见的爬虫目标,这里我给出一些比较常见的爬虫方法,仅供参考。
爬取数据包
一般来说,要爬虫的内容都是在格式上具有一定的重复性,但同时数据量又非常大。如果你曾经做过网页开发,你就会明白网页开发者对于这样的数据,一般都会采取从服务器发数据包到前端,在前端解析数据的方式来实现,于是这就给了爬虫者巨大的便利。因为一旦我找到了数据包的请求方式,我就可以仿照前端发送相同的请求,来获得相应的JSON数据。
具体的例子,可见我博客中爬取京东商品评论的文章,对此有详细的介绍。
Selenium
但是,并不是什么时候都能找到数据包发送请求的方式,或者有的时候,网页开发者并没有使用这样的方法。那么,在这种情况下,就需要采取别的方法,这里我认为最简单的方法就是使用Selenium。具体的安装不在此赘述。
举例,假设我希望爬虫雪球网文章的正文部分,有兴趣的朋友可以研究一下这个网站,看看能不能找到正文数据的发送请求。
代码就非常简单了。
import json
import time
from selenium import webdriver
directoryFile = open('./TopLine_directory/directory.json', 'r', encoding='utf-8')
directoryData = json.load(directoryFile)
driver = webdriver.Chrome()
baseUrl = "https://xueqiu.com"
for eachItem in directoryData:
driver.get(baseUrl + eachItem['target'])
title = driver.find_element_by_class_name("status-title").text
info = driver.find_element_by_class_name("status-content").text
f = open('./TopLine_directory/paper/' + title + '.txt', 'w', encoding='utf-8')
print(title + "finished!")
f.write(info)
f.close()
time.sleep(2)
优化
如果很快速地对一个网站进行爬虫,很容易就会被封IP。那么,必须采取有效的方法来避免被封锁。首先我必须强调的是,不管采取什么方法,都应该遵守君子协议,不对网站进行疯狂地访问以增加服务器压力。
其中一个方法,就是控制速度。但是这个方法只能解决一点点问题,因为服务器会很容易地认为这是一个robot,于是对其进行封锁。但是必要的控制速度是对网页开发者的尊重。
另一个网页就是更改IP。但我在实践过程中发现,就算更改IP,服务器还是会对其进行封锁。有可能是我一直采用同样的cookie,导致服务器能够发现robot。但是伪造合适的cookie,似乎不是这么简单的事情,以后我解决了再说吧。
import requests
import random
import re
session = requests.session()
session.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5)'
'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
def random_IP(IP_array):
proxies = {}
index = random.randint(0, len(IP_array) - 1)
proxies['http'] = 'http://' + IP_array[index][0] + ':' + IP_array[index][1]
print(IP_array[index][0])
return proxies
def get_new_IP():
r = session.get('http://www.xicidaili.com/nn')
IP = re.findall(r'
(([0-9]|\.)*)', r.text)IP_array = []
for i in range(len(IP)):
if i % 2 == 0:
IP_array.append([IP[i][0], IP[i + 1][0]])
return IP_array
IP_array = get_new_IP()
while True:
try:
r = session.get('http://ip.chinaz.com/getip.aspx', proxies=random_IP(IP_array))
print(r.text)
except Exception as e:
print(e)
转载地址:http://fucpo.baihongyu.com/