用处
通过自己购买或爬取到的ip,在程序中使用这些ip进行代理,达到绕过反爬虫机制的效果以及其他用途。
思路
从各大免费的ip网站抓取ip,存入数据库,使用时按序取出使用。注:存入及使用前先验证ip是否可用
我们在这里使用 西刺 这里网站里的免费ip,数据库使用mongodb
使用到的库
request
re
json
结构
IpPool
__init__.py
panel
config.py
main.py
Code
init.py
我们在这个文件中写一个爬虫的基类,方便我们拓展不同的网站
config.py
在这里我们放一些参数,方便我们配置程序
mian.py
上面就是这个ip爬取的主要框架,接下来开始接入西刺这个网站,在panel文件夹中新建文件 XICI.py
再回到 main.py 使用process()函数开始爬虫
main.py
ip池的使用
我们可以在使用时先从数据库中将所有 ip 取出,安装队列的形式或者列表随机抽取的形式进行维护,当ip不可用时,从数据库中删除该ip,当出现ip被封时放回队列或者列表。









