2022.05.31 加入,已入驻 728 天。
2022.05.31 加入,已入驻 728 天。
项目简介:编写爬虫程序,想出反爬策略,数据清洗,分表储存,维护代理 IP 池
项目职责:1、瓜子二手车有反爬,需携带 cookie 进行访问. 2、requests 底层没有封装 url 去重的方法,手动实现利用 redis 集合构造 url 去重(注: 如果公司没有 redis,可以利用 python 集台 set 保存请求的 url 再读取 set 中的内容写 入本地文件,后面每次运行程序的时候,再将本地文件中的 url 读取到 set 集合中,可以实 现简易的 url 去重)。 3、选择 md5 加密,尽可能少的占用 redis 内存。 4、请求中加延时,考虑网站能否打开和打开时间问题,一般需要加异常判断、超时、 retry 等减少报错 5 增量式爬虫,将数据保存到数据库对重复的字段对应的数据更新操作。 6、构建 USER-AGENT 池,使用随机代理,随机采用 IP。 7、使用 logging 模块编写监控程序进行爬虫监控,并根据日期定向输出日志到 log 文 件