甜薪工场甜薪工场
甜薪工场
工作者接单雇主招人
查看供给方

瓜子二手车

Python爬虫2021.09 ~ 2022.03

项目简介:编写爬虫程序,想出反爬策略,数据清洗,分表储存,维护代理 IP 池

项目职责:1、瓜子二手车有反爬,需携带 cookie 进行访问. 2、requests 底层没有封装 url 去重的方法,手动实现利用 redis 集合构造 url 去重(注: 如果公司没有 redis,可以利用 python 集台 set 保存请求的 url 再读取 set 中的内容写 入本地文件,后面每次运行程序的时候,再将本地文件中的 url 读取到 set 集合中,可以实 现简易的 url 去重)。 3、选择 md5 加密,尽可能少的占用 redis 内存。 4、请求中加延时,考虑网站能否打开和打开时间问题,一般需要加异常判断、超时、 retry 等减少报错 5 增量式爬虫,将数据保存到数据库对重复的字段对应的数据更新操作。 6、构建 USER-AGENT 池,使用随机代理,随机采用 IP。 7、使用 logging 模块编写监控程序进行爬虫监控,并根据日期定向输出日志到 log 文 件

其他项目

新闻网站教育类新闻资讯爬取的分布式实现
项目职责:责任描述 1,根据需要爬取的数据进行需求分析,分析目标网站的网站结构和一些反爬手段,通过 requests,scrapy-redis,xpath等技术手段编写爬虫程序进行内容抓取 2,想出反爬策略,处理登录,使用代理IP,携带cookie 3,采用scrapy-redis分布式框架实现爬虫集群,分布式使用Redis实现 4,存储Request请求和指纹集合,并且对各个Slave端爬虫实现集中管理和控制 5,利用Redis的高并发和1/0读写来实现高速下载 6,采用MongoDB做为本地数据库,将资讯新闻按所属大类,子类以及标题和内容,保存 在MongoDB中5同时每次下载前会检查请求指纹,防止重复下载,避免资源浪费 个人简历求职意向:测试工程师 项目经验
查看详情
牛客网各类试题爬取
Python爬虫
2019.12 ~ 2020.05
项目简介:公司新项目平台上需要大量的计算机编程试题,以提供给老师布置作业、及学生练习,方 便老师根据上课的内容给学生打分
项目职责:1、根据需要爬取的试题进行需求分析,该网站是需要线做题才能看到答案,而且抽取题 目时有去除已完成选项,所以需要利用 selenium 来实现。 2、携带新的牛客网账号来爬取,增加代理池,避免限制访问。 3、对每一次爬取的试题及答案进行数据清洗,将有格式问题的题目剔除。 4、最后将试题按照提前规定的格式保存到表格,方便开发人员将所有试题导入到数据库。
查看详情
酒店平台(携程酒店,同程酒店,代理同酒店,甩房宝酒店)
Python爬虫
2020.12 ~ 2021.03
项目简介:根据业务需求,利用 selenium 模拟登录,爬取各类酒店网站的预定订单、 离店订单。
项目职责:1、爬取携程酒店的预定订单、昨日离店订单。 2、构建 USER-AGENT 池,使用随机代理,随机采用 IP。 3、去除 selenium 的重要特征,避免被检测为爬虫(反反爬)。 4、利用模拟鼠标滑动过登录滑块验证和利用超级鹰解决文字顺序点击验证。 5、数据清洗、对接 API,将清洗后的数据通过 API 上传数据到数据库。 6、使用 logging 模块编写监控程序进行爬虫监控,根据日期定向输出日志到 log 文件, 并通过邮件进行通知。
查看详情

相关职位

我擅长提供高品质的服务内容

全栈工程师
¥ 5,000/月