2022.05.31 加入,已入驻 730 天。
2022.05.31 加入,已入驻 730 天。
项目职责:责任描述 1,根据需要爬取的数据进行需求分析,分析目标网站的网站结构和一些反爬手段,通过 requests,scrapy-redis,xpath等技术手段编写爬虫程序进行内容抓取 2,想出反爬策略,处理登录,使用代理IP,携带cookie 3,采用scrapy-redis分布式框架实现爬虫集群,分布式使用Redis实现 4,存储Request请求和指纹集合,并且对各个Slave端爬虫实现集中管理和控制 5,利用Redis的高并发和1/0读写来实现高速下载 6,采用MongoDB做为本地数据库,将资讯新闻按所属大类,子类以及标题和内容,保存 在MongoDB中5同时每次下载前会检查请求指纹,防止重复下载,避免资源浪费 个人简历求职意向:测试工程师 项目经验