职位描述: 上班时间9:30-18:30,周末双休!双休!
岗位职责:
1、负责公司数据源抓取需求,满足公司对多源数据采集要求;
2、负责开发分布式爬虫框架,管理分布式爬虫服务器,开发任务调度引擎;
3、负责爬虫核心算法的策略优化研究,提升爬虫抓取效率和质量,提升网页抓取的效率和质量;
4、设计爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、JS加密等难点攻克;
5、利用主流的大数据相关技术,对抓取后的网页数据进行清洗、存储等;并持续优化平台,以便满足各种爬取业务需求
任职要求。
岗位要求:
1、1年及以上的网络爬虫开发经验,计算机相关专业;
2、熟悉分布式网络爬虫开发;熟悉HTP协议、HTMLpath表达式,css选择器;
3、精通网页抓取原理及技术,精通正则表达式,从结构化的和非结构化的数据中获取信息;
4、有 Python分布式抓取系统的开发、架构经验,至少熟悉并使用过一种主流爬虫架构,如 Scapy、 supeivo, celey等优先;
5、有很强的学习能力和技术钻研能力,积极主动,思维灵活开放,有良好的沟通能力,善于跨团队合作。