职位描述: 岗位职责:
1.负责数据平台的数据采集与爬取、解析处理、入库及备份等数据日常工作;
2.数据采集工具软件平台的开发、测试工作;
3.负责分析新的数据需求, 完成数据处理的设计(文档)和实现;
4.负责数据的清洗、整理、整合及合并等工作;
5.负责数据处理程序设计框架改善, 数据处理性能优化, 系统数据处理的能力提高;
6.负责和数据架构师、数据挖掘、分析人员协同工作, 完成数据的统计、查询和分析。
岗位要求:
1.3年以上信息采集相关工作经验,熟悉底层,有一定的架构经验及具有大型互联网企业相关经验优先考虑;
2.精通网页抓取原理及技术,精通正则表达式,熟练从结构化和非结构化的数据中获取信息,熟悉Ajax工作原理,具备扎实的数据结构与算法功底;
3.熟悉常用的反爬虫策略,有开发自动化爬虫框架经验、验证码识别技术者,熟悉Mysql/MongoDB/Redis,有过数据库调优和海量数据存储经验优先;
4.有数据处理和清晰经验,了解Hadoop、Spak等大数据框架和流处理技术者优先;
5.理解能力、分析能力强,逻辑思维清晰,条理清楚,具有较强的协调沟通能力,有良好的团队协作意识。