职位描述: 负责开发爬虫系统与数据比对系统,制定抓取规则爬取各大主流内容站点,协助搭建互联网数据库。 具体
工作内容:
1、负责设计和开发分布式网络爬虫系统(含PC/APP/自媒体),进行多平台、多维度信息的抓取和数据库搭建;
2、研究主流平台隐藏信息的抓取规则,参与研究和开发数据的深度挖掘;
3、多维度对比识别关键词、关键图片和视频内容,包含分词抽取、语义分析、特征向量抽取、图片识别与比对、OCR、内容识别与转换、标志物识别、人脸识别、视频特征识别、语音文字转换、地域定向等技术。
1、计算机相关专业,2年及以上爬虫开发经验,熟练使用python,能熟练使用一种或多种数据库如Mysql、MongDB等;
2、熟练掌握PC网页及移动端APP数据抓取原理及正则表达式相关的信息抽取技术;
3、熟练爬虫与反爬技术,能够多渠道抓取文本、视频、图片等格式样本(PC、APP、自媒体、直播等),能独立思考抓取范围,制定抓取流程。
4、有很强的学习能力和技术钻研能力,积极互动,思维灵活。