【岗位职责】:
1、 负责信息流通用爬虫系统核心模块和功能(包括调度、去重、清洗、过滤等)的
设计、开发和调优, 提升信息流入库效率、稳定性、
数据质量和
自动化程度;
2、负责垂直 app 的
数据抓取和爬取链路优化(包括
android app 反编译、脱壳、加密参数破解、抓取攻防等),提升抓取能力;
3、负责全网页面的理解分析,包括:网页结构化抽取,页面分析识别、页面质量分析等;
4、负责内容开放平台的建设;
5、可以根据自己兴趣和技能特长从上述工作中专攻1-2个方向。
【任职资格】:
1、本科以上学历,计算机相关专业。具有两年以上网络爬虫开发经验;
2、熟悉linux平台,掌握
python/
java或某种编程语言;
3、熟悉基于正则表达式、
css、http协议、ml等的网页信息抽取技术;
4、精通常用的爬虫技术及架构(比如s
crapy),并能快速实现;熟悉反爬虫技术及破解方法;
5、熟悉t
cp/ip、http、https等网络协议,熟悉
web前端,可读懂js/
css/html等代码;
6、熟悉多线程编程、分布式计算,有分布式系统使用经验;
7、具有较强的学习能力和逻辑思维能力,具有钻研精神;