岗位职责:
1、负责多平台信息爬取和页面内容的提取分析,负责破解各类反爬机制;
2、负责网页的
数据抓取和爬取链路优化(包括逆向分析、脱壳、加密参数破解、抓取攻防等),提升抓取能力;
3、负责日常业务系统
运营支撑工作(bsp,vsim-
cor e,web 网站,终端系统,业务应用监控系统等),相关
运营支撑工具的开发(
python、go);
4、负责业务
运营支撑系统的部署、发布、变更以及持续优化;针对各系统编写并维护
自动化运维脚本;
任职要求:
1、3年以上
python爬虫经验,本科及以上学历,计算机相关专业,有电商类
数据经验优先;
2、熟练掌握
python语言或
java语言,熟练掌握js语言、有app
数据采集经验者优先;
3、精通
数据采集技术,熟悉http
client/jsoup/xpath/
c ss/正则表达式/验证码加密处理/代理池等网页信息抽取技术,熟悉http底层协议;熟悉mysql、redis、elasti
c sear
ch、
cli
ckhouse等
数据,熟悉linux,mysql,有一定的公有云经验,了解sparksql,spark mllib,s park streaming以及spark graphx,
hadoop、hive等大
数据工具,amazon sagemaker;
4、精通各种反爬技术,并能够通过多种应对策略(如代理池、模拟登录、验证码与滑块的处理、浏览器渲染等)来保证
数据的持续交付;
5、熟悉网页
数据采集原理及技术,熟悉基于
cookie的网站登录原理;