岗位职责:
1.数据抓取与采集:负责对指定网站、APP的公开数据进行抓取和采集,确保数据的准确性和时效性。
2.数据处理与清洗:对抓取到的原始数据进行清洗、去重、解析和格式化处理,确保数据的准确性和可用性。
3.爬虫维护与优化:监控现有爬虫任务的运行状态,及时处理因网站反爬策略变动导致的爬虫异常,并优化爬虫策略以提高效率和稳定性。
4.技术文档编写:协助编写爬虫相关的技术文档、数据采集流程说明及测试报告。
5.协作与学习:与团队中的数据工程师、分析师协作,理解数据需求,并学习前沿的爬虫技术与反反爬策略。
任职要求:
1.本科及以上学历,计算机相关专业;
2.熟练掌握 Python 编程语言,至少熟练使用一种常用爬虫框架(如 Scrapy, Requests, BeautifulSoup 等);
3.熟悉网络爬虫的基本原理、HTTP/HTTPS协议及了解前端基础(HTML, CSS, JS);
4.熟悉数据库(如MongoDB、Redis)的基本操作;
5.具备良好的逻辑思维能力、学习能力和主动解决问题的能力,有责任心和团队。协作精神。
加分项:
1.有实际爬虫项目经验(个人项目或实习均可);
2.了解常见的反爬虫机制和应对策略(如代理IP、用户代理池等);
3.有成功逆向js经验。
可接受26届实习生。
Copyright C 2020-2021 All Rights Reserved 版权所有 重庆两江新区人才发展集团有限公司
渝ICP备2021001278号-3
渝公网安备 50011202503459号
地址:重庆市渝北区龙兴镇田家湾(北京理工大学重庆创新中心22号楼) EMAIL:cqljhrzp@163.com
人力资源证: (渝)人服证字〔2017〕第3900000212号
Powered by 两江新区人才网