工作地点:
厦门
简历发送至:
[email protected] 岗位职责:
1.分布式爬虫系统和数据采集的设计、开发。
2.爬虫策略和防屏蔽规则,提升网页抓取的效率和质量。
3.各类互联网数据的采集抓取。
4.理解系统数据处理流程以及业务功能需求。
5.负责核心算法的设计与开发
岗位要求:
1.1 年+以上实际的 Java 后端开发经验;
2. 本科及以上学历。
3.熟悉 java,熟悉常用爬虫框架中的一种或多种,如 Scrapy 框架或其他的 Web scraping framework ;
4.熟悉 HTML/JavaScript/CSS/xpath/url/Ajax/xml 等 web 技知识,熟悉 HttpClient、jsoup、WebDriver、phantomjs 等工具;
5.熟悉 linux 系统,熟悉 mysql、redis 等,熟悉 Internet 基本协议(如 TCP/IP. HTTP 等)
6.能够解决封账号、封 IP 采集等问题,解决网页抓取、信息抽取等问题,构建完善的网络信息收集平台;
7.负责网络爬虫采集规则的编写;
8.有分布式爬虫架构经验者优先;
9.有数据分析、数据挖掘相关经验者优先。