Python程序员(网页爬虫)     

面议      广州  |  不限  |  2016-11-02 16:29
职位诱惑:“五险一金 Global 4A”
职位描述
Overview of the Role
关于网络爬虫:
网络爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息包括(文章、图片、网页链接等),由于网络上的信息数据量大而且瞬时变化,利用网络爬虫的技术来获得数据和信息非常重要。
关于爬虫技术:
有很多编程语言都可以用来写爬虫程序去抓取网页页面如:JAVA/C#/NODE.JS/PYTHON等,我们选择了Python语言来编写,原因是Python是在网络爬虫的编写上有很多成熟的库或框架(类似于别人写好的程序)能够调用,能快速编写出简单的页面的抓取程序。
关于目标网站:
我们一般需要抓取两种网页的信息:
1. 电商网站,了解电商的投放模式、了解客户和竞争对手的广告投放、产品销售和价格趋势。
2. 搜索引擎的搜索结果页面,用于SEM和SEO。

关于工作:
由于电商网站较多而且变化很快,因此可能需要经常更改程序或开发新的电商的抓取程序,而搜索引擎方面搜索量非常大,也需要持续不断地进行程序的开发和修复,项目的前景广阔。而且熟悉PYTHON后还能开发类似数据处理和分析、机器学习、人工智能、语意分析等高层次的技术开发,不只局限于用来开发网页爬虫。

Key Responsibilities
• 负责网络爬虫程序设计,开发及维护,对目标网站进行数据爬取分析,找到最优化的爬取策略。
• 维护代码质量,定时编写代码文档,解决封账号、封IP等技术难点。
• 针对不同网站,编写及维护网页爬取配置;对爬取的内容进行提取、处理、优化、过滤、审核、入库等操作;





Key Contact:
Cindy.xu@publicismedia.com
任职要求
• 逻辑推理能力和学习能力强的优先考虑;
• 没有Python语言经验但有程序开发经验或者网页开发经验都可以,我们有专门的项目团队一起学习和积累经验。
• 具备Python开发经验,熟悉Selenium/Phantomjs/Beatuifulsoup/Scrapy等工具或框架优先;
• 对HTML、CSS、JS等前端技术有一定了解,熟悉正则表达式优先;
• 熟悉Mssql,Mysql等主流数据库优先;
• 热爱技术工作,乐于沟通, 具有团队合作精神,工作热情、创造力和高度责任感。

关于阳狮媒体

TRUST TALENT TRANSFORMATION

去公司主页了解更多

阳狮媒体

上海 |  500人以上

营销代理商