Logo 300 406cf2a4135690a879d66987aca1ce97c723a4a6103297b858557a4997423ccf

购票APP数据采集 项目制

预估15000元
项目类型:数据挖掘/爬虫
预估工时: 15天
工作方式:定期坐班
开工时间:2016-11-21
Python
JAVA
XPath
JS
爬虫

需求描述

一、需求描述

1.实时采集微票儿的正在上映影片列表数据,包括:
“电影名称
简介
主创
评分
想看人数”
2.实时采集微票儿的即将上映影片列表数据,包括:
“电影名称
简介
主创
想看人数”
3.实时采集微票儿的影片信息数据,包括:
“电影名称(中文)
电影名称(英文)
想看人数
评分
类型
时长
上映日期
简介
主创
评论用户
用户评论总数
用户评论List
用户评论内容
用户评论点赞数
用户评论评价类型
用户评论回复内容
用户评论回复数
用户评论时间
影片票房今日排名
影片今日票房
影片累计票房
评论用户信息
评论用户观影轨迹
评论用户观影时间
评论用户影片名称
评论用户评论内容
评论用户评价
评论用户想看清单
评论用户想看清单影片名称
评论用户想看清单影片主演
评论用户想看清单影片想看人数
评论用户想看清单影片评分
评论用户想看清单影片上映日期”

4.实时采集淘票票的正在热映影片列表数据,包括:
“电影名称
评分
简介
主演”
5.实时采集淘票票的即将上映影片列表数据,包括:
“电影名称
想看人数
导演
主演”
6.实时采集淘票票的影片信息数据,包括:
“电影名称(中文)
电影名称(英文)
类型
地区
时长
上映日期
评分(上映)
评分人数(上映)
想看人数(未上映)
简介
演职人员
影片票房今日排名
影片首周票房
影片累计票房
影评用户
影评总数
影评List
影评内容
影评点赞数
影评星级
影评回复内容
影评回复数
影评时间”

二、人才要求
负责指定的网站/APP的网页信息抓取、数据提取、清洗、入库;
两年以上JAVA开发经验, 熟练使用一门以上脚本语言(Python/PHP等),熟悉LINUX;
熟悉网页抓取原理及技术,熟悉各种网页解析的策略和算法,熟悉基于正则表达式、XPath等网页信息抽取技术,熟悉基于Cookie的网站登录原理;
熟悉多线程、网络通信编程相关知识;
年以上大规模网页爬虫开发经验, 熟悉JS,AJAX,网页消重等;
有分布式爬虫架构经验优先;
有新闻/垂直领域爬虫开发经验优先;
有良好的沟通能力、语言表达能力、团队协作能力、工作细心、认真负责。

已有10人投递
Small c1599dca7e603c13de44f84aff3d58d6
Small b23e8aa303dd68f1fa721544279a38f6
Small 31b7dbfcd1b812f01fef5edd815fd802
Small 0b566b399c3d3fd806acf5e6678a109c
Small cf8217b9deafee762e88e9a8d2c9427d
Small 04124f6455293ef0eca0db560561b3ef
Small 06476488b264ee514114ba88cf51cfda
Small c175d210b1d9331f3f95b0bf9af7793e
Small 93e56462bd41e76fe7c768d378b83b00
Small fa2c38afd7424fa6a1ad54b560669219
A0fce8766e9dbcfdb1cdf90d19fe2e34
昵称登录后显示 26 天前

公司登录后显示

公司地址北京 朝阳 宏泰东街浦项中心A座23层
团队人数未填写
融资情况未透露
产品介绍

暂无介绍

团队介绍

暂无介绍