根据提供的目标内容在搜索引擎上进行搜索结果爬取 远程兼职
一般月薪10000元- 项目类型:数据挖掘/爬虫
- 每月工作: 10天
- 工作方式:远程
职位详情
需求概述:根据提供的目标内容在搜索引擎(搜索API)上进行搜索结果爬取,提供爬取结果的链接及排名接口。
爬取内容:
1、文章:包含标题、内容、作者
2、图片:包含图片源文件
搜索引擎:百度/搜狗/google/必应/新浪微博
主要功能:
1、接收爬取任务,支持立即和定期爬取两种爬取方式
2、将定期爬取的结果进行存储,新增或有调整的内容进行标记
针对图片:输出爬取的图片URL、引用页面URL、访问量(如有)、标注作者(如有)、页面所属单位或公司(如有)
针对文章:输出爬取的页面URL、访问量(如有)、标注作者(如有)、域名、页面所属单位或公司(如有)
接口方式:
任务输入:提供爬取任务列表、含目标种类、内容、爬取方式、爬取周期
结果输出:RESTful API,结果列表、日期
因需求实现效果与算法和方式有比较紧密的关系,预算可以进一步交流