python抓取目标网站内容存入到数据库表里面 远程全职
一般月薪600元- 项目类型:数据挖掘/爬虫
- 每月工作: 2天
- 工作方式:远程
职位详情
使用python完成这个需求
1,【抓取目标】指定网站(4个),网站类型一样,结构是:列表页和详情页。网站只有文字,没有视频没有图片。
2,【抓取内容】按照 “类型城市” 存放到数据库一个表里面,类型城市无需自己分,目标网站已经分好。总共10个字段。(3个默认无需管),剩余7个是:
标题 文章 文章来源链接 类型 省 市 时间
3,【抓取细节】4个网站抓取来的内容要去重,去掉目标网站的信息(文字 链接 图片)
4,【抓取过来存入数据库的方式】分为2种:1,抓取过来“标题”和 “来源链接” “时间”存入数据库里面。
2,抓取标题 内容 来源链接 类型 省 市 “时间”
5,【抓取维护】抓取这4个网站之前的内容,并且网站每天固定点更新或者实时抓取(如果实时更新代码写起来比固定点更新困难,可以按照简单的来,只要每天抓取一次就行)
6,【交付代码】代码有详细的注释,告知启动暂停和停止的命令(如果服务器有意外等突发事件,我暂停抓取)
注:大意需求表达清楚了,确定合作再给目标网站