实现网

社会化创新:实现针对知乎的爬虫 远程兼职

一般月薪3000元
项目类型:
每月工作: 7天
工作方式:远程

职位详情

我们正在进行一些有利于社会的,带有研究性质的公共数据分析与智能应用设计工作。
我们认为这些工作能够产生积极正面的影响。在接下来较长的时间里,我们会围绕这项工作,不断进行各方面探索。
我们希望能够通过互联网,借助更多有才能的参与者的力量,探索新的合作方式,把这些工作分解成不同的任务,持续地推进下去,提高演化的效率。
欢迎有水平的个人开发者和思维创意者加入。
详情请见文档:https://github.com/social-innovation/tasks/issues/29

1. 目标

我们正在进行针对特定人群提供问题跟踪,咨询的智能服务的开发工作。其中用于支持产品初期算法研究工作的基础数据,有一部分需要通过爬虫工具来抓取。

针对知乎,我们希望选择性地抓取其中的问题,回答,评论,以及知乎专栏内容

1.1. 选型/环境

服务部署环境在阿里云
使用 mongodb 数据库
使用 oss 文件存储
1.2. 沟通与文档

希望在报名该发包时,谈及自己在爬虫开发方面的相关经验。对于合适的开发者,会进行一次半小时左右的电话沟通(电话,QQ 语音或微信语音)(报名附言里可注明微信号方便添加)
初次沟通并传达目的后,希望就工作内容撰写一份概要设计文档,明确开发要点和规格;
概要设计文档 review 通过后,进行开发实现;
1.3. 工作要求

对知乎的问题,回答,评论,知乎专栏内容进行抓取
可以设定抓取范围(以关键词,标签,作者等要素来约束)
这是一个持续抓取的爬虫,连续工作时尽量获取尽可能多的内容
需要给出抓取结果保存的数据库设计(mongoDB)
从头开发和用现有代码/第三方工具实现都可以,但实现细节要在概要设计中明确
报名人员可到 github.com/social-innovation/tasks/issues/29
留言和参与需求讨论(写下联系方式和个人基本情况介绍)

2. 时间

2.1. 阶段划分

预计周期:7 天(明确需求后,以开发者承诺为准)

理解需求,撰写概要设计
开发
配合完成一次数据样本抓取
质保维护

3. 人员要求

证明自己有能力胜任此项工作,有相关开发管理经验
通过沟通与思考明确需求
明确需求后,在承诺的时间完成提交
熟悉 github, github 账号时间大于半年(在报名中给出 github 账号)
熟悉 阿里云

4. 协作工具

zoom: https://zoom.us/
石墨文档: https://shimo.im/
github: https://github.com/
微信

已有3人投递
Small 0b566b399c3d3fd806acf5e6678a109c
Small 262194fdaa1dfdd6822099e2561aa3f1
Small 11cd633f80fbe75b3fe91e61ce4b3438
Cfa489798a61810596b88664941b8c58
昵称登录后显示 大约 6 年前
公司地址 北京 海淀
团队人数未填写
融资情况未透露
产品介绍

暂无介绍

团队介绍

暂无介绍