一、企业工商信息采集
项目简介: 在东方财富网爬取的一些国内上市公司名称和新三板的一些挂牌公司名称、投资界vc投资机构抓取的投资机构名称,还有在百度排行榜收集到的按行业排名的公司的名称,然后按照这些公司名称去企查查、微猫、百度企业信用等网站去爬对应的公司的信息。
责任描述:
1、 负责设计表结构、分析各网站结构,制定抓取方案;
2、 负责数据的提取、处理、入库以及准确性测试;
3、 解决爬取过程中的反爬措施,对反爬策略的设计及优化,提升抓取效率和质量。
二、央级媒体、自媒体等网站信息采集
项目简介: 将公司名称作为关键词去各央及媒体网站如:中工网,中国网,海外网、经济网等搜索对应的新闻资讯;自媒体网站如:一点资讯、新浪新闻、今日头条等抓取包括账号信息,发帖人信息以及帖子热度,还包括一些电商网站、视频网站、招聘网站、论坛、微信等。
责任描述:
1、负责设计表结构,制定抓取方案;
2、前期负责对网站进行关键词搜索抓取;
3、负责解决各种反爬措施并优化抓取策略加线程以提升爬取效率;
4、后期对央及媒体网站进行全站爬取以及整体数据的增量爬取。
三、电商网站采集
项目简介: 国内电商京东、淘宝、天猫等,国外网站有中东的https://www.jollychic.com/、https://uae.souq.com/ae-en/、https://www.noon.com/uae-en/三个网站,还包括天猫国际、京东海囤全球、网易考拉等网站。
责任描述:
1、 负责设计表结构、分析各网站结构,制定抓取方案;
2、 负责数据的提取、处理、入库以及准确性测试;
3、 解决爬取过程中的反爬措施,对反爬策略的设计及优化,提升抓取效率和质量;
4、负责对采集到的商品信息做分析,指定产品选择方案。