投影时代新闻爬虫•爬虫框架设计和爬取 新闻媒体
【作品效果】
• 可以根据要抓取的新闻关键字或者新闻日期进行相关新闻采集;
• 新闻要有层级性,比如查询到“电器”下的新闻时,该新闻下能够
查询到“空调”方面的新闻,“空调”新闻下还能继续查询到“格力”的新闻;
• 通过平台来展示新闻数据,每一页有10篇新闻,并且能够高亮显示该新闻的关键字。
• 以上图片为平台下的数据展示。
【作品实现技术】
• 项目通过关键字进行相关新闻的抓取,其中关键字需要进行url编码;
• 项目主要实现技术为requests模块,从而实现请求、解析、处理、下载等功能;
• 实现增量爬取,能够对新增的新闻资讯或者新增板块进行及时抓取。
• 使用MongoDB进行数据存储,url经过MD5处理作为_id值,进而实现数据去重,对已经在库中的抓取过的新闻不再进行重复抓取;
• 通过接口调用MongoDB的数据,使用requests的POST请求,将数据灌入solr,实现最终数据的存储;
• 搭建简单的网页,展示抓取数据,页面主要演示:层级搜索、结果自动摘要、结果高亮的功能;
图片爬虫•爬虫项目架构设计与抓取 医疗健康
【作品效果】
• 该项目为实现一图一物、一图多物识别的AI项目提供数据集。
• 图片来源有多方,包括百度图片、堆糖网等。
• 图片抓取入库近上十万张图片。
• 针对食物可能出现的场景进行图片抓取后,要实现图片顺序编号入库。
• 要求能够实现关键字抓取,比如:餐桌、餐布、厨房等。
• 以上图片展示为部分抓取的图片成果。
【作品实现技术】
• 使用requests模块,调用get()方法请求网页数据;
• 根据用户输入关键字进行相关图片抓取下载,使用urllib.parse进行url编码,完成关键字编码转换;
• threading模块实现多线程快速抓取;
• 下载模块,如果没有创建过文件夹,则会自动创建文件夹来进行图片储存。
南方Plus移动手机app爬虫•数据爬取与爬虫监控 生活服务
【作品效果】
• 项目对南方Plus app的首页频道、国际频道、体育频道等相关频道
下的新闻资讯进行抓取;
• 频道全部抓取完毕有450万条新闻资讯入库;
• 爬虫灵活性高,能加入新的频道进行数据采集。
• 以上图片展示为数据抓取过程。
【作品实现技术】
• 项目数据量不算小,要避免被封IP;
• 手机端抓取数据,需要手机和Fiddle进行设置,使手机和Fiddle是在同一网段;
• 该项目采用广度优先方法,先抓取全部新闻频道下的url(网址),再对每个频道下具体的新闻进行采集。
• 爬虫维护,实现无论pc端或是手机端都能实时监控爬虫进度。