昵称登录后显示

800/8小时

5年工作经验

北京小欣星雨商贸有限公司

Python工程师

MySQL数据库

Python爬虫

被预约次数

被收藏次数

被评价次数

擅长技能

技术经验与能力情况
作为专注于爬虫与数据库开发的 Python 工程师，具备 5 年以上实战经验，熟练掌握 Python 全栈技术体系与数据处理全流程。
爬虫开发能力：
精通 Scrapy、BeautifulSoup、Selenium 等爬虫框架，擅长应对动态渲染页面（如 React/Vue）、反爬机制（IP 限制、验证码、User-Agent 检测），曾主导电商平台、社交媒体的数据采集项目，实现日均百万级数据增量抓取，成功率超 98%。
熟悉分布式爬虫架构设计，基于 Redis 实现任务队列与去重机制，结合 Scrapy-Redis 搭建分布式集群，将单节点抓取效率提升 3 倍以上。
擅长定制化爬虫工具开发，如代理 IP 池管理系统、UA 随机切换组件、验证码识别接口（对接 OCR 或打码平台），保障爬虫稳定性与隐蔽性。
数据库开发与管理：
熟练掌握 MySQL、PostgreSQL 等关系型数据库，精通索引优化、事务管理、分库分表策略，曾优化复杂查询语句，将响应时间从 5s 缩短至 300ms 以内。
擅长 MongoDB、Redis 等非关系型数据库应用，基于 Redis 实现缓存架构（如热点数据缓存、计数器），基于 MongoDB 存储非结构化爬虫数据，设计灵活的数据模型应对多场景需求。
具备数据库运维经验，熟悉主从复制、读写分离、备份恢复（如 MySQL Binlog、MongoDB Replica Set），曾主导数据库集群搭建与性能调优，保障千万级数据量下的服务稳定性。
其他技术栈：
掌握 Python 多线程 / 多进程编程、异步编程（asyncio），擅长数据清洗（Pandas）、格式转换（JSON/CSV/Excel）及 ETL 流程开发。
熟悉 Docker 容器化部署，能将爬虫与数据库服务封装为容器，实现环境隔离与快速部署；了解 Kubernetes 集群管理，可参与微服务架构设计。
项目实战案例：
为某金融资讯平台开发垂直领域爬虫系统，覆盖 200 + 资讯源，实现实时数据抓取与结构化存储，支撑风控模型与舆情分析系统，数据准确率达 99%。
重构某电商数据监控项目数据库架构，采用 MySQL 分表 + Redis 缓存 + MongoDB 归档的混合方案，解决百万级订单数据查询卡顿问题，系统 QPS 提升至 500+。
具备较强的问题解决能力与技术方案设计能力，能独立承担从需求分析到落地交付的全流程开发任务，熟悉数据合规与隐私保护规范，可确保项目在合法合规前提下高效运行。

项目经验

1. 金融资讯垂直爬虫系统（工作项目）
主导开发覆盖 200 + 资讯源的实时爬虫，采用 Scrapy-Redis 分布式架构，设计代理 IP 轮换与反爬应对策略，实现日均 80 万条金融数据抓取，数据准确率 99%，支撑风控模型与舆情分析系统。
2. 电商订单数据库重构（工作项目）
针对百万级订单数据查询卡顿问题，设计 MySQL 分表（按时间 + 订单 ID 哈希）+Redis 热点缓存 + MongoDB 历史归档的混合架构，优化索引与查询语句，将核心接口响应时间从 4.2s 降至 280ms，系统 QPS 提升至 500+。
3. 社交媒体舆情监控平台（业余项目）
独立开发微博 / 抖音舆情爬虫，集成 Selenium 处理动态加载内容，对接 Tesseract OCR 破解滑动验证码，使用 MongoDB 存储非结构化文本与多媒体数据，实现关键词实时监控与情感分析，日均处理 10 万条 UGC 内容。
4. 代理 IP 池管理系统（业余项目）
基于 Flask 开发 API 服务，整合免费 / 付费代理源，实现 IP 有效性检测（定时访问测速）、黑白名单机制与负载均衡策略，为爬虫项目提供高可用代理服务，代理存活率维持在 92% 以上，支持 50 + 并发爬虫节点调用。

0条评论雇主评价

暂无评论~

可兼职时间

自由职业者，时间充裕

可兼职地点

海淀

中关村

昵称登录后显示

北京小欣星雨商贸有限公司 Python工程师

擅长技能

项目经验

0条评论 雇主评价

北京小欣星雨商贸有限公司

Python工程师

0条评论雇主评价