- 基础数据风险画像(IP、手机号)优化及升级
- 数据计算改造升级,由离线T+1数据升级为实时数据计算,90%的日增量数据可实时生效,由一天降低为一分钟内生效。
- 实现11类基础数据的自定义内存文件结构及数据搜索,完成业务调用链路迁移,解除外部数据供应商数据文件结构依赖,将切换供应商所需的改造成本由15人日降低为3人日。同时提升数据产品对外输出维度数量的灵活度;降低企业级风险画像产品部署成本,标准3台8G服务器可满足95%以上的客户业务场景,同等3台64G SSD盘Aeropike内存资源消耗降低30%以上。
- 实现数据的基础归属地、风险标签、风险证据、代理类型、IP类型等数据的模块化,提升API产品的自由组合灵活度。
- 0->1企业级风险画像产品设计及研发,一年内完成35+客户落地。
- 研究各类代理协议识别原理,实现Sock4、Sock5、PPTP、HTTP的代理识别率,每日可准确识别80万+代理IP。
- 搭建数据产出及流动监控,保障数据处理过程的可阅读性及稳定性。
- 保障1-5-10线上响应,1分钟问题告警、5分钟问题定位、10分钟问题解决。
- 疑难杂症分析,分析CPU飙升、内存消耗、RT过长等问题。
- 情报产品的0到1构建及迭代转型
- 搭建初级情报系统,实现数据采集、分析、分发的基本业务能力。
- 引入NLP算法能力提升文本分析能力
- 引入ElasticSearch提升文本搜索能力
- 引入开源软件分析产品,拓展黑产软件分析能力
- 完成流程自动化,为客户产出风险信息。
- 完成产品转型,拓展商机发现能力,为销售团队提供商机资料。
- 基础数据主要围绕IP、手机号进行产出及服务
> 数据的采集与沉淀,数据的来源包含:业务数据沉淀、外部数据采购、外部数据采集、自主检测、战略合作交换等方式。所有数据采集进系统后,经过统一的数据清洗,产出标准基本数据供数据计算使用。每日约处理千万级数据,并全程实现自动化流程,通过周期内数据对比、波动率、衰减周期等维度保障数据质量。
> 数据的计算:提取数据的各个特征;不同的数据拥有不同的计算逻辑,例如不同的标签采用了不同的数据特征数量,甚至同一特征采用不同权重信息;不同的衰减周期对不同场景业务产生的权重价值也有所不同。同时对采取的特征数量进行裁剪,进行不同特征方案之间的比较并持续优化。每日产出量约1000万+。
- 企业级画像的复刻及优化
> 企业级的产品功能向Saas看齐,重点需要攻克的问题是如何快速部署、如何减少研发人员的日常投入、如何尽快把数据同步到客户现场、如何做数据版本管理、如何设计数据结构及搜索算法以降低成本,提升竞争力。该项目功能和Saas一致,但是架构不一致,且优化过程中需要以字节甚至比特为基本单位思考数据搜索及存储问题,对人员培养起到极好的效果。在所有的数据中,通过对不同的数据分析,我们实现了10亿级数据的优化,成功优化成百万级数据,并且产出的数据结构占用内存100M;千万级数据优化均优化内存占用只300M~600M。较Saas存储实现了极大的压缩。同时全属性查询性能可在4C8G的单机配置下实现6000+QPS、P999<2m的查询性能,可以保障长期稳定的性能要求。该产品还有持续优化的空间。产品上线一年间持续为30+独立客户进行服务。
可兼职时间
可兼职地点
0条评论 雇主评价