实现网
龙崎

昵称登录后显示

1000/8小时
5年工作经验

一线互联网公司/大数据开发
大数据开发

HIVE
Maxcompute
sklearn
python
大数据生态圈

0

被预约次数

0

被收藏次数

0

被评价次数

擅长技能

1、 掌握HIVE 数据仓库架构、元数据管理、设计规范 、结合业务逻辑利用星型模型或雪花模型进行OLAP分析
2、 掌握MySQL、HQL 使用以及优化、可独立部署第三方CDH
2、熟悉Hadoop相关组件以及生态圈,如ELK, kafka, Flume,SparkStreaming,Sqoop等
3、熟悉sklearn机器学习库、特征工程处理、部分算法的模型参数调优 且有实际的项目经验
4、熟练使用 Numpy 矩阵运算库、Matplotlib、Seaborn 绘制统计图形、Pandas库等模块
5、熟练使用阿里云MaxCompute 数据仓库、QuickBI报表工具和DataWorks等大数据套件
6、熟悉数据ETL 开发以及后台可视化开发
7、可独立完成 Flask Web 框架、接口开发、定时调度 以及后期的运维部署等工作

项目经验

项目名称 :
展会蓝牙大数据 (独立开发)
项目描述 基于展会观众卡号与蓝牙设备Beacon绑定、在展馆内记录观众实时位置信息。分析观众行为轨迹、展会结束后分析观众在不同展位停留时长等。会后对于观众、展商、主办等维度出数据分析报告、以及展会现场BI实时数据看板。
开发工具 : Python3.6 、kafka、datahub、odsp、hive、spark、Uwsgi、sparkStreaming、maxcompute、redis、
岗位职责:
1、蓝牙数据具体需求调研包括实时数据、离线数据。
2、负责蓝牙数据采集技术架构设计以及实施
3、数据仓库分层架构设计、ods层基于雪花模型设计数据仓库
4、实时接受各展会实时蓝牙数据、负责接口开发、测试以及优化。
5、开发数据质量校验接口
6、基于Uwsgi容器部署 Flask服务。
7、利用sparkStreaming 统计展台观众访问数量、停留时长、回访率、绑定胸卡数等各项指标

项目名称 :
人物画像

项目描述 资金端用户画像系统目的是为了资金端获客、投资用户的精准营销、个性化推荐以及后期的数据挖掘工作提供数据 基础。开发用户标签接口为 后台的 Admin OaApp 提供数据支持与服务。同时也兼顾 Quick BI 系统提供多维度的数据、用于图形化报表的展示。
开发工具 : Python3.6 、hive、odps、sql、sklearn、Matplotlib、Pandas、Numpy
岗位职责:
1、金融学院调查问卷基于pandas进行数据清洗、通过odsp-sdk上传到hive仓库中
2、odps 数据仓库的业务数据管理、包括分层架构设计、工作流部署以及预警
3、负责用户基本属性标签构建、用户生命周期标签、投资用户风险控制标签 策略以及阈值设定
4、为 QuickBI 、平台admin 系统、app 提供数据支持。

项目名称:

高价值用户聚类 –(机器学习)
项目描述:定义并提取用户价值标签,然后针对其中的高价值用户进行用户画像分析。先通过聚类算法划分用户价值、然后对高价值用 户用户特征变量(人口统计学、上网设备、上网设备、投资经验、风险偏好)做单变量分析,并用聚类算法对高价值用户分群。
开发工具 : Python3.5、Seaborn 、Sklearn 、Matplotlib、Pandas、Numpy
岗位职责 :
1、特征提取 用户累计投资次数、投资金额、投资平均周期
2、对特征变量进行归一化处理
3、Keams++ 算法进行聚类
4、基于样本分布、利用肘值图分析获取簇的最佳数量
5、基于轮廓系数 针对聚类效果进行评估

项目名称:

平台满标速度预测 (机器学习)
项目描述:利用 sklearn通过 满标速度预测可以帮助资产部控制相关融资企业的债权数量、金额、时间, 防止出现流标情况的发生。同 时也可以有助于提高资金端的积极性
开发工具 : Python3.5 、Seaborn 、Sklearn 、Matplotlib、Pandas、Numpy
岗位职责 :
1、通过 Seaborn 绘制热力图、散点图矩阵 皮尔逊积矩系数判断特征之间相关性。
2、对于离散变量如项目类型、发布时间等 通过DictVectorizer进行特征工程预处理
3、基于岭回归模型、Lasso 模型 、随机森林回归 等模型 对正则参数 进行调优。
4、通过matplotlib 绘制 MSE 曲线。寻找 L1 正则 、L2正则 惩罚系数最优解 。 决策树回归最大深度。
5、基于 SSE、R^2 、MAE 等参数对模型进行评估。RandomForestRegressor。


统计项目

项目描述:、风控、财务、运营等业务部门对于数据需求,统计不同维度的业务指标,通过定时邮件进行发送。Admin后台管理、OA-APP 系统提供数据支持与服务。对接的信息披露系统、互联网应急中心的系统、互金协会的登记系统等第三方系统上报数据。
开发工具 : Python3.5、Seaborn 、Sklearn 、Matplotlib、Pandas、Numpy、Model、Flask、Jinja2、Nginx、Uwsgi
岗位职责 :
1、通过 connector、model 对mysql 数据库操作、通过邮件形式报送数据。
2、通过 Flask 框架集成APScheduler,完成定时任务执行类如每日资金、用户、保理等 数据统计
3、第三方提供的 Java SDK 、Jpype 完成动态调用
4、引入 ThreadPoolExecutor 提高查询效率
5、通过引入jinja2 模块完成 Html 页面的生成 生成表格。

0条评论 雇主评价

暂无评论~

可兼职时间

周六全天
周日全天
工作日下班后
周六半天
周日半天

可兼职地点

海淀
西二旗

被预约

0

被收藏

0

被评价

0

立即预约

可兼职时间

周六全天
周日全天
工作日下班后
周六半天
周日半天

可兼职地点

海淀
西二旗