实现网
lorwin

昵称登录后显示

300/8小时
1年工作经验

北京三角兽科技
机器学习算法实习生

中国科学院大学信息工程研究所
硕士研究生

天津大学信息系统与信息管理专业
本科生

python
c++
linux
爬虫
自然语言处理

1

被预约次数

2

被收藏次数

0

被评价次数

擅长技能

目前在中国科学院大学信息工程研究所,攻读计算机硕士学位。研究方向是网络安全、机器学习。本科毕业于天津大学信息管理系,在校期间成绩优秀,曾获国家励志奖学金、美国大学生数学建模竞赛二等奖以及大学生创新创业训练项目进入国家级等。

曾在北京三角兽科技公司实习,参与智慧识屏项目,在手机研发组担任nlp算法实习生,负责文本内容的事件抽取以及文本分类算法探究工作。

熟悉python,c++,能够进行相关的项目开发。
熟悉linux开发环境。
熟悉网络爬虫技术。
掌握git,markdown。
掌握熟悉python中flask,tensorflow,pytorch,sklearn等框架以及常见库。
能够搭建及应用主流的机器学习模型以及常见的深度学习模型。

课余时间较多,可以完成相关需求。

项目经验

文本意图识别与事件抽取
项目描述:对特定场景下的用户文本内容进行关键信息的自动化抽取
个人职责:该项目基于句法分析,我在已有基础框架的情况下,进行关键信息抽取的模式制定和编写,并对基础框架进行改进。不断优化已有的模式以及框架,并进行模式的解冲突、泛化以及效果对比迭代等工作。最终在三个场景下的信息抽取综合准确率达到了85%。

日程信息文本分类
项目描述:判断一条query为日程类还是非日程类。
个人职责:用hive从数据库中抽取数据送标。对于标注的3万数据进行数据扩充,形成初步的分类模型,指标为0.81/0.82(准确率/召回率)。为了解决数据集中正例比例较小的问题,先用上一版模型对抽取数据进行预分类,将模型判断为正例的数据进行送标,从而扩大数据集中正例比例。运用fasttext、CNN、BERT等模型进行文本分类。其中在BERT预训练模型上进行finetune,最终准确率为0.87。对CNN进行多组实验、迭代并调整阈值,最终指标提升至0.90/0.92,符合上线要求。

知乎话题爬取:
项目描述:对知乎的多个音乐话题和问题进行内容爬取
个人职责:使用python中的requests和selenium库进行文章标题和内容的获取。知乎中的话题出现方式为每次get出现五个话题并附加下五个话题的url,类似于链表。第一步用requests包先获取全部的话题中的url。然后使用selenium获取指定容器的内容并储存。

垃圾短信识别系统
项目描述:利用带标签的短信数据来识别未分类的短信数据,并实现 web 系统。
个人职责:在项目中用 jieba 开源库对短信文本进行分词并向量化,采用多种向量降维方式和机器学习模型对短信分类, 通过比较f1 值和时间性能来选择准确高效的识别模型, f1 值达到 0.97。 对多种 ML 模型和文本处理有了更广泛的了解和应用。

异常域名检测
项目描述:根据 300 万域名及其少量相关信息,制定方案来检测停靠域名。
个人职责:首先对域名网页的 html 源码和 har 数据进行爬取。通过爬取信息进行特征提取,来扩充属性。 域名检测采用类半监督学习, 制定确定性规则生成有标注数据, 进行 k-means 聚类, 以类簇中多数标签为最终类别。准确率为 0.54,但其中包含其他类型的异常网页,能够为异常域名的发现提供参考。 具备了爬虫技术的使用能力及规范。

0条评论 雇主评价

暂无评论~

可兼职时间

自由职业者,时间充裕

可兼职地点

朝阳
朝阳区
海淀区均可

被预约

1

被收藏

2

被评价

0

立即预约

可兼职时间

自由职业者,时间充裕

可兼职地点

朝阳
朝阳区
海淀区均可

已通过身份认证