10年毕业于北京信息科技大学计算机科学技术与应用专业,在校期间多次获得奖学金。
毕业后就职于某知名互联网公司核心部门,参与搜索引擎后台服务的开发,包括离线数据处理和在线检索服务等等,获得过部门级和公司级优秀员工及。
熟悉linux开发,shell,python,c++,java都使用过。c++是最熟悉的语言。
现在西安一家创业公司任职,做自然语言处理和智能对话等相关方面的工作。
资讯采集系统:
1.设计了一套基于正则表达式的面向对象的可嵌套的模板抽取规则,并实现一套C++版本的解析该模板抽取规则并执行正则抽取的算法,极大地提高了数据部门同事的工作效率和工作质量。
2.针对资讯采集系统的特定需求,设计并实现了一套基于hadoop的批处理系统(正在申请专利),把资讯采集系统里耗CPU的自动抽取和模板抽取成功的移到了hadoop集群上,提高了资讯采集系统的处理能力和处理速度,帮助资讯搜索顺利达到采集系统的目标。
资讯转发系统:
1.设计并实现了一个简单的可扩展并简单支持负载均衡的数据转发系统。
微博切词系统:
1.设计并实现了一套针对微博内容的相似度计算算法(正在申请专利)。为后续的博文排重提供了数据考量,排重效果不错。
2.按照规定的协议对指定子串做词语切分,系统稳定可靠。
3.设计并实现了一套安全可靠可复用的数据接收发送库(该库被广泛应用于后续各项目的模块的数据交互中)。
1.设计并实现了一套安全可靠的key-value存储库,并成功应用在了索引内核的全文库存储模块,提高了单机存储的易用性和稳定性。
2.设计并实现了一套高效的XML内容合并算法,并成功应用在了索引内核全文库模块的数据部分更新功能中,减少了数据准备模块(采集,处理,排重等)的工作量,提高了索引内核的易用性。
3.设计并实现了一套简单可配置的XML动态数据返回算法,并成功应用在了索引内核全文库的数据部分请求功能中,减少了socket通讯量,提高了检索速度。
4.设计并实现了一套高效并且效果堪比百度,搜搜的动态摘要提取算法和反显算法,提高了用户检索的视觉效果,使得用户更迅速更方便的定位到自己想要的结果。
5.参与了倒排索引表和检索算法的设计与讨论。
该项目已经成功应用到了资讯搜索、微博搜索、视频搜索和图片搜索中,运行了半年多来效果很好,上线后非常稳定,较之前版本有很大提高。
1.设计并实现了图片搜索系统的配置中心模块,大大提高了整个系统的横向纵向扩展能力,减少了扩展成本。
2.参与设计了基于图片内容的相似度计算算法,用到了phash和分布式计算。
3.根据图片的特定需求,重新修改了索引内核的摘要反显模块的算法,以使用户感受更佳。
可兼职时间
可兼职地点
0条评论 雇主评价