1.熟悉JAVA开发。目前主要倾注于大数据挖掘领域。 2.熟悉全文搜索引擎ElasticSearch,开发过一套ES的plugin。 3.熟悉自然语言处理的相关算法(朴素贝叶斯,LDA(主题模型)),文章分类,提取文章关键字,摘要,地理信息等,对文章进行情感分析等。 4.能用SPARK进行分布式开发,有现成的产品和代码(主要是数据挖掘和NLP领域)
1.后台全文搜索引擎(ElasticSearch)的搭建和优化。 包括对中文分词的插件修改,ES的性能优化,plugin的代码编写 2.文章情感分析,关键字和摘要提取,地理信息提取 3.基于SPARK的文章分类,LDA文章模型开发 4.文章相似度算法 用于新闻文章的转载分析判断,有现成的产品