3
被预约次数
2
被收藏次数
2
被评价次数
毕业于中国科学院大学,计算机专业,研究方向为机器学习、深度学习、自然语言处理方向。毕业后先后在百度互联公司、斯伦贝谢公司、虾皮信息科技有限公司工作。主要从事人机对话机器人,文本分类、文本匹配、文本生成、机器翻译,大语言模型落地应用、国产化服务器的适配、音频分割等研发。发布多篇学术论文。
英语水平:CET-6
熟练 Python、C#、Java 等面向对象语言开发,MySQL、ES 的应用,有良好的编程习惯
熟悉 Linux 操作系统下常用命令,熟悉 shell、git、Visual Studio 的使用
熟悉数据结构和算法设计、机器学习、数据挖掘等专业知识,了解 TCP/IP 通信协议
熟悉机器学习 scikit-learn、深度学习库 Tensorflow、pytorch、paddlepaddle 的使用
熟悉大模型 Qwen、Baichuan、DeepSeek 基于 full、freeze、lora 等算法的训练和推理
熟悉 CNN,GRU,Transformer 等神经网络和 BERT、Roberta、GPT 等预训练模型的使用
熟悉大模型与国产化服务器的适配(昇腾910B、300Iduo、智凯v100、曙光k100等)
熟悉国产化大模型在标书、公文、text2sql等公文领域的落地应用。
1. 基于大模型的落地应用(写作,问答、摘要等)
->熟悉大模型进行增量预训练的操作(continue pretrain)
->熟悉基于Qwen、DeepSeek、Baichuan等大模型的微调与推理。
->熟悉大模型进行DPO、SIMPO等强化学习的训练过程。
->熟悉对标书、text2sql、法律等领域数据集的处理策略。
->熟悉对大模型进行推理加速(rtp-llm、vllm)量化(GPTQ)等操作,显著降低显存占用
->熟悉检索增强生成技术RAG,配合大模型一块使用,提高模型的生成质量。
->有大模型在实际场景的落地应用经验
2.基于大模型进行公文领域的落地应用
项目简介:基于大模型进行法定公文和事务公文的写作和大纲自动生成。
工作内容:
(1)收集最新的公文数据集,对数据集进行清洗,形成自动化方案
(2)选用 Deepseek、Qwen 作为基座模型,训练公文领域大模型。
(3)熟悉LLaMA-factory框架的使用。
(4)构建针对公文领域的任务的自动化评价体系。
(5)进行大模型国产化适配(昇腾910B、300I DUO、曙光k100、智凯v100)等
3. 基于 PEGASUS 模型的文本摘要算法
项目简介:对公文的全文内容进行简要描述,形成能概括公文主旨的一小段文字内容。
工作内容:
(1)基于 textrank 算法抽取公文中的重要句子。
(2)以 mT5 模型为基础架构和初始权重,进行训练。
(3)以qwen3-0.6B模型进行训练摘要模型,基于llama.cpp进行推理加速。
4.基于预训练模型的翻译模型算法
项目简介:利用单语数据进行预训练,通过知识蒸馏和预训练模型提高翻译模型的效果。
工作内容:
(1)基于 fairseq 深度学习框架,进行翻译模型的研发。
(2)设计知识蒸馏的算法主要包含 word-level 和 sentence-level 两种类型的知识蒸馏方法。
(3)利用大量的单语数据进行模型的预训练。
(4)探索多语言模型 XLM-R、MBART 等多语言模型的训练和推理方法。
4. 基于demucs与splitter模型进行音频文件分割。
(1)其中demucs支持2和4轨道的分离。
(2)spleeter支持2、4、5轨道的分离。
(3)支持"mp3", "ogg", "m4a", "wav", "flac"等多种格式的音频文件。
(4)支持基于时间戳的动态 token校验和https协议通信。
(5)基于nginx和openssl的域名配置。
5. 多轮对话智能机器人系统
项目简介:开发一款支持对轮的任务型对话机器人,包含天气、机票、美食等业务场景。涉
及到文本分类、情感识别、信息抽取、QA 问答、指代、补全、容错、闲聊生成等模块。
工作内容:
(1)设计开发文本分类和人机协同任务代码逻辑,尝试用 FastText、CNN、BERT
预训练语言模型等实验,最终分类模型指标 F1-score:97%+;
(2) 设计开发 QA 问答模块,包含基于 ES 的信息召回和基于 Annoy 语义信息检索等;
(3)设计开发基于 BERT 预训练模型的文本匹配模型对问题对进行精排。
(4)设计开发情感识别的模型。
可兼职时间
可兼职地点
Tina驍 2025-08-30 18:13
只评分,内容未填写或非公开