1. NLP 方向
大模型(LLM)应用与优化
熟悉 GPT、LLaMA、Mistral、Qwen 等大语言模型的训练与推理优化。
研究 RAG(Retrieval-Augmented Generation) 提高 LLM 的事实性与可控性。
低成本推理优化:量化(GPTQ)、蒸馏(LoRA)、缓存机制(KV Cache)。
信息抽取
传统方法:基于 CRF、HMM、LSTM 的命名实体识别(NER)、关系抽取(RE)。
大模型增强:结合 RAG+LLM 进行文档级字段提取,提高信息抽取的准确率。
文档解析:OCR + LLM 进行合同、发票、票据的自动解析。
文本向量化与搜索
词向量(Word2Vec、FastText)、BERT、SENTENCE-TRANSFORMERS(如 SBERT)。
向量检索库(FAISS、Milvus),构建高效语义搜索、对话增强(RAG)系统。
文本生成
传统方法:Seq2Seq、Transformer 结构的文本摘要、机器翻译、对话生成。
大模型微调:SFT(Supervised Fine-Tuning)、LoRA、PEFT 在特定任务上优化 LLM。
提示工程(Prompt Engineering):通过 Chain-of-Thought(CoT)、ReAct 提高 LLM 生成质量。
OCR+NLP 融合
OCR 识别(PaddleOCR、Tesseract、EasyOCR)+ NLP 进行文档分析。
结合 版面分析(LayoutLM、Donut) 进行结构化信息提取。
2. CV 方向
OCR
使用 PaddleOCR、Tesseract、EasyOCR 进行多语言 OCR 任务。
结合 版面分析(LayoutLM、DocTR) 进行文档解析,提高结构化信息抽取效果。
目标检测
传统方法(HOG+SVM、Faster R-CNN、YOLO)与 Transformer-based 方法(DETR)。
目标检测在 工业质检、OCR 文字定位、医学影像分析 等场景的应用。
图像分割
经典方法(UNet、DeepLabv3+)+ ViT-based 方案(Segment Anything Model, SAM)。
场景:医学影像、遥感、文档表格分割。
视觉生成
扩散模型(Stable Diffusion) 用于文本生成图像(T2I)、图像修复(Inpainting)。
GANs(StyleGAN、CycleGAN) 进行风格迁移、人脸生成。
多模态
CLIP、BLIP 进行文本-图像联合建模。
Vision Transformer(ViT)、BEiT 在 CV 任务中的应用。
工程实践
模型优化与部署
量化(INT8、FP16)、裁剪(Pruning)、知识蒸馏(Distillation)加速推理。
LLM 推理优化(vLLM、GGUF、GPTQ)提升推理速度。
部署框架:ONNX Runtime、TensorRT、FastAPI、Triton Inference Server。
高效 RAG 架构
结合 FAISS/Milvus/HNSW 实现高效文档检索,减少 LLM 生成错误。
OCR + RAG 进行长文本信息抽取,提高 LLM 的事实性。
端到端 AI 应用
智能文档解析:OCR+LLM 进行合同、发票、简历解析。
AI 搜索助手:向量搜索+LLM 构建智能问答系统。
图文生成:扩散模型(Stable Diffusion)+ CLIP 进行 AIGC 创作。
1. 基于 RAG + LLM 的智能文档解析系统
项目描述
开发了一套基于 OCR + RAG + LLM 的智能文档解析系统,适用于 合同、发票、简历、法律文书 等结构化信息提取场景。OCR 识别文本后,通过 RAG 进行增强检索,再结合大模型(LLaMA/Qwen)提取关键字段。
技术栈
OCR 模块:PaddleOCR / Tesseract(文本检测 + 版面分析)
RAG 检索:FAISS / Milvus + 词向量(BGE / OpenAI Embeddings)
大模型处理:LLaMA2 / Qwen / Mistral,使用 Prompt Engineering 进行字段抽取
后处理:正则匹配、NER、规则增强
难点 & 解决方案
OCR 误差影响字段提取 → 结合 LayoutLM 进行结构化文本还原,提高识别准确度
长文本的 RAG 召回不稳定 → 结合 Chunking + BM25 + 向量搜索,提高召回质量
本地 LLM 推理较慢 → 采用 GPTQ 量化,加速推理
项目描述
为企业开发了一套 票据自动录入系统,自动识别 发票、火车票、身份证、营业执照 等,并进行字段抽取与结构化存储。
技术栈
OCR 识别:PaddleOCR(多语言模型)
图像预处理:OpenCV(去噪、倾斜校正)
信息抽取:NER(BERT / BiLSTM-CRF)+ 规则匹配
数据存储:Elasticsearch(高效检索发票记录)
难点 & 解决方案
票据背景复杂,OCR 误差大 → 采用超分辨率增强(ESRGAN),提高小字体识别准确率
发票字段不固定 → 结合 BERT + 规则匹配,提高字段对齐能力
批量处理慢 → 部署 TensorRT + FastAPI 加速推理,单张票据处理时间从 1.2s 降至 0.3s
可兼职时间
可兼职地点
0条评论 雇主评价