1. NLP 方向
大模型(LLM)应用与优化
熟悉 GPT、LLaMA、Mistral、Qwen 等大语言模型的训练与推理优化。
研究 RAG(Retrieval-Augmented Generation) 提高 LLM 的事实性与可控性。
低成本推理优化:量化(GPTQ)、蒸馏(LoRA)、缓存机制(KV Cache)。
信息抽取
传统方法:基于 CRF、HMM、LSTM 的命名实体识别(NER)、关系抽取(RE)。
大模型增强:结合 RAG+LLM 进行文档级字段提取,提高信息抽取的准确率。
文档解析:OCR + LLM 进行合同、发票、票据的自动解析。
文本向量化与搜索
词向量(Word2Vec、FastText)、BERT、SENTENCE-TRANSFORMERS(如 SBERT)。
向量检索库(FAISS、Milvus),构建高效语义搜索、对话增强(RAG)系统。
文本生成
传统方法:Seq2Seq、Transformer 结构的文本摘要、机器翻译、对话生成。
大模型微调:SFT(Supervised Fine-Tuning)、LoRA、PEFT 在特定任务上优化 LLM。
提示工程(Prompt Engineering):通过 Chain-of-Thought(CoT)、ReAct 提高 LLM 生成质量。
OCR+NLP 融合
OCR 识别(PaddleOCR、Tesseract、EasyOCR)+ NLP 进行文档分析。
结合 版面分析(LayoutLM、Donut) 进行结构化信息提取。
2. CV 方向
OCR
使用 PaddleOCR、Tesseract、EasyOCR 进行多语言 OCR 任务。
结合 版面分析(LayoutLM、DocTR) 进行文档解析,提高结构化信息抽取效果。
目标检测
传统方法(HOG+SVM、Faster R-CNN、YOLO)与 Transformer-based 方法(DETR)。
目标检测在 工业质检、OCR 文字定位、医学影像分析 等场景的应用。
图像分割
经典方法(UNet、DeepLabv3+)+ ViT-based 方案(Segment Anything Model, SAM)。
场景:医学影像、遥感、文档表格分割。
视觉生成
扩散模型(Stable Diffusion) 用于文本生成图像(T2I)、图像修复(Inpainting)。
GANs(StyleGAN、CycleGAN) 进行风格迁移、人脸生成。
多模态
CLIP、BLIP 进行文本-图像联合建模。
Vision Transformer(ViT)、BEiT 在 CV 任务中的应用。
工程实践
模型优化与部署
量化(INT8、FP16)、裁剪(Pruning)、知识蒸馏(Distillation)加速推理。
LLM 推理优化(vLLM、GGUF、GPTQ)提升推理速度。
部署框架:ONNX Runtime、TensorRT、FastAPI、Triton Inference Server。
高效 RAG 架构
结合 FAISS/Milvus/HNSW 实现高效文档检索,减少 LLM 生成错误。
OCR + RAG 进行长文本信息抽取,提高 LLM 的事实性。
端到端 AI 应用
智能文档解析:OCR+LLM 进行合同、发票、简历解析。
AI 搜索助手:向量搜索+LLM 构建智能问答系统。
图文生成:扩散模型(Stable Diffusion)+ CLIP 进行 AIGC 创作。