词向量和词元化
本题库涵盖 NLP 基础与词元化 核心知识点:
- 词向量表示:稀疏与稠密词向量(Sparse vs Dense)
- 分词算法:BPE、WordPiece、SentencePiece 及子词分割原理
- 位置编码:RoPE、ALiBi 及绝对位置编码外推性分析
- 模型架构:Prefix LM 与 Causal LM 的区别与联系
0/11 完成 (0%)
Transformer架构
本题库涵盖 Transformer 架构 的核心组件与进阶优化:
- 核心机制:自注意力、缩放点积注意力、编码器/解码器
- 位置编码:RoPE, ALiBi 旋转与线性偏置
- 归一化/正则:LayerNorm, RMSNorm, Pre/Post-Norm, Dropout
- 高效变体:MQA/GQA/MLA, 稀疏/线性注意力
- 混合专家:MoE 稀疏激活与专家负载均衡
0/61 完成 (0%)
训练与推理
本题库涵盖 LLM 训练与推理 核心优化技术:
- 解码策略:Greedy, Top-P/K 采样
- 加速与并行:FlashAttention, MoE 专家并行
- 显存与量化:PagedAttention, INT8/FP8
- 微调技术:SFT, LoRA 参数高效微调
0/38 完成 (0%)
数据
本题库涵盖 大语言模型(LLM)数据处理 与 缩放法则(Scaling Laws) 的核心知识点:
- 预处理流程:质量过滤、数据去重(MinHash/SimHash)、多语言处理
- 词元化技术:BPE, Byte-level BPE, 词表大小权衡
- 数据调度策略:动态混合、课程学习、SFT 数据特点
- 缩放法则:Chinchilla 定律、计算量估算 ()、推理侧优化策略 (LLaMA)
0/16 完成 (0%)
计算, 显存, 通信
本题库涵盖 大模型训练与推理中的计算、显存与通信 核心知识:
- 计算量估算:Transformer 前向与反向传播 FLOPs 计算公式
- 显存优化:梯度检查点、ZeRO 技术 (Stage 1/2/3)、Offload 策略
- 分布式并行:数据并行 (DP)、张量并行 (TP)、流水线并行 (PP) 与 3D 并行
- 推理优化:KV Cache 机制与混合精度训练中的梯度缩放
0/24 完成 (0%)
微调
本题库涵盖 LLM 微调与适配 的核心内容:
- 微调技术:LoRA 的原理、优势与参数效率。
- 领域适配:词表扩充的必要性、流程与评估。
- 长度外推:RoPE、ALiBi 与插值法等长序列处理方案。
- 对齐原理:训练损失函数设计与 RLHF 流程。
- 方案对比:微调与 RAG 的差异化场景应用。
0/22 完成 (0%)
对齐
本题库涵盖 LLM 对齐 (Alignment) 的核心技术与前沿进展:
- 核心流程:RLHF (基于人类反馈的强化学习) 与 SFT (监督微调) 的差异与全流程。
- 主流算法:深入剖析 PPO (近端策略优化) 与 DPO (直接偏好优化) 的原理与机制。
- 前沿技术:探讨 KTO、ORPO、RAHF 等新型对齐算法及变体。
- 监控与评估:解析 KL 散度监控、奖励建模稳健性及“对齐税”等实践指标。
0/37 完成 (0%)
Evaluation
本题库涵盖 大模型评估与安全 核心技术:
- 评估指标:BLEU, ROUGE, BERTScore, PPL 困惑度
- Badcase 修复:拒识模块, 重复惩罚, 模型微调, 模型编辑
- 对抗性测试:红队测试 (Red Teaming), 对抗样本生成, 鲁棒性评估
- 安全与合规:数据脱敏, 差分隐私, 联邦学习, 算法备案
0/20 完成 (0%)
RAG
本题库涵盖 RAG (检索增强生成) 全链路核心技术:
- 数据提取与分块:PDF/OCR 解析、语义分块、滑动窗口技术
- 检索增强:密集/稀疏检索、混合检索、查询重写(HyDE/Fusion)
- 重排序与后处理:Cross-Encoder 重排、上下文压缩、校正 RAG
- 评估框架:RAGAS 指标(忠实度、相关性)、端到端评估体系
- 前沿方向:GraphRAG、Agentic-RAG、多模态检索增强
0/75 完成 (0%)
Agent
本题库涵盖 AI Agent (智能体) 的核心机制与工程实践:
- 核心设计模式:反思 (Reflection)、工具调用 (Tool Use)、规划 (Planning)
- 多智能体协作:多角色分工、协作范式 (SOP、层级、全连接)
- 评估与工程化:组件级与端到端评估、误差分析、延迟与成本优化
- 协议与安全:MCP 协议、代码执行沙箱、安全模型 (E2B/Docker)
0/43 完成 (0%)