rag 标签归档 | 土法炼钢兴趣小组的算法知识备份

【系统架构设计】AI 原生架构：LLM 时代的系统设计

2026-07-29 | architecture | #ai-native #llm #agent #timeout #cost-governance #schema-validation #orchestration #observability #rag #architecture

当 LLM 从离线批处理变成在线运行时组件，超时预算、按 token 计费、非确定性输出与多轮 Agent 编排必须进入架构的一等公民。本文从依赖语义差异出发，衔接弹性与过载保护，讨论网关成本治理、结构化输出与人审闸门、checkpoint 恢复与隐私友好的可观测，并划定与 RAG、向量引擎及训练基础设施的分工边界。

大模型基础设施工程

2026-04-22 | architecture · ai-infra | #llm #infra #training #inference #rag #agent #vllm #sglang #deepseek #llmops

面向中国工程团队的大模型基础设施系列。从 GPU/CUDA/互联、训练框架与 3D 并行、vLLM/SGLang 推理引擎、量化与推测解码、RAG/Agent 到服务化、网关、可观测性与安全合规，覆盖 LLMOps 全链路。

【向量检索引擎】向量引擎全景：算法、RAG 与专用引擎之间的一层

2026-07-12 | database · storage | #vector-search #milvus #knowhere #segcore #ann #rag #architecture #vector-engine

定位专用向量检索引擎相对 ANN 算法、RAG 应用与湖仓格式的分工；以 Milvus 2.6.x 四层架构与 insert/search 最小故事建立坐标系，并交代从 SIGMOD 2021 到 Streaming 演进的谱系与常见误解。

【向量检索引擎】选型与阅读地图：决策树、RAG 回链与开放问题

2026-07-12 | database · storage | #milvus #qdrant #lance #pgvector #rag #vector-engine #selection

扩展选型决策树：从单机原型到十亿级多租户，逐层加入湖上格式、SQL 同进程、存算分离运维、多一致性级别四个判断轴；用一个团队规模演进的最小故事串起决策点，并回链 llm-infra RAG 与本系列全部核心论文谱系。

【向量检索引擎】Milvus · Segcore · Knowhere · Qdrant · Lance · pgvector

2026-07-12 | database · storage | #vector-search #milvus #knowhere #segcore #qdrant #lance #pgvector #hnsw #ann #rag #hybrid-search

补齐 ANN 算法与 RAG 应用之间的生产级向量引擎层：以 Milvus 2.6.x 为主线拆解 Segment、WAL、Segcore、Knowhere、混合过滤与一致性，并用 Qdrant、LanceDB、pgvector 对照选型。

【全文检索引擎】选型与阅读地图：决策树、RAG 回链与开放问题

2026-07-15 | database · storage | #elasticsearch #postgresql #gin #clickhouse #vector-engine #selection #rag #full-text-search

给出 ES/OpenSearch、PostgreSQL GIN、ClickHouse 全文、专用向量引擎与「仅日志检索」的扩展决策树；回链 observability/08 与 llm-infra RAG，收束本系列 18 篇开放问题。

【大模型基础设施工程】01：大模型基础设施全景 —— 训练、推理、RAG、Agent、观测

2026-04-22 | architecture · ai-infra | #llm #infra #overview #training #inference #rag #agent #deepseek #openai

面向工程师的大模型基础设施开篇地图，覆盖 2022 到 2026 的工程分水岭、五层工程栈、训练与推理的工程差异、中国与全球行业版图以及成本曲线。

【大模型基础设施工程】17：RAG 工程全景

2026-04-22 | architecture · ai-infra | #llm #infra #rag #retrieval #embedding #rerank #chunking #hyde #graphrag #ragas #bge #colbert

从文档解析、切片、嵌入、索引、检索、重排到生成与评估，系统梳理 RAG 的工程流水线、进阶范式与国内外生态

【开源许可与版权工程】AI 训练数据的版权：从 Books3、Common Crawl 到生成式模型侵权

2026-04-22 | architecture · opensource | #ai #training-data #copyright #fair-use #tdm #books3 #common-crawl #laion #rag #dataset-license #generative-ai

一篇话讲清楚：网络爬取训练语料、书籍/代码/图片数据集、合成数据与 RAG 私域数据在著作权法上的真实边界。覆盖美国 fair use、欧盟 TDM 例外、日本 30-4 条、中国合理使用与生成式 AI 司法态度；逐个拆解 Books3、Common Crawl、LAION-5B、The Pile、StarCoder、Stack Exchange 等高频数据集的许可现状；给出工程团队在预训练、微调、RAG 三个场景下的可执行检查清单。

【数据库前沿】【数据库研究前沿】数据库作为 LLM 记忆体：语义缓存、RAG 与一致性

2026-04-28 | database | #llm-memory #semantic-cache #rag #gptcache #memgpt #pgvector #consistency

把数据库当 LLM 长期记忆的系统视角：GPTCache、MemGPT、向量 vs 事实记忆；用 pgvector + 触发器实现会话级一致性语义缓存

【数据库前沿】【数据库研究前沿】GraphRAG：图增强检索的理论与工程

2026-04-23 | database | #graphrag #rag #knowledge-graph #neo4j #kuzudb #nebulagraph #networkx #community-detection

系统梳理 Microsoft GraphRAG（2024）的动机、算法与工程实现：多跳问答为什么让向量 RAG 失效、图作为 evidence path 的优势、社区检测与报告生成、Neo4j / NebulaGraph / KuzuDB 的落地差异，以及一个 NetworkX 最小实现。