加载（Load）和切分（Split）

张开发

• 2026/6/5 15:21:24 • 15 分钟阅读

分享文章

在 LangChain 处理文档的标准化流程中加载Load和切分Split是两个完全独立的长相不同、职责也不同的工具。我们来理清它们的关系1. 搬运工Loader加载器代码里凡是以Loader结尾的比如TextLoader、JSONLoader、CSVLoader以及未来你可能会遇见的PyPDFLoader等等它们的唯一作用就是打开特定格式的文件把里面的内容原封不动地搬到 Python 内存里变成 LangChain 统一规定的Document格式。它们充其量只是个**“格式翻译官”**把各种千奇百怪的文件后缀翻译成系统认得的统一文档对象。它们不关心你的文章有多长更不会用“限制 500 个字、要互相重叠 50 个字”这种规则去粉碎你的文本。2. 绞肉机Splitter切分器/切割器像你前一节学到的RecursiveCharacterTextSplitter这种以Splitter结尾的才是真正的**“切割器”**。它的工作是在 Loader 把文档搬进来之后嫌有些文档太长大模型吃不下所以拿着刀按照字数限制比如 500 字和换行符硬生生把内容劈碎。为什么CSVLoader会给你一种“它在切割”的误觉这是一个极好的问题。这是因为CSV 表格数据天生的结构决定的。当你用TextLoader读取一个三万字的小说.txt文件时它会偷懒直接把三万字塞进一个巨大无比的Document对象里返回给你。这时候如果你不找Splitter来切一刀大模型当场崩溃。但是当你用CSVLoader读取一份有一百行数据的.csv表格时。出于对表格这种结构的尊重CSVLoader在搬运的时候会自动把表格里的每一行当成一个独立的Document提取出来。所以你读取完毕后会瞬间得到一百个相对较短的Document。因为CSVLoader这个**“按行提取”**的自带特技它天然地把一块大文件化整为零了。如果你的 CSV 每一行数据本来就不长比如存的是员工基本信息它提取出来的每一条Document自然就很短小这个时候你甚至可以直接跳过Splitter切割器环节直接把这100条文档扔进向量数据库里。总结CSVLoader只是加载器。它之所以感觉“切过”是因为它按 CSV 的“行”逐条给你读了出来。如果 CSV 里的某一条单元格里刚好存了一篇一万字的作文那它读出来的那一行依然很长你还是得乖乖请出RecursiveCharacterTextSplitter再剁一遍。

加载（Load）和切分（Split）

最新文章

别再为SaaS多租户数据隔离头疼了！用MyBatis-Plus Dynamic-Datasource 3.3.1，5分钟搞定SpringBoot多数据库切换

2026届毕业生推荐的降AI率方案推荐

Real-Anime-Z部署教程：Linux服务器一键拉起7860端口WebUI服务

2026届毕业生推荐的十大降AI率工具解析与推荐

告别杂乱点云：PCDViewer地面滤波与智能标注功能详解（附城区车载点云处理实例）

#VCS# 编译选项+vcs+initreg+random实战解析：从后仿困境到高效验证

推荐文章

相关文章

分享文章

更多文章

嵌入式系统分层设计与时间片轮转实战

案例一：员工薪资管理系统（核心：抽象类 + 继承 + 多态 + static）

【C++ 变量与常量】变量的定义、初始化、const 与 constexpr

【ArcMap实战】从度到米：栅格数据像元单位转换与Albers投影校正全流程解析

MongoDB（87）如何使用GridFS？

OpenClaw日志审计：记录SecGPT-14B的所有安全分析操作

VDA5050协议实战指南：智能工厂AGV通信标准化解决方案

C#全栈闭环时代来临：Blazor + MAUI + Aspire 2026三位一体架构，单代码库覆盖Web/iOS/Android/Desktop（附架构决策树）

ProgressBar.js颜色与样式自定义：打造品牌专属进度条的终极指南

reality-ezpz备份与迁移攻略：服务器配置无缝转移的3种方法

Shopify 定制化

Linux Kernel Debugging专栏概览

加载（Load） 和 切分（Split）

最新文章

别再为SaaS多租户数据隔离头疼了！用MyBatis-Plus Dynamic-Datasource 3.3.1，5分钟搞定SpringBoot多数据库切换

2026届毕业生推荐的降AI率方案推荐

Real-Anime-Z部署教程：Linux服务器一键拉起7860端口WebUI服务

2026届毕业生推荐的十大降AI率工具解析与推荐

告别杂乱点云：PCDViewer地面滤波与智能标注功能详解（附城区车载点云处理实例）

#VCS# 编译选项+vcs+initreg+random实战解析：从后仿困境到高效验证

推荐文章

相关文章

分享文章

更多文章

加载（Load）和切分（Split）