LangChain-AI应用开发框架(十一)

张开发

• 2026/4/20 7:06:51 • 15 分钟阅读

分享文章

一.嵌入与嵌入模型Embedding and Embedding Models1.什么是向量2.嵌入模型应用场景二.Embeddings嵌入模型类更多的链接:https://docs.langchain.com/oss/python/integrations/providers/overview1.定义嵌入模型pip install --upgrade langchain langchain-community zhipuai# 直接替换将 OpenAI 改为智谱的 Embeddings 类 from langchain_community.embeddings import ZhipuAIEmbeddings # 定义嵌入模型1:1 对应你的 OpenAI 写法 embeddings ZhipuAIEmbeddings( modelembedding-3, # 对应 OpenAI 的 text-embedding-3-large dimensions1024 # 支持自定义维度256/512/1024/2048 )2.嵌入文档列表import os import getpass # 1. 配置 API Key智谱AI if not os.getenv(ZHIPUAI_API_KEY): os.environ[ZHIPUAI_API_KEY] getpass.getpass(请输入智谱AI API Key: ) # 2. 导入基础模块保持不变 from langchain_community.document_loaders import UnstructuredMarkdownLoader from langchain_text_splitters import CharacterTextSplitter # 3. 核心替换导入智谱的 Embeddings 类 from langchain_community.embeddings import ZhipuAIEmbeddings # 加载 Markdown 文件 markdown_path ../Docs/Markdown/脚手架级微服务租房平台QA.md loader UnstructuredMarkdownLoader(markdown_path) data loader.load() # 分割文档 text_splitter CharacterTextSplitter.from_tiktoken_encoder( encoding_namecl100k_base, chunk_size200, chunk_overlap50 ) documents text_splitter.split_documents(data) # 4. 定义嵌入模型1:1 对应你的 OpenAI 写法 embeddings ZhipuAIEmbeddings( modelembedding-3, # 对应 OpenAI 的 text-embedding-3-large dimensions1024 # 智谱支持自定义维度256~2048 ) # 5. 嵌入文档列表生成向量列表 texts [doc.page_content for doc in documents] documents_vector embeddings.embed_documents(texts) # 6. 打印结果 print(f文档数量为: {len(documents)}, 生成了{len(documents_vector)}个向量的列表) print(f第一个文档向量维度: {len(documents_vector[0])}) print(f第二个文档向量维度: {len(documents_vector[1])})3.嵌入单个查询# 直接替换将 OpenAI 改为智谱的 Embeddings 类 from langchain_community.embeddings import ZhipuAIEmbeddings # 定义嵌入模型1:1 对应你的 OpenAI 写法 embeddings ZhipuAIEmbeddings( modelembedding-3, # 对应 OpenAI 的 text-embedding-3-large dimensions1024 # 支持自定义维度256/512/1024/2048 ) #将query转化成向量标识 query_vector embeddings.embed_query(你好) print(fembedding-3 向量维度: {len(query_vector)}) print(f向量前5个数值: {query_vector[:5]})三.向量存储Vector Stores1.向量数据库介绍链接:https://python.langchain.com/docs/integrations/vectorstores/2.内存存储from langchain_openai import OpenAIEmbeddings from langchain_core.vectorstores import InMemoryVectorStore # 定义嵌⼊模型 embeddings OpenAIEmbeddings(modeltext-embedding-3-large) # 内存存储初始化 vector_store InMemoryVectorStore(embeddingembeddings)from langchain_community.document_loaders import UnstructuredMarkdownLoader from langchain_text_splitters import CharacterTextSplitter # ⽣成分割器 text_splitter CharacterTextSplitter.from_tiktoken_encoder( encoding_namecl100k_base, chunk_size200, chunk_overlap50 ) # 加载⽂档 data UnstructuredMarkdownLoader(../Docs/Markdown/脚⼿架级微服务租房平台 QA.md).load() # 分割⽂档 documents text_splitter.split_documents(data) # 添加⽂档 ids vector_store.add_documents(documentsdocuments) print(f共编排了{len(ids)}个⽂档索引) print(f前3个⽂档的索引是{ids[:3]})from langchain_community.document_loaders import UnstructuredMarkdownLoader from langchain_community.embeddings import ZhipuAIEmbeddings from langchain_core.vectorstores import InMemoryVectorStore from langchain_text_splitters import CharacterTextSplitter embeddings ZhipuAIEmbeddings( modelembedding-3, # 对应 OpenAI 的 text-embedding-3-large ) vector_store InMemoryVectorStore(embeddingembeddings) # 加载 Markdown 文件 markdown_path ../Docs/Markdown/脚手架级微服务租房平台QA.md loader UnstructuredMarkdownLoader(markdown_path) data loader.load() # 分割文档 text_splitter CharacterTextSplitter.from_tiktoken_encoder( encoding_namecl100k_base, chunk_size400, chunk_overlap50 ) #文档列表 documents text_splitter.split_documents(data) #存储文档到内存向量存储中 ids vector_store.add_documents(documents) print(f共有{len(documents)}个文档,编排了{len(ids)}个索引) print(f前三个文档的索引:{ids[:3]}) # #根据索引获取文档 # doc_2 vector_store.get_by_ids(ids[:2]) # print(doc_2) # # #删除文档 # vector_store.delete(idsids[:2]) # doc_2 vector_store.get_by_ids(ids[:3]) # print(doc_2) #检索 search_dosc vector_store.similarity_search(query项目介绍,k2) for doc in search_dosc: print(* * 30) print(doc.page_content)from langchain_core.documents import Document def _filter_function(doc: Document) - bool: return doc.metadata.get(source) hahaha search_docs vector_store.similarity_search( query数据库表怎么设计的, k2, filter_filter_function ) for doc in search_docs: print(* * 30) print(doc.page_content)我们把source换成../Docs/markdown/....就又可以进行检索了

更多文章

前端开发 2026/4/18 10:45:14

Cursor Free VIP：终极解决方案，突破Cursor AI限制，免费享受Pro功能

Cursor Free VIP：终极解决方案，突破Cursor AI限制，免费享受Pro功能【免费下载链接】cursor-free-vip [Support 0.45]（Multi Language 多语言）自动注册 Cursor Ai ，自动重置机器ID ， 免费升级使…

前言在数字化高速发展的今天，大数据已经成为企业核心竞争力的重要组成部分。大数据分布式集群作为存储与计算海量数据的基础平台，其搭建、配置、管理与稳定运行，是大数据运维工作的重中之重。对于初学者而言，环境搭建复杂、网络异…

张开发

前端开发 2026/4/17 6:34:30

用MATLAB复现近场2D-MUSIC算法：从信号模型到三维谱峰图（附完整代码）

用MATLAB实现近场2D-MUSIC算法：从理论推导到三维可视化实战在无线通信、雷达探测和声学成像等领域，准确估计信号源的方位和距离至关重要。传统DOA（Direction of Arrival）估计方法大多基于远场平面波假设，但在实际应用…

张开发

LangChain-AI应用开发框架(十一)

最新文章

I2C SPI 画图工具程序合集

BluetoothKit架构设计：代理模式与闭包回调的优雅实现

Sublimetext-markdown-preview插件架构分析：从事件监听器到编译器设计

为什么你的项目需要GoogleAuthenticator？5大安全优势解析

Django-ecommerce支付集成实战：Stripe API深度配置与安全处理

MoeKoeMusic：开源音乐播放器终极指南，免费解锁VIP特权

推荐文章

终极Python m3u8下载器：如何快速解密并批量下载加密视频的完整指南

5分钟搞定抖音素材批量下载：douyin-downloader让你的创作效率翻倍

Python高级应用系列（八）：并发编程——Threading、Multiprocessing与并发模式

CSS如何使用-is伪类缩减重复选择器_通过分组选择器提升代码维护效率

Vue.js监听器watch中deep深度监听与immediate立即执行配置

Redis怎样清理旧的快照文件_配合Shell脚本实现RDB历史备份轮转

相关文章

钢坯火焰清理机设计【开题报告+任务书+毕业论文+CAD图纸+翻译】

15 | Claude Code Hooks 事件驱动自动化：防微杜渐的安全防线

Linux党福利：Debian12下用VSCode+SDCC玩转51单片机（含WSL配置指南）

从微调到精控：可变电阻在音频电路中的深度应用解析

Mahony、互补滤波与卡尔曼：给嵌入式新手的六轴姿态融合算法选型指南

保姆级教程：在WSL2的Ubuntu 22.04上，用CUDA 12.9编译运行llama.cpp（含模型下载避坑指南）

分享文章

更多文章

Cursor Free VIP：终极解决方案，突破Cursor AI限制，免费享受Pro功能

国风AI绘画新选择：Guohua Diffusion快速部署与实战测评

Anaconda conda命令全攻略：环境管理与包操作实战指南

2026最新数据抓取实战：如何用 ChatGPT 实现网页数据抓取？

多模态生成不是“拼接”，而是“共演化”：2026奇点大会公布的23项基准测试数据，彻底改写行业评估范式

alibaba.easyexcel导入导出

StructBERT模型Web服务化实战：使用Docker与Nginx实现高可用部署

保姆级教程：用ClearerVoice-Studio一键搞定会议录音降噪与语音分离

Maven插件依赖问题终极解决指南，HarmonyOS应用深度开发：ArkTS语法精要与UI组件实践。

Edp模块总结

大数据分布式集群搭建与运维基础

用MATLAB复现近场2D-MUSIC算法：从信号模型到三维谱峰图（附完整代码）

LangChain-AI应用开发框架(十一)

最新文章

I2C SPI 画图 工具 程序合集

BluetoothKit架构设计：代理模式与闭包回调的优雅实现

Sublimetext-markdown-preview插件架构分析：从事件监听器到编译器设计

为什么你的项目需要GoogleAuthenticator？5大安全优势解析

Django-ecommerce支付集成实战：Stripe API深度配置与安全处理

MoeKoeMusic：开源音乐播放器终极指南，免费解锁VIP特权

推荐文章

终极Python m3u8下载器：如何快速解密并批量下载加密视频的完整指南

5分钟搞定抖音素材批量下载：douyin-downloader让你的创作效率翻倍

Python高级应用系列（八）：并发编程——Threading、Multiprocessing与并发模式

CSS如何使用-is伪类缩减重复选择器_通过分组选择器提升代码维护效率

Vue.js监听器watch中deep深度监听与immediate立即执行配置

Redis怎样清理旧的快照文件_配合Shell脚本实现RDB历史备份轮转

相关文章

钢坯火焰清理机设计【开题报告+任务书+毕业论文+CAD图纸+翻译】

15 | Claude Code Hooks 事件驱动自动化：防微杜渐的安全防线

Linux党福利：Debian12下用VSCode+SDCC玩转51单片机（含WSL配置指南）

从微调到精控：可变电阻在音频电路中的深度应用解析

Mahony、互补滤波与卡尔曼：给嵌入式新手的六轴姿态融合算法选型指南

保姆级教程：在WSL2的Ubuntu 22.04上，用CUDA 12.9编译运行llama.cpp（含模型下载避坑指南）

分享文章

更多文章

I2C SPI 画图工具程序合集