AI原生数据库Infinity实战：从混合搜索到RAG应用开发

张

张建站

2026/5/15 1:46:14

10分钟阅读

1. 项目概述从“无限流”到新一代AI原生数据库最近在AI应用开发圈里一个词被反复提及“AI原生数据库”。听起来挺高大上但说白了就是数据库这个老行当正在被大模型和向量检索技术彻底重塑。传统的MySQL、PostgreSQL擅长处理“你问我答”式的精确查询比如“找出用户ID为123的所有订单”。但今天我们的问题变成了“找出所有和‘性价比高的家用SUV’相关的用户反馈”。这种基于语义的模糊搜索、多模态内容的理解与关联传统数据库就有点力不从心了。正是在这个背景下我注意到了Infiniflow/Infinity这个项目。第一次看到这个名字我以为是某个流处理框架但深入了解后才发现它瞄准的正是“AI原生”这个核心战场。它不是简单的向量数据库插件也不是在传统数据库上套个向量检索的壳而是从零开始为处理非结构化数据文本、图像、音视频和AI工作流而设计的全新数据库内核。简单来说你可以把 Infinity 想象成一个为AI时代量身定做的“数据大脑”。它原生支持向量、全文、标量、混合搜索甚至能理解SQL让你用熟悉的语言去操作复杂的多模态数据。对于正在构建RAG检索增强生成应用、推荐系统、内容审核平台或者任何需要深度理解海量非结构化数据的开发者来说这无疑是一个值得深入研究的利器。接下来我就结合自己的研究和测试拆解一下Infinity的核心设计、实操要点以及它到底能解决什么实际问题。2. 核心架构与设计哲学拆解2.1 为什么是“AI原生”而非“向量插件”市面上已经有不少优秀的向量数据库如Milvus, Pinecone, Weaviate以及为PG/MySQL添加向量扩展的方案如pgvector。那Infinity的差异化价值在哪里关键在于“原生”二字。大多数向量数据库或扩展其架构核心仍然是围绕“向量”这一种数据类型进行优化。查询时你输入一个向量它帮你找出一堆相似的向量。这当然没错但对于一个真实的AI应用来说数据从来不是单一的。一份商品描述既有文本标题、详情也有嵌入后的向量还有结构化的标量数据价格、销量、分类ID。一次理想的搜索往往是混合的“找一款价格在3000-5000元之间、适合户外徒步、并且描述中提到‘轻便防水’的登山鞋。”传统方案需要你在应用层做多次查询然后合并或者依赖并不总是高效的混合索引。Infinity的设计哲学是从存储引擎、索引结构、查询优化器层面就将向量、全文、标量、范围、地理空间等多种查询模式视为一等公民。它的核心是一个统一的、列式的混合存储引擎不同类型的数据在底层被高效组织查询时由优化器自动选择最佳索引组合和执行路径而不是让应用层去“拼凑”结果。注意这种原生设计带来的一个直接好处是性能与一致性。在混合查询场景下避免了跨系统数据同步的延迟和一致性问题也减少了网络开销和序列化/反序列化成本。对于需要低延迟、高并发的在线服务这一点至关重要。2.2 核心组件与数据流向Infinity的架构可以粗略分为三层接口层、计算层和存储层。接口层这是开发者直接打交道的地方。Infinity提供了丰富的接入方式极大地降低了使用门槛。RESTful API这是最通用、最易集成的接口。通过HTTP请求即可完成所有数据操作任何语言、任何框架都能轻松调用。Python/Node.js SDK对主流开发语言提供了官方SDK封装了API细节用起来更符合语言习惯像操作本地对象一样简单。SQL Interface这是它的一个亮点。你可以使用标准的SQL带有一些扩展来操作表和进行查询这对于熟悉传统数据库的团队来说迁移和学习成本极低。它支持SELECT ... FROM ... WHERE ...这样的语句并在WHERE子句中嵌入向量相似度搜索如vec_distance(embedding, [0.1,0.2,...]) 0.8和全文搜索条件。计算层这是大脑负责解析查询、生成执行计划并优化。查询解析与优化器当你发起一个混合查询比如“价格100且向量相似度0.9”优化器会分析数据分布和索引情况决定是先做向量过滤再做标量过滤还是反过来或者利用混合索引并行执行。它会尽可能将计算下推到存储层减少不必要的数据移动。执行引擎负责按照优化后的计划协调各个索引的检索过程并对中间结果进行合并、排序、分页等操作。存储层这是心脏决定了数据的存取效率。混合存储引擎数据按列存储这对于分析型和搜索型负载非常友好。同一行的不同列如id,price,text_embedding,raw_text被分别存储和压缩。多模索引这是核心技术。Infinity会为适合的列自动或按需创建索引。向量索引支持HNSW近似最近邻搜索的黄金标准、IVF-Flat等用于高效的向量相似度检索。全文索引内置倒排索引支持分词、词干提取、停用词过滤等提供BM25相关性评分。标量索引B树、跳表等用于快速的等值、范围查询。元数据管理管理数据库、表、列、索引的定义和统计信息为优化器提供决策依据。数据流向示例用户通过Python SDK插入一段文本raw_text和其向量embedding- SDK通过REST API发送到服务端 - 存储引擎将raw_text和embedding分别写入对应的列存储文件 - 异步或根据策略为embedding列构建HNSW索引为raw_text列构建倒排索引 - 完成插入。3. 从零开始实战部署、建表与数据灌入理论讲再多不如动手跑一遍。我们以最常用的单机部署为例快速搭建一个Infinity环境并完成基础操作。3.1 环境准备与部署Infinity提供了多种部署方式包括Docker、从源码编译、以及直接下载预编译的二进制文件。对于快速体验和开发测试Docker无疑是最佳选择。首先确保你的机器上已经安装了Docker和Docker Compose。然后创建一个简单的docker-compose.yml文件version: 3.8 services: infinity: image: infiniflow/infinity:latest container_name: infinity_server ports: - 8080:8080 # REST API 端口 - 23817:23817 # 默认的查询端口可选取决于版本 environment: - INFINITY_DATA_PATH/var/infinity/data # 数据持久化目录 volumes: - ./infinity_data:/var/infinity/data # 将数据挂载到宿主机防止容器重启丢失 restart: unless-stopped保存文件后在终端执行docker-compose up -d。稍等片刻访问http://localhost:8080如果看到简单的欢迎信息或者API文档如果版本附带说明服务已经启动成功。实操心得生产环境部署需要考虑更多因素如高可用、资源隔离、监控等。Infinity的分布式版本正在开发中但目前单机版凭借其高效的C内核已经能处理千万级甚至亿级的向量数据对于许多中小型应用来说完全足够。务必通过volumes做好数据持久化这是血泪教训。3.2 连接与基础操作Python SDK示例接下来我们使用官方Python SDK进行交互。首先安装SDKpip install infinity-sdk。import infinity from infinity import URI # 1. 连接到本地Infinity服务器 conn infinity.connect(URI(127.0.0.1:8080)) db conn.get_database(default_db) # 获取或创建数据库 try: db.drop_table(my_products) # 如果表存在先清理测试用 except: pass # 2. 创建一张表 # 这里定义了几个列id整数 title变长文本 title_embedding768维浮点向量 price浮点数 description变长文本 table db.create_table(my_products, { id: {type: int64, primary: True}, # 指定主键 title: {type: varchar, 1024}, # 文本字段用于全文检索 title_embedding: {type: vector, 768, float}, # 关键定义向量列维度需与你的嵌入模型匹配 price: {type: float}, description: {type: varchar, 4096} }) print(Table my_products created successfully.)这段代码创建了一张产品表。注意title_embedding列的类型定义vector, 768, float。这里的768必须与你后续使用的文本嵌入模型如text-embedding-3-small的输出维度严格一致否则插入数据时会报错。3.3 数据插入与嵌入生成向Infinity插入数据尤其是向量数据通常需要一个前置步骤使用嵌入模型将文本转换为向量。这里我们以OpenAI的Embedding API为例你也可以使用本地模型如BGE、SentenceTransformers。import openai import numpy as np # 你的OpenAI API Key (请妥善保管不要硬编码在代码中) openai.api_key your-api-key def get_embedding(text, modeltext-embedding-3-small): 调用OpenAI API获取文本向量 response openai.embeddings.create( modelmodel, inputtext, encoding_formatfloat # 确保返回浮点数列表 ) return response.data[0].embedding # 模拟一些产品数据 products [ {id: 1, title: UltraLight Hiking Backpack 60L, price: 129.99, description: Durable, waterproof backpack for multi-day hikes.}, {id: 2, title: Professional DSLR Camera, price: 1899.99, description: Full-frame camera with 4K video recording.}, {id: 3, title: Wireless Noise-Canceling Headphones, price: 299.99, description: Over-ear headphones with superior sound isolation.}, {id: 4, title: Compact Travel Tripod, price: 89.99, description: Lightweight carbon fiber tripod for photographers on the go.}, ] # 批量插入数据 data_to_insert [] for p in products: embedding get_embedding(p[title] p[description]) # 将标题和描述拼接后生成向量 data_to_insert.append({ id: p[id], title: p[title], title_embedding: embedding, # 这里是向量列表 price: p[price], description: p[description] }) # 执行插入 table.insert(data_to_insert) print(fInserted {len(products)} rows.)关键技巧向量质量决定搜索上限。用什么文本生成向量是只用标题还是标题描述分类需要根据你的业务场景反复试验。通常更相关、更丰富的文本信息会产生区分度更高的向量。插入大批量数据时考虑使用异步或批量接口避免频繁的HTTP请求开销。4. 核心查询能力深度解析数据有了接下来就是施展Infinity混合搜索魔法的时候了。它的查询能力可以概括为四个方面纯向量搜索、纯全文搜索、混合搜索、以及类SQL的复杂过滤。4.1 纯向量搜索寻找“感觉相似”的东西这是向量数据库的看家本领。给定一个查询向量比如用户问题“适合长途旅行的背包”的嵌入找出库中最相似的产品。# 生成查询问题的向量 query_text a backpack for long journey and hiking query_embedding get_embedding(query_text) # 执行纯向量相似度搜索 # 使用 output 指定返回哪些列search_vector 指定向量列和查询向量 result table.output([id, title, price]).search_vector( title_embedding, query_embedding, float, ip # 使用内积ip作为相似度度量 ).limit(5).to_df() # 限制返回5条并转为Pandas DataFrame方便查看 print(Pure Vector Search Results:) print(result)这里有几个关键参数“float”: 指定向量数据类型。“ip”: 相似度度量方式。ip代表内积Inner Product值越大越相似。另一种常用的是“l2”欧氏距离值越小越相似。你必须确保插入向量和查询时使用的度量方式一致并且与构建索引时如果指定了的度量方式一致。HNSW索引在创建时就会绑定一种度量方式。4.2 纯全文搜索关键词匹配当你更关注精确的关键词时全文搜索就派上用场了。Infinity的全文搜索支持BM25算法能根据词频和逆文档频率给出相关性评分。# 执行全文搜索查找标题或描述中包含“waterproof”或“durable”的产品 # match 指定全文搜索的列和查询词 result table.output([id, title, description]).match( title, description, waterproof durable, topn5 # 在title和description列中搜索返回top5 ).to_df() print(\nFull-Text Search Results (BM25):) print(result)4.3 混合搜索Hybrid Search112的威力混合搜索是Infinity的强项它将向量搜索的“语义理解”和全文搜索的“关键词精确匹配”结合起来通过加权融合两种得分得到更符合用户复杂意图的结果。# 执行混合搜索既考虑语义相似度又考虑关键词匹配 # 假设我们想找“轻便的摄影器材” query_text_for_hybrid lightweight photography equipment query_embedding_for_hybrid get_embedding(query_text_for_hybrid) result table.output([id, title, price, description]).fusion( # 第一个分支向量搜索 lambda: table.search_vector(title_embedding, query_embedding_for_hybrid, float, ip).limit(10), # 第二个分支全文搜索 lambda: table.match(title, description, lightweight camera tripod, topn10), # 融合方法加权求和RRF, Weighted Sum等 methodweighted_sum, params{weights: [0.7, 0.3]} # 给向量搜索70%权重全文搜索30%权重 ).limit(5).to_df() print(\nHybrid Search Results (Weighted Sum):) print(result)权重如何设置这没有标准答案需要A/B测试。通常如果查询语句较长、语义丰富如自然语言问题向量搜索权重要高一些如果查询包含明确的产品型号、特定术语全文搜索权重要高一些。RRFReciprocal Rank Fusion是另一种流行的融合方法它不依赖分数绝对值只考虑排名对分数分布不一致的两种搜索方式更鲁棒。4.4 使用SQL进行复杂过滤与聚合对于习惯SQL的开发者或需要进行复杂业务过滤的场景Infinity的SQL接口非常好用。# 使用SQL进行查询找出价格低于100美元并且与“便携式音频设备”语义相似的产品 sql_query SELECT id, title, price, vec_distance(title_embedding, ?) as similarity FROM my_products WHERE price 100.0 ORDER BY similarity DESC LIMIT 5; # 注意这里的 ? 是参数占位符需要传入查询向量 query_vec_for_sql get_embedding(portable audio device) result conn.query(sql_query, params[query_vec_for_sql]).to_df() print(\nSQL Query with Vector Search and Filter:) print(result)这个例子展示了Infinity的强大之处你可以在一条SQL语句中同时进行向量相似度计算vec_distance、标量过滤price 100.0、排序和分页。这极大地简化了应用层逻辑。5. 性能调优与索引管理实战数据库性能三分靠设计七分靠调优。Infinity提供了灵活的索引选项正确的索引策略是保证查询速度的关键。5.1 向量索引配置详解创建表时我们可以为向量列指定索引类型和参数。如果不指定Infinity可能会使用默认配置或延迟构建。# 在创建表时指定向量索引以HNSW为例 table_with_index db.create_table(products_with_hnsw, { id: {type: int64, primary: True}, embedding: { type: vector, 768, float, index: { type: hnsw, # 索引类型 metric: ip, # 距离度量与搜索时一致 M: 16, # HNSW参数每个节点的最大连接数影响构建速度和精度 ef_construction: 200, # HNSW参数构建时的动态候选列表大小影响构建速度和精度 } }, text: {type: varchar, 1024} })HNSW参数解读与调优建议M通常设置在8到48之间。值越大图越稠密搜索精度越高但构建时间越长内存占用也越大。对于千万级数据16或24是个不错的起点。ef_construction构建时的参数影响索引的质量。值越大构建越慢但索引质量通常更好。一般设置为M * 10到M * 20左右。ef_search这是搜索时指定的参数不是在创建索引时它决定了搜索时遍历的候选集大小。ef_search越大搜索越精确但耗时越长。你可以在每次查询时调整它.search_vector(..., ef100)。避坑指南不要盲目追求最高精度。在业务可接受的召回率Recall下找到性能和精度的平衡点。对于海量数据亿级以上IVF-Flat倒排文件类索引可能比HNSW更有优势因为它能更好地利用磁盘IO和并行计算。Infinity未来也会支持更多索引类型。5.2 全文索引与分词器选择对于文本列全文索引的效能很大程度上取决于分词器Tokenizer。Infinity默认可能使用基于空格的分词或更智能的分词器。-- 假设通过SQL接口创建表并指定全文索引具体语法请参考最新文档 CREATE TABLE docs ( id INT64 PRIMARY KEY, content TEXT, -- 可能支持在创建时指定分词器、停用词等功能依赖版本 INDEX ft_idx ON docs(content) USING FULLTEXT WITH (analyzerstandard) );对于中文搜索分词器至关重要。你需要确认Infinity是否支持或如何集成中文分词插件如Jieba, IK Analyzer。通常这需要在部署时进行配置或使用特定版本。5.3 资源监控与瓶颈排查当查询变慢时如何定位问题查看查询计划如果Infinity提供了EXPLAIN功能类似传统数据库一定要用。它能告诉你查询是如何执行的是否用到了索引在哪里进行了全表扫描。# 假设未来版本支持EXPLAIN # explain_result conn.query(EXPLAIN SELECT ... FROM ... WHERE ...)关注系统指标CPU混合查询尤其是向量距离计算是CPU密集型操作。持续高CPU可能意味着并发查询过多或索引效率不高。内存HNSW索引和缓存的数据会驻留内存。确保服务器有足够RAM。如果内存不足会导致频繁的磁盘交换性能急剧下降。磁盘IO大量数据插入、索引构建或未命中缓存的查询会带来磁盘读写压力。使用SSD能极大提升性能。慢查询日志配置并开启慢查询日志定期分析那些耗时过长的查询优化其查询条件或考虑增加索引。6. 真实场景应用与选型思考6.1 典型应用场景RAG检索增强生成系统这是Infinity目前最火的应用场景。将知识库文档切片、向量化后存入Infinity。当用户提问时先从Infinity中检索出最相关的文档片段再将片段和问题一起交给大模型生成答案。Infinity的混合搜索能力能显著提升检索质量比如用全文搜索确保关键词命中用向量搜索保证语义相关。电商/内容平台推荐与搜索超越关键词匹配实现“搜你所想”。用户搜索“夏天透气不闷脚的鞋子”系统能通过向量搜索找到描述中有“透气网面”、“夏季款”、“轻便”等语义的产品即使标题里没有这些词。多模态检索虽然当前示例以文本为主但Infinity的向量列可以存储任何模态的嵌入图像、音频、视频CLIP嵌入。你可以构建一个跨模态搜索引擎用文字搜图片或用图片找相似图片。欺诈检测与内容安全将正常和异常的用户行为、交易描述、聊天内容转化为向量通过相似度搜索快速识别潜在风险模式。6.2 与同类产品的对比选型在选择Infinity时不妨将其与其他方案对比特性/产品Infinity专用向量DB (如Milvus)PGpgvectorElasticsearch向量插件核心优势原生多模混合查询SQL支持友好向量检索性能极致生态成熟利用PG强大生态ACID事务全文检索霸主生态丰富查询能力向量全文标量深度融合强在向量混合查询需额外处理支持向量和标量全文靠PG自带较弱强在全文向量作为插件集成易用性RESTful API SQL SDK上手快通常有专属SDK和集群管理工具对熟悉PG的开发者友好对熟悉ES的开发者友好部署复杂度相对简单单机/未来分布式分布式部署有一定复杂度依赖PG部署向量扩展简单ES集群部署运维复杂适用场景强混合搜索需求的AI应用快速原型开发超大规模、纯向量或向量为主的场景已有PG栈向量需求作为补充全文检索为主向量搜索为辅选型建议如果你的应用重度依赖语义搜索且需要频繁结合关键词、价格、时间等条件进行过滤Infinity的原生混合设计会带来显著的开发和性能优势。如果你已经有一个成熟的PostgreSQL生态并且向量搜索需求是渐进增加的pgvector是一个平滑、稳定的选择。如果你的数据量极其庞大百亿向量以上且场景相对纯粹比如人脸识别底库检索那么Milvus这类经过超大规模场景验证的专用向量数据库可能更合适。如果你的业务核心是日志分析、复杂文本检索向量只是锦上添花那么Elasticsearch的统治地位依然难以撼动。6.3 当前局限与未来展望Infinity作为一个新兴项目有其强大的潜力但也需正视当前阶段的一些限制分布式版本成熟度其真正的分布式弹性伸缩能力还在演进中对于需要处理超大规模数据且对线性扩展有强需求的企业级场景需要密切关注其发展路线图。生态与工具链相比MySQL、PostgreSQL这些几十年历史的数据库Infinity的周边生态如监控工具、备份方案、ORM集成、图形化管理客户端还处于早期建设阶段。社区与支持开源项目的活力取决于社区。虽然发展迅速但遇到深层次问题时可参考的案例和解决方案可能不如成熟产品丰富。不过其开发团队迭代速度很快对“AI原生”这一方向的把握非常精准。在我看来它代表了数据库演进的一个重要方向不再是被动存储数据的仓库而是能主动理解数据语义、智能连接信息片段的“认知层”。对于正在探索AI应用落地的团队将Infinity纳入技术选型清单进行深入的PoC验证绝对是值得投入时间的一件事。最后再分享一个我自己的小技巧在项目早期不要过度纠结于索引参数调优。先用默认配置或一组保守的参数如HNSW的M16, ef_construction200把数据和查询链路跑通。收集一批真实的查询日志后再针对性地分析性能瓶颈和召回效果进行有的放矢的调优。先让系统转起来再用数据驱动它变得更快更好这是应对所有新技术栈的务实之道。

rpc和http的区别

grpc和http的区别协议层面 http是应用层协议，每次携带大量头部字段，包括connection、host、user-agent、cookie等rpc通常用自定义二进制格式，头部极小，具体看 gRPC 数据包传输格式解析序列化层面 http常用json，字…...

2026/5/15 1:43:23 阅读更多 →

AUTOSAR模型驱动开发与IBM Rational工具链实战

1. 模型驱动开发在AUTOSAR体系中的核心价值现代汽车电子系统（E/E）的复杂度正呈指数级增长，单辆高端车型可能包含超过150个电子控制单元（ECU）和上亿行代码。面对这种复杂性，传统基于文档的开发方式已显疲态。…...

2026/5/15 1:38:08 阅读更多 →

CodeUpdaterBot/ClickUi：多语言依赖自动化更新与可视化管理的工程实践

1. 项目概述：一个为代码更新而生的自动化界面工具如果你和我一样，长期维护着多个开源项目或者公司内部的不同代码库，那么“更新依赖”这件事，绝对能排进日常琐事烦人榜的前三名。每次看到package.json、requirements.txt、go.mod里…...

2026/5/15 1:36:07 阅读更多 →

4月28日隐喻“鲸鱼开眼”，DeepSeek识图模式灰度上线，迈入图文交互时代！

4月28日，DeepSeek多模态团队研究员推文隐喻“鲸鱼开眼”，次日开启“识图模式”灰度内测，5月初大范围开放。该模式有亮点也有短板，标志其迈入图文交互时代。事件回顾4月28日，DeepSeek多模态团队研究员陈小康在X平台推文…...

2026/5/14 8:57:36 阅读更多 →

AI赋能高能物理：图神经网络与生成式模型在粒子径迹重建与模拟中的应用

1. 项目概述：当AI遇见高能物理的“显微镜”电子离子对撞机（EIC），被誉为探索物质深层结构的下一代“超级显微镜”。它不像我们熟悉的LHC那样让质子对撞，而是让高能电子去轰击质子或重离子，其核心目标是精确“…...

2026/5/14 8:53:29 阅读更多 →

A/B 测试前后的合成控制样本

原文：towardsdatascience.com/synthetic-control-sample-for-before-and-after-a-b-test-683bac36ffc1 简介 A/B 测试非常强大。我喜欢这种实验，因为它让我们能够比较结果，并确定某物是否比另一物表现更好。 A/B 测试有一个特定类型&#x…...

2026/5/14 8:56:05 阅读更多 →