{ "title": "1G内存检索2500万向量?FLAT的标量过滤优化值得重新审视", "content": "看到Milvus社区这个案例,我第一反应是:1G内存检索2500万向量还带强标量过滤,这FLAT方案是不是有点反直觉?仔细拆解后,发现关键在于标量过滤的‘预筛选’策略。传统上我们总认为向量检索的瓶颈在距离计算,但实际在强过滤场景下,向量维度(比如128维)可能远小于标量索引的规模。Milvus这里用倒排索引先做标量过滤,将候选集压缩到几千甚至几百条,再对候选集做FLAT暴力搜索,这样内存开销仅需存储原始向量,而过滤后的计算量极低。个人经验:我之前在电商相似图检索中,用HNSW加标