找回密码
 立即注册
首页 业界区 安全 RAG系统

RAG系统

鞠古香 2025-5-31 23:39:01
1.png

     在数据准备阶段,系统对多种格式(如PDF、TXT)的文档进行多模解析,转换为统一的文本对象,同时附加元数据(如标题、创建时间),以便于检索和过滤。接着,系统构建正向和倒排索引,为检索提供高效的数据支持。
检索过程分为两个阶段。第一阶段采用BM25算法,利用倒排索引基于词频(TF)和逆文档频率(IDF)快速匹配包含查询关键词的候选文档,初步筛选出相关内容。第二阶段通过BGE-M3模型将查询和候选文档转化为768维嵌入向量,利用FAISS索引执行最近邻搜索,通过余弦相似度计算进行语义排序,进一步提升文档的相关性。
     随后,系统使用bge-reranker-v2-m3模型对检索结果进行重排序。该模型将查询与每个候选文档拼接后输入Transformer,重新计算更精确的相似度分数,解决嵌入模型可能因信息压缩导致的精度损失,最终筛选出Top-K最相关文档。
     最后,Qwen2模型以重排序后的Top-K文档为上下文,结合用户原始查询生成最终答案并输出给用户。

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册