bge-reranker-base

BAAI text-classification sentence-transformers en zh

BAAI/bge-reranker-base

3,795,508

下载量

233

收藏数

32

浏览量

mit

许可

简介

**我们已更新了新的重排序器，支持更长的序列长度、更多语言，并实现了更优的性能。**

模型卡片

许可协议 mit

语言

en zh

框架 sentence-transformers

任务 text-classification

mteb text-embeddings-inference

模型配置

模型类型 xlm-roberta

架构 XLMRobertaForSequenceClassification

模型详情

已翻译

我们已更新了新的 reranker，支持更长的序列、更多语言，并实现了更优的性能。

FlagEmbedding

    模型列表 | 
    常见问题 |
    使用方法  |
    评估 |
    训练 |
    引用 |
    许可证

更多详情请参阅我们的 Github：FlagEmbedding。

English | 中文

FlagEmbedding 专注于检索增强型大语言模型（LLM），目前包含以下项目：

长上下文 LLM：Activation Beacon
LM 微调：LM-Cocktail
Embedding 模型：Visualized-BGE、BGE-M3、LLM Embedder、BGE Embedding
Reranker 模型：llm rerankers、BGE Reranker
基准测试：C-MTEB

新闻

2024/3/18：发布新的 rerankers，基于强大的 M3 和 LLM（GEMMA 和 MiniCPM，实际上并不算大）骨干网络构建，支持多语言处理和更大输入，在 BEIR、C-MTEB/Retrieval、MIRACL、LlamaIndex Evaluation 上的排序性能大幅提升。
2024/3/18：发布 Visualized-BGE，为 BGE 赋予视觉能力。Visualized-BGE 可用于生成混合图像-文本数据的 embedding。
2024/1/30：发布 BGE-M3，BGE 模型系列的新成员！M3 代表 Multi-linguality（100+ 语言）、Multi-granularities（输入长度可达 8192）、Multi-Functionality（统一了 dense、lexical、multi-vec/colbert 检索）。它是首个支持全部三种检索方法的 embedding 模型，在多语言（MIRACL）和跨语言（MKQA）基准测试中取得了新的 SOTA 成绩。技术报告和代码。:fire:
2024/1/9：发布 Activation-Beacon，一种有效、高效、兼容且低成本（训练）的方法，用于扩展 LLM 的上下文长度。技术报告 :fire:
2023/12/24：发布 LLaRA，一个基于 LLaMA-7B 的密集检索器，在 MS MARCO 和 BEIR 上取得了 SOTA 性能。模型和代码将开源，敬请期待。技术报告
2023/11/23：发布 LM-Cocktail，一种通过合并多个语言模型来在微调过程中保持通用能力的方法。技术报告 :fire:
2023/10/12：发布 LLM-Embedder，一个统一的 embedding 模型，用于支持 LLM 的多样化检索增强需求。技术报告
2023/09/15：BGE 的技术报告已发布
2023/09/15：BGE 的大规模训练数据已发布
2023/09/12：新模型：
- 新的 reranker 模型：发布交叉编码器模型 BAAI/bge-reranker-base 和 BAAI/bge-reranker-large，比 embedding 模型更强大。建议使用或微调它们来对 embedding 模型返回的 top-k 文档进行重新排序。
- 更新 embedding 模型：发布 bge-*-v1.5 embedding 模型，以缓解相似度分布问题，并增强其在无指令情况下的检索能力。

更多

2023/09/07：更新微调代码：添加脚本以

bge-reranker-base

简介

模型卡片

模型配置

模型详情

新闻

标签

操作

详细信息