模型库 / BAAI/bge-reranker-base

bge-reranker-base

BAAI text-classification sentence-transformers en zh
BAAI/bge-reranker-base
3,795,508
下载量
233
收藏数
11
浏览量
mit
许可

简介

**我们已更新了新的重排序器,支持更长的序列长度、更多语言,并实现了更优的性能。**

模型卡片

许可协议 mit
语言
en zh
框架 sentence-transformers
任务 text-classification
mteb text-embeddings-inference

模型配置

模型类型 xlm-roberta
架构 XLMRobertaForSequenceClassification

模型详情

已翻译

我们已更新了新的 reranker,支持更长的序列、更多语言,并实现了更优的性能。

FlagEmbedding

    模型列表 | 
    常见问题 |
    使用方法  |
    评估 |
    训练 |
    引用 |
    许可证

更多详情请参阅我们的 Github:FlagEmbedding

English | 中文

FlagEmbedding 专注于检索增强型大语言模型(LLM),目前包含以下项目:

新闻

  • 2024/3/18:发布新的 rerankers,基于强大的 M3 和 LLM(GEMMA 和 MiniCPM,实际上并不算大)骨干网络构建,支持多语言处理和更大输入,在 BEIR、C-MTEB/Retrieval、MIRACL、LlamaIndex Evaluation 上的排序性能大幅提升。
  • 2024/3/18:发布 Visualized-BGE,为 BGE 赋予视觉能力。Visualized-BGE 可用于生成混合图像-文本数据的 embedding。
  • 2024/1/30:发布 BGE-M3,BGE 模型系列的新成员!M3 代表 Multi-linguality(100+ 语言)、Multi-granularities(输入长度可达 8192)、Multi-Functionality(统一了 dense、lexical、multi-vec/colbert 检索)。它是首个支持全部三种检索方法的 embedding 模型,在多语言(MIRACL)和跨语言(MKQA)基准测试中取得了新的 SOTA 成绩。技术报告代码。:fire:
  • 2024/1/9:发布 Activation-Beacon,一种有效、高效、兼容且低成本(训练)的方法,用于扩展 LLM 的上下文长度。技术报告 :fire:
  • 2023/12/24:发布 LLaRA,一个基于 LLaMA-7B 的密集检索器,在 MS MARCO 和 BEIR 上取得了 SOTA 性能。模型和代码将开源,敬请期待。技术报告
  • 2023/11/23:发布 LM-Cocktail,一种通过合并多个语言模型来在微调过程中保持通用能力的方法。技术报告 :fire:
  • 2023/10/12:发布 LLM-Embedder,一个统一的 embedding 模型,用于支持 LLM 的多样化检索增强需求。技术报告
  • 2023/09/15:BGE 的 技术报告 已发布
  • 2023/09/15:BGE 的 大规模训练数据 已发布
  • 2023/09/12:新模型:
    • 新的 reranker 模型:发布交叉编码器模型 BAAI/bge-reranker-baseBAAI/bge-reranker-large,比 embedding 模型更强大。建议使用或微调它们来对 embedding 模型返回的 top-k 文档进行重新排序。
    • 更新 embedding 模型:发布 bge-*-v1.5 embedding 模型,以缓解相似度分布问题,并增强其在无指令情况下的检索能力。

更多

标签

onnx xlm-roberta mteb text-embeddings-inference en zh arxiv:2401.03462 arxiv:2312.15503

操作


详细信息

厂商
BAAI
任务
text-classification
框架
sentence-transformers
模型类型
xlm-roberta
许可(HF)
mit
语言
en, zh