bge-base-en-v1.5

BAAI feature-extraction sentence-transformers en

BAAI/bge-base-en-v1.5

8,610,755

下载量

648

收藏数

34

浏览量

mit

许可

简介

模型卡片

许可协议 mit

语言

en

sentence-transformers feature-extraction sentence-similarity transformers mteb

模型配置

模型类型 bert

架构 BertModel

模型详情

已翻译

FlagEmbedding

    模型列表 | 
    常见问题 |
    使用方法  |
    评估 |
    训练 |
    联系我们 |
    引用 |
    许可证

更多详情请参考我们的 Github：FlagEmbedding。

如果您正在寻找支持更多语言、更长文本及其他检索方法的模型，可以尝试使用 bge-m3。

English | 中文

FlagEmbedding 专注于检索增强的大语言模型，目前包含以下项目：

长上下文 LLM：Activation Beacon
LM 微调：LM-Cocktail
稠密检索：BGE-M3、LLM Embedder、BGE Embedding
重排序模型：BGE Reranker
基准测试：C-MTEB

新闻

2024年1月30日：发布 BGE-M3，BGE 模型系列的新成员！M3 代表 Multi-linguality（100+ 语言）、Multi-granularities（输入长度可达 8192）、Multi-Functionality（统一稠密、词汇、多向量/ColBERT 检索）。这是首个支持全部三种检索方法的 embedding 模型，在多语言（MIRACL）和跨语言（MKQA）基准测试中取得了新的 SOTA 成绩。技术报告和代码。:fire:
2024年1月9日：发布 Activation-Beacon，一种有效、高效、兼容且低成本（训练）的方法，用于扩展 LLM 的上下文长度。技术报告 :fire:
2023年12月24日：发布 LLaRA，基于 LLaMA-7B 的稠密检索器，在 MS MARCO 和 BEIR 上取得了最先进的性能。模型和代码将开源，敬请期待。技术报告 :fire:
2023年11月23日：发布 LM-Cocktail，一种通过合并多个语言模型来在微调过程中保持通用能力的方法。技术报告 :fire:
2023年10月12日：发布 LLM-Embedder，一个统一的 embedding 模型，支持 LLM 的多种检索增强需求。技术报告
2023年9月15日：BGE 的技术报告和大规模训练数据已发布
2023年9月12日：新模型：
- 新的重排序模型：发布交叉编码器模型 BAAI/bge-reranker-base 和 BAAI/bge-reranker-large，比 embedding 模型更强大。我们建议使用或微调它们来对 embedding 模型返回的 top-k 文档进行重排序。
- 更新 embedding 模型：发布 bge-*-v1.5 embedding 模型，以缓解相似度分布问题，并增强其在无指令情况下的检索能力。

更多

2023年9月7日：更新微调代码：添加挖掘难负样本的脚本，并支持在微调过程中添加指令。
2023年8月9日：BGE 模型已集成到 Langchain 中，您可以像这样使用；C-MTEB 排行榜已上线。
2023年8月5日：发布 base 和 small 规模的模型，在同尺寸模型中性能最佳 🤗
2023年8月2日：发布 bge-large-*（BAAI General Embedding 的缩写）模型，在 MTEB 和 C-MTEB 基准测试中排名第一！ :tada: :tada:
2023年8月1日：我们发布了中文大规模文本嵌入基准（C-MTEB），包含 31 个测试数据集。

模型列表

bge 是 BAAI general embedding 的缩写。

| 模型 | L

bge-base-en-v1.5

简介

模型卡片

模型配置

模型详情

新闻

模型列表

标签

操作

详细信息