模型库 / BAAI/bge-base-en-v1.5

bge-base-en-v1.5

BAAI feature-extraction sentence-transformers en
BAAI/bge-base-en-v1.5
8,610,755
下载量
626
收藏数
16
浏览量
mit
许可

简介

Model List | FAQ | Usage | Evaluation | Train | Contact | Citation | License

模型卡片

许可协议 mit
语言
en
sentence-transformers feature-extraction sentence-similarity transformers mteb

模型配置

模型类型 bert
架构 BertModel

模型详情

已翻译

FlagEmbedding

    模型列表 | 
    常见问题 |
    使用方法  |
    评估 |
    训练 |
    联系我们 |
    引用 |
    许可证

更多详情请参考我们的 Github:FlagEmbedding

如果您正在寻找支持更多语言、更长文本及其他检索方法的模型,可以尝试使用 bge-m3

English | 中文

FlagEmbedding 专注于检索增强的大语言模型,目前包含以下项目:

新闻

  • 2024年1月30日:发布 BGE-M3,BGE 模型系列的新成员!M3 代表 Multi-linguality(100+ 语言)、Multi-granularities(输入长度可达 8192)、Multi-Functionality(统一稠密、词汇、多向量/ColBERT 检索)。这是首个支持全部三种检索方法的 embedding 模型,在多语言(MIRACL)和跨语言(MKQA)基准测试中取得了新的 SOTA 成绩。技术报告代码。:fire:
  • 2024年1月9日:发布 Activation-Beacon,一种有效、高效、兼容且低成本(训练)的方法,用于扩展 LLM 的上下文长度。技术报告 :fire:
  • 2023年12月24日:发布 LLaRA,基于 LLaMA-7B 的稠密检索器,在 MS MARCO 和 BEIR 上取得了最先进的性能。模型和代码将开源,敬请期待。技术报告 :fire:
  • 2023年11月23日:发布 LM-Cocktail,一种通过合并多个语言模型来在微调过程中保持通用能力的方法。技术报告 :fire:
  • 2023年10月12日:发布 LLM-Embedder,一个统一的 embedding 模型,支持 LLM 的多种检索增强需求。技术报告
  • 2023年9月15日:BGE 的 技术报告大规模训练数据 已发布
  • 2023年9月12日:新模型:
    • 新的重排序模型:发布交叉编码器模型 BAAI/bge-reranker-baseBAAI/bge-reranker-large,比 embedding 模型更强大。我们建议使用或微调它们来对 embedding 模型返回的 top-k 文档进行重排序。
    • 更新 embedding 模型:发布 bge-*-v1.5 embedding 模型,以缓解相似度分布问题,并增强其在无指令情况下的检索能力。

更多

  • 2023年9月7日:更新 微调代码:添加挖掘难负样本的脚本,并支持在微调过程中添加指令。
  • 2023年8月9日:BGE 模型已集成到 Langchain 中,您可以像这样使用;C-MTEB 排行榜上线
  • 2023年8月5日:发布 base 和 small 规模的模型,在同尺寸模型中性能最佳 🤗
  • 2023年8月2日:发布 bge-large-*(BAAI General Embedding 的缩写)模型,在 MTEB 和 C-MTEB 基准测试中排名第一! :tada: :tada:
  • 2023年8月1日:我们发布了 中文大规模文本嵌入基准C-MTEB),包含 31 个测试数据集。

模型列表

bgeBAAI general embedding 的缩写。

| 模型 | L

标签

onnx bert sentence-similarity mteb en arxiv:2401.03462 arxiv:2312.15503 arxiv:2311.13534

操作


详细信息

厂商
BAAI
任务
feature-extraction
框架
sentence-transformers
模型类型
bert
许可(HF)
mit
语言
en