模型库 / FinLang/finance-embeddings-investopedia

finance-embeddings-investopedia

FinLang sentence-similarity sentence-transformers
FinLang/finance-embeddings-investopedia
2,937,393
下载量
64
收藏数
13
浏览量
cc-by-nc-4.0
许可

简介

这是FinLang团队为金融应用开发的Investopedia嵌入模型。该模型使用我们开源的金融数据集进行训练,数据集来自https://huggingface.co/datasets/FinLang/investopedia-embedding-dataset

模型卡片

许可协议 cc-by-nc-4.0
框架 sentence-transformers
任务 sentence-similarity
sentence-transformers feature-extraction sentence-similarity

模型配置

模型类型 bert
架构 BertModel

模型详情

已翻译

FinLang/finance-embeddings-investopedia

这是 FinLang 团队为金融应用开发的 Investopedia embedding 模型。该模型使用我们在 https://huggingface.co/datasets/FinLang/investopedia-embedding-dataset 开源的数据集进行训练。

该模型是在 BAAI/bge-base-en-v1.5 基础上微调得到的 embedding 模型。它将句子和段落映射到 768 维的稠密向量空间,可用于 RAG 应用中的聚类或语义搜索等任务。

本项目仅用于研究目的。第三方数据集可能受其相关许可协议中的附加条款约束。

计划

  • 研究论文即将发表。
  • 我们正在开发模型的 v2 版本,将扩大金融数据的训练语料库,并采用改进的技术来训练 embedding。

使用方法(LLamaIndex)

在构建金融 RAG 应用的索引流程时,只需指定 Finlang embedding 即可。

from llama_index.embeddings import HuggingFaceEmbedding
embed_model = HuggingFaceEmbedding(model_name="FinLang/investopedia_embedding")

使用方法(Sentence-Transformers)

安装 sentence-transformers 后(参见 https://huggingface.co/sentence-transformers),即可轻松使用该模型:

pip install -U sentence-transformers

然后你可以像这样使用模型:

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('FinLang/investopedia_embedding')
embeddings = model.encode(sentences)
print(embeddings)

示例代码测试:

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("FinLang/investopedia_embedding")

query_1 = "What is a potential concern with allowing someone else to store your cryptocurrency keys, and is it possible to decrypt a private key?"
query_2 = "A potential concern is that the entity holding your keys has control over your cryptocurrency in a custodial relationship. While it is theoretically possible to decrypt a private key, with current technology, it would take centuries or millennia for the 115 quattuorvigintillion possibilities. Most hacks and thefts occur in wallets, where private keys are stored."

embedding_1 = model.encode(query_1)
embedding_2 = model.encode(query_2)
scores = (embedding_1*embedding_2).sum()
print(scores) # 0.862

评估结果

我们在未见过的句子对上进行相似度评估,在打乱顺序的句子对上进行不相似度评估。我们的评估套件包含来自以下数据集的句子对:Investopedia(测试金融领域的专业能力),以及 Gooaq、MSMARCO、stackexchange_duplicate_questions_title_title、yahoo_answers_title_answer(评估模型在微调后避免遗忘的能力)。

许可协议

由于微调过程中使用了非商业数据集,我们以 cc-by-nc-4.0 协议发布此模型。

引用 [即将发布]

标签

bert feature-extraction license:cc-by-nc-4.0 text-embeddings-inference endpoints_compatible deploy:azure region:us

操作


详细信息

厂商
FinLang
任务
sentence-similarity
框架
sentence-transformers
模型类型
bert
许可(HF)
cc-by-nc-4.0