finance-embeddings-investopedia
简介
这是FinLang团队为金融应用开发的Investopedia嵌入模型。该模型使用我们开源的金融数据集进行训练,数据集来自https://huggingface.co/datasets/FinLang/investopedia-embedding-dataset
模型卡片
模型配置
模型详情
已翻译FinLang/finance-embeddings-investopedia
这是 FinLang 团队为金融应用开发的 Investopedia embedding 模型。该模型使用我们在 https://huggingface.co/datasets/FinLang/investopedia-embedding-dataset 开源的数据集进行训练。
该模型是在 BAAI/bge-base-en-v1.5 基础上微调得到的 embedding 模型。它将句子和段落映射到 768 维的稠密向量空间,可用于 RAG 应用中的聚类或语义搜索等任务。
本项目仅用于研究目的。第三方数据集可能受其相关许可协议中的附加条款约束。
计划
- 研究论文即将发表。
- 我们正在开发模型的 v2 版本,将扩大金融数据的训练语料库,并采用改进的技术来训练 embedding。
使用方法(LLamaIndex)
在构建金融 RAG 应用的索引流程时,只需指定 Finlang embedding 即可。
from llama_index.embeddings import HuggingFaceEmbedding
embed_model = HuggingFaceEmbedding(model_name="FinLang/investopedia_embedding")
使用方法(Sentence-Transformers)
安装 sentence-transformers 后(参见 https://huggingface.co/sentence-transformers),即可轻松使用该模型:
pip install -U sentence-transformers
然后你可以像这样使用模型:
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('FinLang/investopedia_embedding')
embeddings = model.encode(sentences)
print(embeddings)
示例代码测试:
from sentence_transformers import SentenceTransformer, util
model = SentenceTransformer("FinLang/investopedia_embedding")
query_1 = "What is a potential concern with allowing someone else to store your cryptocurrency keys, and is it possible to decrypt a private key?"
query_2 = "A potential concern is that the entity holding your keys has control over your cryptocurrency in a custodial relationship. While it is theoretically possible to decrypt a private key, with current technology, it would take centuries or millennia for the 115 quattuorvigintillion possibilities. Most hacks and thefts occur in wallets, where private keys are stored."
embedding_1 = model.encode(query_1)
embedding_2 = model.encode(query_2)
scores = (embedding_1*embedding_2).sum()
print(scores) # 0.862
评估结果
我们在未见过的句子对上进行相似度评估,在打乱顺序的句子对上进行不相似度评估。我们的评估套件包含来自以下数据集的句子对:Investopedia(测试金融领域的专业能力),以及 Gooaq、MSMARCO、stackexchange_duplicate_questions_title_title、yahoo_answers_title_answer(评估模型在微调后避免遗忘的能力)。
许可协议
由于微调过程中使用了非商业数据集,我们以 cc-by-nc-4.0 协议发布此模型。
引用 [即将发布]
正在翻译中,请稍候...
标签
操作
详细信息
- 厂商
- FinLang
- 任务
- sentence-similarity
- 框架
- sentence-transformers
- 模型类型
- bert
- 许可(HF)
- cc-by-nc-4.0