Kronos-Tokenizer-base
简介
Kronos: A Foundation Model for the Language of Financial Markets
模型卡片
模型详情
已翻译Kronos: 金融市场语言的基础模型
Kronos 是首个面向金融K线数据的开源基础模型,基于来自45个全球交易所的数据训练而成。它专为处理金融数据独特的高噪声特性而设计。
引言
Kronos 是一个仅解码器(decoder-only)的基础模型家族,专门针对金融市场的"语言"——K线序列进行预训练。它采用了一种新颖的两阶段框架:
1. 专门的 tokenizer 首先将连续的、多维的K线数据(OHLCV)量化为分层离散 token。
2. 然后,一个大型自回归 Transformer 在这些 token 上进行预训练,使其能够作为统一模型服务于多种量化任务。
以大型语言模型(LLM)为代表的大规模预训练范式的成功,启发了时间序列基础模型(TSFM)的发展。Kronos 通过引入专门的 tokenizer 将连续的市场信息离散化为 token 序列,同时保留了价格动态和交易活动模式,从而解决了现有模型的局限性。我们使用自回归目标,在来自45个全球交易所、超过120亿条K线记录的大规模多市场语料库上对 Kronos 进行预训练,使其能够学习精细的时间维度和跨资产表示。Kronos 在多种金融任务的零样本(zero-shot)场景中表现出色,包括价格序列预测、波动率预测和合成数据生成。
在线演示
我们搭建了一个在线演示,用于可视化 Kronos 的预测结果。该网页展示了 BTC/USDT 交易对未来24小时的预测。
👉 访问在线演示
模型库
我们发布了一系列不同容量的预训练模型,以满足不同的计算和应用需求。所有模型均可从 Hugging Face Hub 直接获取。
| 模型 | Tokenizer | 上下文长度 | 参数量 | Hugging Face 模型卡片 |
|---|---|---|---|---|
| Kronos-mini | Kronos-Tokenizer-2k | 2048 | 4.1M | ✅ NeoQuasar/Kronos-mini |
| Kronos-small | Kronos-Tokenizer-base | 512 | 24.7M | ✅ NeoQuasar/Kronos-small |
| Kronos-base | Kronos-Tokenizer-base | 512 | 102.3M | ✅ NeoQuasar/Kronos-base |
| Kronos-large | Kronos-Tokenizer-base | 512 | 499.2M | ❌ 暂未公开发布 |
快速上手:进行预测
使用 KronosPredictor 类可以轻松完成 Kronos 的预测。它负责数据处理、归一化、预测和逆归一化,让您只需几行代码即可从原始数据得到预测结果。
重要提示:Kronos-small 和 Kronos-base 的 max_context 为 512。这是模型能处理的最大序列长度。为获得最佳性能,建议您的输入数据长度(即 lookback)不超过此限制。对于更长的上下文,KronosPredictor 会自动进行截断处理。
以下是进行首次预测的分步指南。
安装
-
安装 Python 3.10+,然后从 GitHub 仓库的
requirements.txt安装依赖:shell pip install -r requirements.txt
1. 加载 Tokenizer 和模型
首先,从 Hugging Face Hub 加载预训练的 Kronos 模型及其对应的 tokenizer。
from model import Kronos, KronosTokenizer, KronosPredictor
# Load from Hugging Face Hub
tokenizer = KronosTokenizer.from_pretrained("NeoQuasar/Kronos-Tokenizer-base")
model = Kronos.from_pretrained("NeoQuasar/Kronos-small")
2. 实例化 Predictor
创建 KronosPredictor 的实例,传入
正在翻译中,请稍候...