Kronos-Tokenizer-base

NeoQuasar time-series-forecasting pytorch

NeoQuasar/Kronos-Tokenizer-base

3,001,798

下载量

51

收藏数

47

浏览量

mit

许可

简介

Kronos: A Foundation Model for the Language of Financial Markets

模型卡片

许可协议 mit

框架 pytorch

任务 time-series-forecasting

Finance Candlestick K-line

模型详情

已翻译

Kronos: 金融市场语言的基础模型

Kronos 是首个面向金融K线数据的开源基础模型，基于来自45个全球交易所的数据训练而成。它专为处理金融数据独特的高噪声特性而设计。

引言

Kronos 是一个仅解码器（decoder-only）的基础模型家族，专门针对金融市场的"语言"——K线序列进行预训练。它采用了一种新颖的两阶段框架：
1. 专门的 tokenizer 首先将连续的、多维的K线数据（OHLCV）量化为分层离散 token。
2. 然后，一个大型自回归 Transformer 在这些 token 上进行预训练，使其能够作为统一模型服务于多种量化任务。

以大型语言模型（LLM）为代表的大规模预训练范式的成功，启发了时间序列基础模型（TSFM）的发展。Kronos 通过引入专门的 tokenizer 将连续的市场信息离散化为 token 序列，同时保留了价格动态和交易活动模式，从而解决了现有模型的局限性。我们使用自回归目标，在来自45个全球交易所、超过120亿条K线记录的大规模多市场语料库上对 Kronos 进行预训练，使其能够学习精细的时间维度和跨资产表示。Kronos 在多种金融任务的零样本（zero-shot）场景中表现出色，包括价格序列预测、波动率预测和合成数据生成。

在线演示

我们搭建了一个在线演示，用于可视化 Kronos 的预测结果。该网页展示了 BTC/USDT 交易对未来24小时的预测。

👉 访问在线演示

模型库

我们发布了一系列不同容量的预训练模型，以满足不同的计算和应用需求。所有模型均可从 Hugging Face Hub 直接获取。

模型	Tokenizer	上下文长度	参数量	Hugging Face 模型卡片
Kronos-mini	Kronos-Tokenizer-2k	2048	4.1M	✅ NeoQuasar/Kronos-mini
Kronos-small	Kronos-Tokenizer-base	512	24.7M	✅ NeoQuasar/Kronos-small
Kronos-base	Kronos-Tokenizer-base	512	102.3M	✅ NeoQuasar/Kronos-base
Kronos-large	Kronos-Tokenizer-base	512	499.2M	❌ 暂未公开发布

快速上手：进行预测

使用 KronosPredictor 类可以轻松完成 Kronos 的预测。它负责数据处理、归一化、预测和逆归一化，让您只需几行代码即可从原始数据得到预测结果。

重要提示：Kronos-small 和 Kronos-base 的 max_context 为 512。这是模型能处理的最大序列长度。为获得最佳性能，建议您的输入数据长度（即 lookback）不超过此限制。对于更长的上下文，KronosPredictor 会自动进行截断处理。

以下是进行首次预测的分步指南。

安装

安装 Python 3.10+，然后从 GitHub 仓库的 requirements.txt 安装依赖：

shell pip install -r requirements.txt

1. 加载 Tokenizer 和模型

首先，从 Hugging Face Hub 加载预训练的 Kronos 模型及其对应的 tokenizer。

from model import Kronos, KronosTokenizer, KronosPredictor

# Load from Hugging Face Hub
tokenizer = KronosTokenizer.from_pretrained("NeoQuasar/Kronos-Tokenizer-base")
model = Kronos.from_pretrained("NeoQuasar/Kronos-small")

2. 实例化 Predictor

创建 KronosPredictor 的实例，传入