RIB · English Edition
如何变聪明的共识
可以给一个工程上可操作的量级预估,但先把前提说清楚:你训练的不是“共识裁决模型”,而是多层 Finality 的调度/预测模型(确认概率、升层时间、失败风险、路由/候选选择)。这类模型的数据需求主要由三件事决定:
- 你要预测的事件有多稀有(比如 reorg、跨 shard 闭包失败)
- 你要覆盖的市场状态有多复杂(高峰/低谷、费率波动、网络拥堵)
- 特征是否齐全(仅链上 vs 还有 mempool/网络视角)
下面是我给你的可落地数量级。
1) 你能用“多少交易”做出一个不错的模型(分三档)
A 档:能跑起来、明显优于规则(MVP)
- 10 万 – 50 万笔交易
- 条件:你至少有
- tx 级特征(fee_rate、size、依赖深度、RBF/CPFP)
- 结果标签(是否确认、确认时间/高度)
- tx 级特征(fee_rate、size、依赖深度、RBF/CPFP)
- 能做到:
- p(confirm within X) 的粗预测
- E[T_inclusion] 的粗预测
- mempool 排序明显更稳(确认率、尾延迟改善)
- p(confirm within X) 的粗预测
适合:第一版“智能升层/智能排序”的上线验证。
B 档:稳定可用(Production 级、对业务有 SLA 价值)
- 100 万 – 500 万笔交易
- 额外需要:
- mempool 观测(进入时间、替换、驱逐、依赖图状态)
- 网络观测(传播延迟、矿工/relay 覆盖度的一些 proxy)
- mempool 观测(进入时间、替换、驱逐、依赖图状态)
- 能做到:
- 分场景(拥堵/平稳)的可靠预测
- P95/P99 尾部延迟显著改善
- 更好的冲突押注(RBF/双花竞争的胜率上升)
- 分场景(拥堵/平稳)的可靠预测
适合:支付/稳定币“体验确定性”开始形成护城河。
C 档:跨 shard + 多层 Finality 调度(你要的“层层折叠体系”真正成熟)
- 1000 万 – 5000 万笔“事件”级样本(注意:不一定全是链上 tx,更多来自你系统内部事件/commit/fold)
- 原因:你要学的是“多层升阶策略”,需要覆盖:
- shard 内拥堵态
- 跨 shard 依赖态
- 折叠失败/回退态
- 不同 epoch 的负载变化
- shard 内拥堵态
- 能做到:
- L1→L2→L3 的触发时机更接近最优
- 折叠闭包失败率显著下降
- 成本/延迟的多目标 Pareto 更好
- L1→L2→L3 的触发时机更接近最优
适合:你要对外说“智能 Finality 编排”并用数据背书。
2) 关键提醒:稀有事件决定样本下限
如果你的目标里包含这些,你需要更多数据或仿真补齐:
- reorg / 深回滚:极稀有,单靠真实数据很难学
- 跨 shard 闭包失败:在设计合理时也应相对稀有
- 审查/网络分区:真实线上很少、但必须覆盖
工程解法通常是三件套:
- 真实数据(主分布)
- 压测与故障注入(扩展边界分布)
- 仿真/合成(补齐长尾)
3) 如果你现在没有那么多交易,怎么办(仍然能训出“不错”)
可以用**“事件拆分”把样本量放大**:
- 一笔交易在训练里可以拆成多个样本:
- mempool 每 1 秒/5 秒的状态快照 → 形成序列样本
- 一个冲突集的每次替换 → 一个样本
- 一次 fold 候选选择 → 一个样本
- 一次跨 shard 闭包尝试 → 一个样本
- mempool 每 1 秒/5 秒的状态快照 → 形成序列样本
所以哪怕只有 100 万笔交易,你也可能构造出 上千万级事件样本,足够训练一个很像 Transformer 的序列策略模型。
4) 我给你一个更直接的“上线门槛”指标
如果你的目标是“对业务有感知的提升”,通常看两条:
- 预测任务(确认/升层)AUC / calibration 明显优于 baseline
- 线上指标:
- 确认成功率提升 ≥ 3–10%(相对)
- P95 确认时间下降 ≥ 20–40%
- 失败重试率下降 ≥ 30%
- 确认成功率提升 ≥ 3–10%(相对)
这些指标一般在 100 万级交易 + 完整 mempool 特征时就很有机会做到。
如果你愿意,我可以按你“多层 Finality(L0–L3)”把数据需求再细化成一张表:每一层要训练什么、需要多少样本、用什么标签、用什么线上指标验收。你更关心哪一层先变聪明:L1(支付体验)、L2(跨 shard 闭包)、还是 L3(全局锚定时机)?