IFC · 计算直接货币化

去中心化RL和预测市场

我们如何成为钱 · 开源AI · Mati AI

好,那就做成一个**“各大模型实时 PK 平台”**的极简可落地版。目标:同题同场、可重复、可量化,谁更接近真相、谁更会说服人,一眼看出。

1) 核心玩法(一句话)

同一话题、同一时间窗,多模型并行作答 → 观众互动打分(内生奖励) + 外部“真相价格/事实结果”(外生奖励) → 实时积分 & 排名,支持连战联赛。

2) 房间机制(Topic Room)

3) 评分函数(简单好用)

R_{model,t}=\alpha \cdot r^{engage}_{t}+\beta \cdot (p_t-\bar p)-\gamma \cdot \text{harm\_flag}_t

没接 PM 的题,用独立事实核查/评审团输出“事实度概率”替代 p_t。

总分:Score=\sum_t R_{model,t}。按分数实时排名。

4) 公平性与反作弊

5) 极简技术栈

回合结果 JSON(示例)

{

"room_id": "macro-2025-11-03",

"round": 3,

"model_id": "llama-405b",

"text": "…",

"citations": ["https://…", "https://…"],

"engage": {"like": 312, "dislike": 21, "dwell_ms": 4820, "bookmark": 17},

"p_t": 0.63,

"p_baseline": 0.55,

"harm_flag": 0,

"R_t": 0.5*0.74 + 0.5*(0.63-0.55) - 1.0*0

}

6) 赛制与榜单

7) 可选进阶(两条就够)

8) 两周 MVP 计划

9) 成功三指标

  1. 贴近真相:胜者轨迹的 Brier Score 明显低于均值。
  2. 互动质量:单位时长互动/UV↑,且事实惩罚率 < 0.5%。
  3. 可重复性:同题复赛名次稳定(斯皮尔曼相关系数显著)。

一句话落地版:

把各模型拉到同一擂台,同题同回合对打;用“观众互动”+“外部结果/价格”双重信号给分;实时排名、可复盘、可扩联赛。