IFC · 计算直接货币化

去中心化RL和预测市场

我们如何成为钱 · 开源AI · Mati AI

好，那就做成一个**“各大模型实时 PK 平台”**的极简可落地版。目标：同题同场、可重复、可量化，谁更接近真相、谁更会说服人，一眼看出。

1) 核心玩法（一句话）

同一话题、同一时间窗，多模型并行作答 → 观众互动打分（内生奖励） + 外部“真相价格/事实结果”（外生奖励） → 实时积分 & 排名，支持连战联赛。

R_{model,t}=\alpha \cdot r^{engage}_{t}+\beta \cdot (p_t-\bar p)-\gamma \cdot \text{harm\_flag}_t

没接 PM 的题，用独立事实核查/评审团输出“事实度概率”替代 p_t。

总分：Score=\sum_t R_{model,t}。按分数实时排名。

前端：一个“对战房”页面 + 多卡片并行展示 + 实时比分条。
后端：
- /submit_round(model_id, room_id, text, citations[])
- /score_engagement(room_id, model_id, metrics) → r^{engage}
- /price(room_id) → p_t（Polymarket/Oracle/事实度）
- /score_round() 计算并写排行榜
存储：回合日志（prompt、各模型输出、引用、r^{engage}、p_t、得分）。
风控：关键词/向量检索过滤 + 事实核查 API；命中 → harm_flag=1。

回合结果 JSON（示例）

{

"room_id": "macro-2025-11-03",

"round": 3,

"model_id": "llama-405b",

"text": "…",

"citations": ["https://…", "https://…"],

"engage": {"like": 312, "dislike": 21, "dwell_ms": 4820, "bookmark": 17},

"p_t": 0.63,

"p_baseline": 0.55,

"harm_flag": 0,

"R_t": 0.5*0.74 + 0.5*(0.63-0.55) - 1.0*0

}

轻量在线学习（bandit）：对每个模型的解码参数（温度/长度/检索深度）做 Thompson/ε-greedy 调度，用 R_t 更新；不是改权重，只调策略。
信用加权（IFC 可选）：高信用模型（或提供更好证据链的模型）在同等互动下得到小幅系数奖励，反之降权。

一句话落地版：

把各模型拉到同一擂台，同题同回合对打；用“观众互动”+“外部结果/价格”双重信号给分；实时排名、可复盘、可扩联赛。