IFC · 计算直接货币化
去中心化RL和预测市场
好,那就做成一个**“各大模型实时 PK 平台”**的极简可落地版。目标:同题同场、可重复、可量化,谁更接近真相、谁更会说服人,一眼看出。
1) 核心玩法(一句话)
同一话题、同一时间窗,多模型并行作答 → 观众互动打分(内生奖励) + 外部“真相价格/事实结果”(外生奖励) → 实时积分 & 排名,支持连战联赛。
2) 房间机制(Topic Room)
- 创建:选一个话题(含到期时间和结果来源),如接 Polymarket 市场或官方判责 Oracle。
- 参赛:M 个模型(GPTx、Claude、Llama、Qwen…)在同一回合窗口内提交答案/推理。
- 回合:每回合 60–120 秒;可限制字数/引用数量;支持反驳回合与终局陈词。
- 旁观互动:点赞/反对/收藏/停留时长/引用点击 → 转成互动分 r_t^{engage}。
3) 评分函数(简单好用)
R_{model,t}=\alpha \cdot r^{engage}_{t}+\beta \cdot (p_t-\bar p)-\gamma \cdot \text{harm\_flag}_t
- r^{engage}_{t}:该回合该模型的互动分(标准化到0–1)。
- p_t:外部价格/概率(如 Polymarket)或“事实度”估计;\bar p 是开盘或滑动均值(取“超额置信”)。
- \text{harm\_flag}_t:事实性/红线风控命中(命中则扣分或判零)。
- 建议:\alpha=0.5,\ \beta=0.5,\ \gamma=1.0。
没接 PM 的题,用独立事实核查/评审团输出“事实度概率”替代 p_t。
总分:Score=\sum_t R_{model,t}。按分数实时排名。
4) 公平性与反作弊
- 同题同时同资源:统一上下文、检索权限、token 限额。
- 盲评期:观众端默认隐藏模型名称,避免品牌偏见。
- 对抗与事实查验:
- 回答需附引用;引用可点击验证。
- 事实核查器+黑名单知识域(命中触发 harm_flag)。
- 回答需附引用;引用可点击验证。
- 节流:每回合固定 tokens 上限与响应时限;迟到=0分。
5) 极简技术栈
- 前端:一个“对战房”页面 + 多卡片并行展示 + 实时比分条。
- 后端:
- /submit_round(model_id, room_id, text, citations[])
- /score_engagement(room_id, model_id, metrics) → r^{engage}
- /price(room_id) → p_t(Polymarket/Oracle/事实度)
- /score_round() 计算并写排行榜
- /submit_round(model_id, room_id, text, citations[])
- 存储:回合日志(prompt、各模型输出、引用、r^{engage}、p_t、得分)。
- 风控:关键词/向量检索过滤 + 事实核查 API;命中 → harm_flag=1。
回合结果 JSON(示例)
{
"room_id": "macro-2025-11-03",
"round": 3,
"model_id": "llama-405b",
"text": "…",
"citations": ["https://…", "https://…"],
"engage": {"like": 312, "dislike": 21, "dwell_ms": 4820, "bookmark": 17},
"p_t": 0.63,
"p_baseline": 0.55,
"harm_flag": 0,
"R_t": 0.5*0.74 + 0.5*(0.63-0.55) - 1.0*0
}
6) 赛制与榜单
- 模式:
- 表演赛(单题多回合)
- 梯度赛(同一主题 3–5 题连打)
- 联赛(周榜/月榜,Elo/TrueSkill 计分)
- 表演赛(单题多回合)
- 榜单:综合分、事实度分(外生)、说服力分(内生)、安全分(惩罚项越低越好)。
- 复盘:每场输出“事实偏差曲线”“互动-事实权衡图”。
7) 可选进阶(两条就够)
- 轻量在线学习(bandit):对每个模型的解码参数(温度/长度/检索深度)做 Thompson/ε-greedy 调度,用 R_t 更新;不是改权重,只调策略。
- 信用加权(IFC 可选):高信用模型(或提供更好证据链的模型)在同等互动下得到小幅系数奖励,反之降权。
8) 两周 MVP 计划
- 第1–3天:房间/并行提交/比分条/Polymarket 拉价。
- 第4–7天:互动计分、事实核查、盲评与限流。
- 第8–10天:多话题多房、到期清算、总榜。
- 第11–14天:回放与复盘图、基本 bandit 调参。
9) 成功三指标
- 贴近真相:胜者轨迹的 Brier Score 明显低于均值。
- 互动质量:单位时长互动/UV↑,且事实惩罚率 < 0.5%。
- 可重复性:同题复赛名次稳定(斯皮尔曼相关系数显著)。
一句话落地版:
把各模型拉到同一擂台,同题同回合对打;用“观众互动”+“外部结果/价格”双重信号给分;实时排名、可复盘、可扩联赛。