ISO · 语义直接共识化

如果是IM 机器人

怎么建设ISO？ · ISO组织实践 · ISO应用

好的！给你一套“去中心化 · 语音优先 · 人机共用”的社交 IM 设计蓝本。目标是：像 Telegram 一样顺手的聊天体验，但以语音为一等公民；像 GPT-Agents 一样可编排的智能体生态；底层是 P2P 去中心化网络与端到端加密；每一句话既能被人听懂、也能被机器人安全地“听懂、执行、回话”。

1) 一句话总览

一段语音 →（本地 VAD/加密）→ P2P/WebRTC 流 → 去中心化 ASR/理解 → Agent 竞价/协作 → TTS 回答/执行凭证回传。对外是语音聊天室和语音私聊；对内是“语音即事件（VoiceEvent）”，可被人和机器人同时消费、协作、结算与沉淀。

2) 最小交互循环（端到端延迟 < 600ms 感知）

端侧捕获：16k/24kHz，Opus 编码，VAD/NS/AGC 本地处理；
加密与路由：E2EE（Insertable Streams/MLS），信令走 Matrix/libp2p，媒体走 WebRTC；
同步转写：本地轻量 ASR（或信任节点 ASR），流式输出部分字幕（partial）；
语义理解：在本地或可信 Worker 生成 intent 与 entities；
Agent 订阅：满足能力的 Agent 看到该 VoiceEvent，按策略抢答/协作（含“确认再执行”的人类回执门槛）；
回答播放：TTS/多音色，支持 barge-in（用户打断即抢占音频焦点），并把决策与可验证执行日志一并回传。

3) 数据原语：VoiceEvent（语音就是结构化事件）

{

"id": "ve_01G...",

"room_id": "r_abc",

"ts": 1731225600,

"speaker": "did:akasha:alice", // 人或机器人

"media": {

"codec": "opus_24k",

"seg_ptr": "ipfs://.../chunk_12", // 分段或整段

"hash": "sha256:..."

"stt": {

"partial": [{"t":120,"text":"把今晚的..."}],

"final": {"text":"把今晚的行程发给大家并订 20:00 位子","lang":"zh-CN"},

"diar": [{"span":[0,2180],"spk":"alice"}]

"nl": {

"intent": "book.table",

"entities": {"time":"20:00","party_size":6,"place_pref":"川菜"},

"confidence": 0.83

"policy": {"visibility":"room","e2ee":true},

"proof": {"sig":"ed25519:...","vlc":{"t":27,"prev":"ve_..."}}

}

要点：每一句语音都会变成一个可引用、可检索、可编排的事件对象；机器人只订阅自己权限内的字段（最少知原则）。

4) 网络与加密（去中心化、不依赖中心服务器）

信令/控制：Matrix 或 libp2p PubSub（主题=房间/话题）。
媒体传输：WebRTC（SRTP）+ E2EE Insertable Streams；SFU/中继可社区运行（多活可切换），但无法解密内容。
身份：DID（可映射 ENS/TON/邮箱）、设备证明、群内可选匿名化声纹（仅用于防冒充）。
存储：热语音分片本地缓存+社区边缘节点，归档上 IPFS/Arweave（可配置“只存文本、删音频”）。“阅后即焚”=密钥不持久化。
同步：语音与字幕双时钟对齐；VLC（Verifiable Logic Clock）确保回放/审计一致性。

5) 机器人形态（让 Agent 成为“会说话的联系人”）

存在形态：每个 Agent 有 DID、头像、音色、在线状态、权限胶囊（Capability Token）。它像一个联系人，能进群、能发语音、能@你。
订阅逻辑：按房间策略与关键词/实体订阅 VoiceEvent（例如：calendar.*、payments.*）。
回话策略：
- 倾听模式：只在被点名或命中意图时发声；
- 建议模式：在右下角给出“建议卡片”（文本+按钮），需用户口头“确认”才发声与执行；
- 执行模式：受托后进入工单态（见 §7）。
打断与轮次：全局“话筒令牌”（focus token）；人类说话自动收回令牌，Agent 立刻静音（barge-in）。

6) 人机共话的三种场景

语音群聊（房间）：像 Discord 语音频道，但默认流式字幕与多 Agent 旁听。
语音私聊：你与 1–N 个 Agent 的工作间（分钟级到小时级的连续任务）。
语音帖子：异步语音便签（像语音推/播客剪），可被 Agent 汇总成纪要、待办、路线。

7) “语音即任务”的最小闭环（可选上链结算）

抬升：一句话被确认/复述后，提升为 IntentCard（从 VoiceEvent 衍生）。
接单：人/Agent 抢单或指派；需要预算时创建轻托管（可走链上 Escrow，或房间信用池）。
执行：Agent 在沙箱里调用工具（日历、地图、订位、支付、搜索、代码、RPA…），产生 PoE 可验证执行日志（哈希上链或房内公告）。
回执：Agent 用语音+卡片汇报；用户口头“确认/修改/取消”；结算&更新声誉。

这一套与之前“消息即交易”的 Credit/Bond/Intent 计量兼容，但对纯语音用户无感。

8) 语音安全与隐私（音频版“提示注入”防御）

最少知：Agent 仅得转写文本与必要实体，不默认拿原始音频。
双通道防注入：把“执行指令”与“闲聊语音”分通道，执行需二次复述确认（“我理解为：今晚 20:00 订 6 位 —— 确认吗？”）。
敏感意图闸门：支付/转账/分享通讯录等走“口头口令 + 设备生物识别 + 限额”三件套。
房间策略：白名单 Agent、静默旁听、仅卡片建议、不许主动发言等，一键切换。
录音可见性：谁在录、谁在转写、谁在出房间副本，一目了然；可一键“只保留纪要、删除音频”。

9) 端侧与边缘智能（低延迟、可离线）

端侧 ASR/TTS：移动端内置轻量模型，保证 1) 私密、2) 低延迟、3) 离线可用；
边缘协处理：当端侧算力不足，自动把匿名化音频分片发到就近“语音协处理节点”（社区运营、押金与声誉约束）；
多语自动切换：检测语言、选择对应声码器与音色；字幕多语并行。

10) 协议与对象（最小可落地）

Room：访问策略（公开/邀请）、可用 Agent 列表、录制策略、结算策略；
VoiceEvent：见上；
IntentCard：{intent,type,entities,budget?,sla?,assignee?,poe_root?}；
Capability Token：作用域=房间×资源（日历、位置、支付…）×限额×时效；
Reputation：人/Agent 的“按时率、争议率、协作密度、复用度”。

11) MVP 清单（8–10 周能跑起来）

客户端：iOS/Android/桌面，按住说话 + 流式字幕 + barge-in；
房间：最多 16 并发发言者（其余监听），语音转文字、文字回放；
Agent：内置 3 类——日程助理、信息检索、备忘录/纪要；
任务：语音抬升为卡片、指派、确认、纪要与待办自动生成；
安全：E2EE、房间策略开关、敏感意图二次确认；
存储：近期语音本地+房间缓存，归档到 IPFS；
生态：Agent 清单页（安装/禁言/权限），日志可视化时间线。

选配：链上 Escrow 与 PoE 批量上链（先做事件总线接口，链上作为可插拔模块）。

12) 体验细节与指标

体验：开口→200–300ms 开始显示字幕；抢答 Agent 等待 500–800ms 后再出声，优先出“要点复述+确认”；支持“说到一半就懂”（增量意图）。
指标：端到端延迟 P50/P90、识别词错率 WER、意图命中率、barge-in 次数、二次确认转化率、房间留存、Agent 响应成功率、用户对 Agent 的静音率（负反馈）。

13) 一个 20 秒实战例子

你按住说话：“今晚八点六个人，离公司近点的川菜，帮我订位并发到群里。”
字幕 300ms 内出现；日程助理复述：“确认：20:00、6 位、川菜、半径 3km，OK 吗？”
你说“确认”；订位 Agent 执行：检索→下单→生成分享卡片；同时播报：“已订签，桌号 12，已把信息发到群里。”
群里收到：语音+卡片（餐厅、导航、可取消按钮）；纪要机器人把这段对话入“今晚安排”清单。

14) 为什么这是“去中心化的语音 IM”

它不是在语音上“加一点 AI”，而是把语音当成协议的一等事件，让人和 Agent 在同一房间、同一协议里协作：网络是 P2P 的、加密是端到端的、权限是可验证的、任务是可复盘的、执行是可证明的、结算是可选上链的。

——如果你要落地，我可以把上面直接拆成：(1) 协议草案（Room/VoiceEvent/IntentCard schema）(2) 客户端原型图（语音按钮、字幕、Agent 介入位）(3) 边缘节点与权限胶囊的最小实现接口 (4) 8 周工程排期与演示剧本。