ISO · 语义直接共识化

如果是IM 机器人

怎么建设ISO? · ISO组织实践 · ISO应用

好的!给你一套“去中心化 · 语音优先 · 人机共用”的社交 IM 设计蓝本。目标是:像 Telegram 一样顺手的聊天体验,但以语音为一等公民;像 GPT-Agents 一样可编排的智能体生态;底层是 P2P 去中心化网络与端到端加密;每一句话既能被人听懂、也能被机器人安全地“听懂、执行、回话”。

1) 一句话总览

一段语音 →(本地 VAD/加密)→ P2P/WebRTC 流 → 去中心化 ASR/理解 → Agent 竞价/协作 → TTS 回答/执行凭证回传。对外是语音聊天室和语音私聊;对内是“语音即事件(VoiceEvent)”,可被人和机器人同时消费、协作、结算与沉淀。

2) 最小交互循环(端到端延迟 < 600ms 感知)

  1. 端侧捕获:16k/24kHz,Opus 编码,VAD/NS/AGC 本地处理;
  2. 加密与路由:E2EE(Insertable Streams/MLS),信令走 Matrix/libp2p,媒体走 WebRTC;
  3. 同步转写:本地轻量 ASR(或信任节点 ASR),流式输出部分字幕(partial);
  4. 语义理解:在本地或可信 Worker 生成 intent 与 entities;
  5. Agent 订阅:满足能力的 Agent 看到该 VoiceEvent,按策略抢答/协作(含“确认再执行”的人类回执门槛);
  6. 回答播放:TTS/多音色,支持 barge-in(用户打断即抢占音频焦点),并把决策与可验证执行日志一并回传。

3) 数据原语:VoiceEvent(语音就是结构化事件)

{

"id": "ve_01G...",

"room_id": "r_abc",

"ts": 1731225600,

"speaker": "did:akasha:alice", // 人或机器人

"media": {

"codec": "opus_24k",

"seg_ptr": "ipfs://.../chunk_12", // 分段或整段

"hash": "sha256:..."

},

"stt": {

"partial": [{"t":120,"text":"把今晚的..."}],

"final": {"text":"把今晚的行程发给大家并订 20:00 位子","lang":"zh-CN"},

"diar": [{"span":[0,2180],"spk":"alice"}]

},

"nl": {

"intent": "book.table",

"entities": {"time":"20:00","party_size":6,"place_pref":"川菜"},

"confidence": 0.83

},

"policy": {"visibility":"room","e2ee":true},

"proof": {"sig":"ed25519:...","vlc":{"t":27,"prev":"ve_..."}}

}

要点:每一句语音都会变成一个 可引用、可检索、可编排 的事件对象;机器人只订阅自己权限内的字段(最少知原则)。

4) 网络与加密(去中心化、不依赖中心服务器)

5) 机器人形态(让 Agent 成为“会说话的联系人”)

6) 人机共话的三种场景

7) “语音即任务”的最小闭环(可选上链结算)

  1. 抬升:一句话被确认/复述后,提升为 IntentCard(从 VoiceEvent 衍生)。
  2. 接单:人/Agent 抢单或指派;需要预算时创建轻托管(可走链上 Escrow,或房间信用池)。
  3. 执行:Agent 在沙箱里调用工具(日历、地图、订位、支付、搜索、代码、RPA…),产生 PoE 可验证执行日志(哈希上链或房内公告)。
  4. 回执:Agent 用语音+卡片汇报;用户口头“确认/修改/取消”;结算&更新声誉。

这一套与之前“消息即交易”的 Credit/Bond/Intent 计量兼容,但对纯语音用户无感。

8) 语音安全与隐私(音频版“提示注入”防御)

9) 端侧与边缘智能(低延迟、可离线)

10) 协议与对象(最小可落地)

11) MVP 清单(8–10 周能跑起来)

选配:链上 Escrow 与 PoE 批量上链(先做事件总线接口,链上作为可插拔模块)。

12) 体验细节与指标

13) 一个 20 秒实战例子

14) 为什么这是“去中心化的语音 IM”

它不是在语音上“加一点 AI”,而是把 语音当成协议的一等事件,让人和 Agent 在同一房间、同一协议里协作:网络是 P2P 的、加密是端到端的、权限是可验证的、任务是可复盘的、执行是可证明的、结算是可选上链的。

——如果你要落地,我可以把上面直接拆成:(1) 协议草案(Room/VoiceEvent/IntentCard schema)(2) 客户端原型图(语音按钮、字幕、Agent 介入位)(3) 边缘节点与权限胶囊的最小实现接口 (4) 8 周工程排期与演示剧本。