mirror of https://git.openapi.site/https://github.com/desirecore/market.git synced 2026-06-06 10:30:39 +08:00

Files

xyx 0cb3758669 fix: 补全 dashscope-image-gen 和 xiaomi-tts 的 i18n CI 校验 (#4 )

## 变更说明

修复 dashscope-image-gen 和 xiaomi-tts 的 i18n CI 校验、补全英文翻译，并连带修复其他 stale
skill 的 source_hash 漂移问题。

### dashscope-image-gen / xiaomi-tts（PR 主线）
- `name` 字段从中文改为目录名（CI rule-1 要求 lowercase ASCII + hyphens）。
- 补全 `metadata.i18n` 块：`locales`、`zh-CN` (含 body 指向
SKILL.zh-CN.md)、`en-US`（含 description / body=./SKILL.md）。
- 新增 `SKILL.zh-CN.md`（zh-CN body 文件）。
- **root SKILL.md 改写为英文 body**（与 SKILL.zh-CN.md 内容对应），由本 PR
手工翻译；`default_locale=en-US`、`source_locale=zh-CN`，与 docs/I18N.md
约定一致：root SKILL.md = default_locale body (en-US)、SKILL.zh-CN.md =
source_locale body (zh-CN)。
- 两 locale 锁为 `translated_by: human` + 正确 `source_hash`。
- 内容质量修复：流程标题 "严格按此两步执行" 改为 "严格按此三步执行"；强制规则 2 措辞精确化（/tmp
仅作中转）；xiaomi-tts 用户意图映射表中 `response_format` 改为 `audio.format`
与请求体参数表一致；zh-CN.description 改为纯中文。
- locale header 由 shell 转义残留 `<\!--` 修正为标准 `<!-- locale: zh-CN -->`。

### 连带：6 个 main 上已 stale 的 skill（避免 translate workflow 失败）
- `manage-skills` / `minimax-music-gen` / `minimax-video-gen` /
`skill-creator` / `web-access`：`en-US.source_hash` 重新计算为当前 zh-CN source
实际 hash；`translated_by` 由 `ai:claude-opus-4-7` 改为 `human`
以锁定现有翻译不被自动重译覆盖。
- `markdown`：补正 `en-US.source_hash`（之前是占位 `sha256:0000000000000000`）。
- 这些 skill 的 `en-US` 翻译内容保持不变，仅修正元数据。

### scripts/i18n/translate.py 容错增强
- 413 Payload Too Large 时不再 retry（payload 不会变小，retry 浪费时间）。
- 主循环 catch RuntimeError，把单个 skill 的失败写入 `plan["errors"]` 后继续处理下一个
skill，避免一个大文件 fail 整个 workflow。
- `--check` 模式下 plans 含 errors 也 exit 1（之前仅看 needs_translation，broad
except 会把异常吃掉导致误报通过）。

## Test plan

- [x] `i18n-validate` 通过
- [x] `i18n-translate --check` 显示所有 skill `up-to-date` 或 `human-locked,
skipping`
- [x] CI 上 `validate` / `translate` / `wait-for-copilot-review` 全绿
- [ ] Copilot 评审 conversation 全部 resolve
- [ ] Squash merge

---------

Co-authored-by: yi-ge <a@wyr.me>

2026-05-13 12:57:25 +08:00

6.2 KiB

Raw Blame History

xiaomi-tts 技能

强制规则（违反将导致功能失败）

必须用 HTTPS 访问 agent-service — https://127.0.0.1:${PORT} 加 -k 跳过证书验证
必须通过 /api/media/upload 上传到 media-store — /tmp 仅作下载/解码中转，不可直接以本地路径作为最终输出
必须使用 dc-media:// 协议展示音频 — 唯一能让前端正确渲染的方式
全程使用 Bash curl — 不要使用 HttpRequest 工具或 Python
使用 /chat/completions 端点 — 小米 MiMo TTS 使用 OpenAI 兼容格式

模型选择指南

模型	特点	适用场景
mimo-v2.5-tts	标准 TTS，多种预置音色	默认首选，常规语音合成
mimo-v2.5-tts-voicedesign	自定义音色设计	需要特定音色描述生成
mimo-v2.5-tts-voiceclone	声音克隆	需要克隆特定人声（需上传参考音频）

默认规则：用户未指定模型时，使用 mimo-v2.5-tts。

音色选择指南

预置音色

voice_id	名称	特点
default_zh	默认中文	中文通用女声
default_en	默认英文	英文通用女声
mimo_default	MiMo 默认	MiMo 特色音色
Bingtang	冰糖	甜美女声
Moli	茉莉	温柔女声
Suda	苏打	年轻男声
Baihua	白桦	成熟男声
Mia	Mia	英文女声
Chloe	Chloe	英文女声
Milo	Milo	英文男声
Dean	Dean	英文男声

默认规则：中文内容用 Bingtang，英文内容用 Mia，用户未指定时按内容语言自动选择。

完整执行流程（严格按此三步执行）

前置条件

用户已在资源管理器-算力中配置小米 MiMo Provider 并填写 API Key
agent-service 正在运行

第一步：调用 TTS API

通过 media-proxy 的 /chat/completions 端点生成语音。

重要：messages 必须使用 assistant role（不是 user），要合成的文本放在 assistant 消息的 content 中。

PORT=$(cat ~/.desirecore/agent-service.port)
curl -sk -X POST "https://127.0.0.1:${PORT}/api/media-proxy" \
  -H "Content-Type: application/json" \
  -d '{
    "provider": "xiaomi",
    "serviceType": "tts",
    "endpoint": "/chat/completions",
    "body": {
      "model": "mimo-v2.5-tts",
      "messages": [
        {
          "role": "assistant",
          "content": "这里替换为要合成的文本内容"
        }
      ],
      "voice": "Bingtang",
      "audio": {"format": "mp3"}
    },
    "responseType": "json"
  }'

响应示例：

{
  "success": true,
  "data": {
    "id": "chatcmpl-...",
    "choices": [
      {
        "index": 0,
        "message": {
          "role": "assistant",
          "audio": {
            "data": "base64编码的音频数据...",
            "format": "mp3"
          }
        },
        "finish_reason": "stop"
      }
    ]
  },
  "statusCode": 200
}

从 data.choices[0].message.audio.data 提取 base64 编码的音频数据。

第二步：解码并上传到 media-store

音频以 base64 返回，需要解码后保存到本地 media-store。

推荐方式（先保存完整响应到文件，避免 shell 参数过长）：

PORT=$(cat ~/.desirecore/agent-service.port)
# 将完整请求和响应保存到文件
curl -sk -X POST "https://127.0.0.1:${PORT}/api/media-proxy" \
  -H "Content-Type: application/json" \
  -d '{
    "provider": "xiaomi",
    "serviceType": "tts",
    "endpoint": "/chat/completions",
    "body": {
      "model": "mimo-v2.5-tts",
      "messages": [{"role": "assistant", "content": "要合成的文本"}],
      "voice": "Bingtang",
      "audio": {"format": "mp3"}
    },
    "responseType": "json"
  }' > /tmp/xiaomi-tts-response.json

# 提取 base64 音频数据并解码
cat /tmp/xiaomi-tts-response.json | jq -r '.data.choices[0].message.audio.data' | base64 -d > /tmp/xiaomi-tts.mp3

# 上传到 media-store
curl -sk -X POST "https://127.0.0.1:${PORT}/api/media/upload" \
  -F "file=@/tmp/xiaomi-tts.mp3;type=audio/mpeg"

从 JSON 响应中提取 mediaId 字段（格式如 xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx.mp3）。

第三步：用 dc-media 协议展示音频

在你的回复文本中直接写 Markdown 语法：

![语音合成结果](dc-media://这里替换为mediaId)

例如：![TTS: 你好世界](dc-media://a1b2c3d4-e5f6-47a8-b9c0-d1e2f3a4b5c6.mp3)

前端会自动检测 .mp3 扩展名并渲染为音频播放器。

参数映射

请求体参数（放在 body 中）

参数	说明	默认值
`model`	模型名称	"mimo-v2.5-tts"
`messages[0].role`	必须为 "assistant"	"assistant"（固定）
`messages[0].content`	要合成的文本	必填
`voice`	音色 ID	"Bingtang"（中文）/ "Mia"（英文）
`audio.format`	音频格式	"mp3"（可选 "wav"）

用户意图映射

用户意图	参数选择
甜美/可爱	voice: "Bingtang"
温柔/知性	voice: "Moli"
年轻男声	voice: "Suda"
成熟男声	voice: "Baihua"
英文女声	voice: "Mia" 或 "Chloe"
英文男声	voice: "Milo" 或 "Dean"
高音质/无损	audio.format: "wav"

错误处理

success: false + error: "未找到匹配的供应商"：未配置小米 MiMo Provider 或未启用
success: false + error: "未配置 API Key"：未填写 API Key
statusCode: 401：API Key 无效或已过期
statusCode: 429：频率限制，稍后重试
statusCode: 400：参数错误（如 voice 不存在、文本为空）
statusCode: 403：模型未开通或权限不足

注意事项

调用是同步的，通常 3-15 秒返回（视文本长度而定）
音频以 base64 返回，无外部 URL 时效问题，但数据量较大时注意 shell 参数长度限制
长文本建议分段合成（每段不超过 500 字），然后逐段上传展示
如果用户未明确要求音色/格式，默认使用 mimo-v2.5-tts + 按语言选音色 + mp3
Token Plan 密钥（tp- 前缀）使用 https://token-plan-cn.xiaomimimo.com/v1 端点
按量付费密钥使用 https://api.xiaomimimo.com/v1 端点
media-proxy 会自动根据配置选择正确的端点，技能无需区分

6.2 KiB Raw Blame History Unescape Escape