IAU-Demo — 語音意圖 × 視覺驗證

0. 模型選擇

變更立即生效；選擇存於本機 localStorage。

1. 場景來源（World State）

選定的影像會於停止錄音時自動送 Vision 偵測。

Prompts（可編輯）：

2. 錄音指令

待命

預設語音（免錄音，點按即送出）

不方便開麥克風時，點下方任一句即可載入預錄音檔、自動切到對應場景，並走與真實錄音相同的 ASR → 意圖 → 視覺驗證 → TTS 流程。

範例指令（對應三張內建範例圖）

場景 A：紅球×3、藍球×4、紅籃、藍籃

應成功「將兩個紅色球放到藍色籃子裡」
應成功「把一顆藍球放進紅籃」
數量不足「將五個紅色球放到藍色籃子裡」（紅球只有 3 顆）
無此物件「把一顆綠球放到紅籃」

場景 B：紅球×4、紅籃（無紫球、無其他籃）

應成功「將兩顆紅球放到紅色籃子裡」
無紫球「將兩個紫色球放到紅色籃子裡」
無藍籃「把一顆紅球放到藍色籃子裡」

場景 C：紅球×2、藍球×3、紫籃、紅籃

應成功「把三顆藍球放到紫色籃子裡」
應成功「將一個紅球放到紫籃」
無紫球「把兩顆紫球放進紅籃」
數量不足「把三顆紅球放到紫籃」（紅球只有 2 顆）

點任一句子可複製到剪貼簿，方便你照著念。

3. Pipeline 結果

4. 系統回饋

（尚未產生）

API Key 設定（存於瀏覽器 localStorage）

ASR API Key（X-API-Key） LLM API Key（Bearer，目前後端為 Gemma-4） TTS API Key（Bearer） Vision API Key（X-API-Key）所有 key 僅存於本機瀏覽器 localStorage，不會送往任何第三方。
測試連線時若顯示「422 (auth OK)」表示 key 正確（只是測試用 payload 不完整，這是預期的）；「401」表示 key 錯或沒設。