IAU-Demo

語音 → ASR → 意圖解析 → 視覺驗證 → 語音回饋

0. 模型選擇

變更立即生效;選擇存於本機 localStorage。

1. 場景來源(World State)

選定的影像會於停止錄音時自動送 Vision 偵測。
Prompts(可編輯):

2. 錄音指令

待命
預設語音(免錄音,點按即送出)

不方便開麥克風時,點下方任一句即可載入預錄音檔、自動切到對應場景,並走與真實錄音相同的 ASR → 意圖 → 視覺驗證 → TTS 流程。

範例指令(對應三張內建範例圖)

場景 A:紅球×3、藍球×4、紅籃、藍籃

  • 應成功「將兩個紅色球放到藍色籃子裡」
  • 應成功「把一顆藍球放進紅籃」
  • 數量不足「將五個紅色球放到藍色籃子裡」(紅球只有 3 顆)
  • 無此物件「把一顆綠球放到紅籃」

場景 B:紅球×4、紅籃(無紫球、無其他籃)

  • 應成功「將兩顆紅球放到紅色籃子裡」
  • 無紫球「將兩個紫色球放到紅色籃子裡」
  • 無藍籃「把一顆紅球放到藍色籃子裡」

場景 C:紅球×2、藍球×3、紫籃、紅籃

  • 應成功「把三顆藍球放到紫色籃子裡」
  • 應成功「將一個紅球放到紫籃」
  • 無紫球「把兩顆紫球放進紅籃」
  • 數量不足「把三顆紅球放到紫籃」(紅球只有 2 顆)

點任一句子可複製到剪貼簿,方便你照著念。

3. Pipeline 結果

4. 系統回饋

(尚未產生)