0. 模型選擇
變更立即生效;選擇存於本機 localStorage。1. 場景來源(World State)
選定的影像會於停止錄音時自動送 Vision 偵測。
Prompts(可編輯):
2. 錄音指令
待命
預設語音(免錄音,點按即送出)
不方便開麥克風時,點下方任一句即可載入預錄音檔、自動切到對應場景,並走與真實錄音相同的 ASR → 意圖 → 視覺驗證 → TTS 流程。
範例指令(對應三張內建範例圖)
場景 A:紅球×3、藍球×4、紅籃、藍籃
- 應成功「將兩個紅色球放到藍色籃子裡」
- 應成功「把一顆藍球放進紅籃」
- 數量不足「將五個紅色球放到藍色籃子裡」(紅球只有 3 顆)
- 無此物件「把一顆綠球放到紅籃」
場景 B:紅球×4、紅籃(無紫球、無其他籃)
- 應成功「將兩顆紅球放到紅色籃子裡」
- 無紫球「將兩個紫色球放到紅色籃子裡」
- 無藍籃「把一顆紅球放到藍色籃子裡」
場景 C:紅球×2、藍球×3、紫籃、紅籃
- 應成功「把三顆藍球放到紫色籃子裡」
- 應成功「將一個紅球放到紫籃」
- 無紫球「把兩顆紫球放進紅籃」
- 數量不足「把三顆紅球放到紫籃」(紅球只有 2 顆)
點任一句子可複製到剪貼簿,方便你照著念。
3. Pipeline 結果
總耗時 —
4. 系統回饋
(尚未產生)