Traditional web chatbox
Text reply still needs human relay
User
Prompt
Chatbox
Text reply
Manual step
Human relay
copy / paste
模型可以給答案,但工具鏈上的每一步還是要人手接力,所以 workflow 會一直被打斷。
Z2E-Agent Presentation
AI Agent Workflow
一般 web-based AI box 給你的主要是文字答案;Agent 則透過 context、tool calling 與 protocol layer 把模型接到真實系統上,能自己執行、自己讀結果、自己繼續做下一步,而不是每一步都靠人類 copy and paste。
給高層目標,不是給每一步手動指令。
Agent 會自己把步驟串起來直到完成。
不需要每一步都由人類負責 relay。
runtime-difference
這是兩種完全不同的運作模式。
Web Chatbox
AI Agent
Chatbox
Advice
人類仍然是每一步的實際操作員。
Agent
Action
runtime 可以把工作跨 context 和工具持續帶下去。
Difference
Autonomy
執行回饋會讓整個 loop 持續活著。
Core difference
真正的差別不只在模型,而在模型外面的 runtime。當 context、tool calling 和 feedback 被保留在同一個系統裡,workflow 就不再只是聊天框。
Traditional web chatbox
User
Chatbox
Manual step
copy / paste
模型可以給答案,但工具鏈上的每一步還是要人手接力,所以 workflow 會一直被打斷。
AI agent runtime
Goal
Context
Runtime
keeps running
Feedback
Goal 一進來就會被帶進同一個 runtime,context、tool calling 和 feedback 會自己維持整個 loop。
文字回答本身沒有問題,但真正的工作流仍然由使用者自己維持。
真正的差異在 runtime:它把模型、上下文、工具和回饋保留在同一個系統內。
核心不是模型更聰明,而是 workflow 可以不靠人類每一步接力。
Agent workflow
Agent runtime 就是 context 和 tool calling 交叉的地方。這個交叉點,才是把模型從「會聊天」變成「會做事」的關鍵。
Workflow Animation
這個動畫在講一件事:Agent 並不是回你一句答案就停止,而是把上下文、工具呼叫、結果回傳都維持在同一個 runtime 裡面,持續更新下一步。
Goal
只要給一個高層目標,不需要每一步都重新 prompt 一次。
Context
檔案、輸出、限制、記憶、觀察結果,全部保留在 runtime 內。
Agent Runtime
Agent 的核心不是只回答問題,而是根據最新上下文持續判斷、呼叫工具、接收回傳,再決定下一步。
Tool Calling
模型不是只說「應該做什麼」,而是能透過結構化呼叫真正去做。
Connected Systems
terminal、browser、files、APIs、外部工具的回傳會直接回到 agent loop。
01
使用者只需要給一個目標,不需要每一個小步驟都重新 prompt。
02
Agent 會蒐集目前狀態,包括過去輸出、檔案、限制、環境訊號與觀察結果。
03
模型不只是說「該做什麼」,而是真的能用結構化參數去呼叫可用工具。
04
工具執行結果會回到模型,更新 context,然後直接影響下一個決策。
Decision loop
Agent 並不是把所有步驟寫死,而是每次根據新觀察重新進入一個 Observe、Orient、Decide、Act 的循環。這就是為什麼它可以自主完成多步驟工作。
OODA Loop
Observe、Orient、Decide、Act 不是走一次就結束,而是每次有新結果就重新進圈。這個環形 loop 才是 agent 能持續推進工作的核心。
Adaptive Runtime
每次新結果回來,整個圈都重新開始。
Observe
terminal 輸出、DOM 變化、檔案差異、API response 都會先被觀察。
Orient
觀察結果不是看完就丟,而是回到 runtime 裡更新 agent 對當前狀態的理解。
Decide
根據目標、限制、目前狀態與工具能力,挑出現在最值得做的事。
Act
執行不是結束,Act 的結果會成為下一輪 Observe 的輸入,所以 loop 可以持續活著。
Protocol layer
Agent 需要的不只是模型,而是一個 protocol 或 capability layer,把可用工具用結構化方式暴露出來,模型才能要求動作、接收結果,並維持整個 loop 的一致性。
Context
Model
Capability Layer
schema, permissions, tool selection, result parsing
Structured return
Context 不只是一段對話紀錄,而是對目前工作狀態的完整描述。
Tool calling 把推理變成可執行的動作,讓模型真的能呼叫能力。
結果回流後會更新 context,所以 runtime 可以持續重新判斷下一步。
Autonomy
在一般 chatbox 裡,人類仍然卡在 loop 的每個節點中間;在 agent runtime 裡,人類可以往上一層,從手動 relay 變成設定目標、批准與停止條件的人。
Without agent runtime
Chatbox
Human
every result passes here
Next step
With agent runtime
Goal
Agent runtime
context + tools + feedback
Context
Feedback
沒有 runtime 時,人類是實際操作員,也是整個流程最慢的瓶頸。
有了 agent runtime 之後,人類可以退到更高層,負責目標、批准與停止條件。
Chatbox 幫你思考,Agent 幫你執行並持續自己推進工作。
presentation takeaway
Chatbox 幫你思考,Agent 幫你完成。真正的差異來自 context management、tool calling,以及一個能跨系統持續推進工作的 protocol-driven feedback loop。