Z2E-Agent Presentation

AI Agent Workflow

AI Agent 不只是 Web Chatbox。

一般 web-based AI box 給你的主要是文字答案；Agent 則透過 context、tool calling 與 protocol layer 把模型接到真實系統上，能自己執行、自己讀結果、自己繼續做下一步，而不是每一步都靠人類 copy and paste。

看 Agent Workflow 比較 Chatbox 差異

起點: 1 個目標
執行模式: N 個步驟
人手搬運: 0 必須

runtime-difference

這是兩種完全不同的運作模式。

Execution matters

Web Chatbox

Prompt Text reply Copy / paste Manual next step

AI Agent

Goal Context Tool call Observe Continue

Chatbox

Advice

人類仍然是每一步的實際操作員。

Agent

Action

runtime 可以把工作跨 context 和工具持續帶下去。

Difference

Autonomy

執行回饋會讓整個 loop 持續活著。

Core difference

先用動畫看懂 Chatbox 跟 Agent 到底差在哪裡

真正的差別不只在模型，而在模型外面的 runtime。當 context、tool calling 和 feedback 被保留在同一個系統裡，workflow 就不再只是聊天框。

Traditional web chatbox

Text reply still needs human relay

Text in / text out

User

Prompt

Chatbox

Text reply

Manual step

Human relay

copy / paste

Terminal

Browser

APIs

模型可以給答案，但工具鏈上的每一步還是要人手接力，所以 workflow 會一直被打斷。

AI agent runtime

Goal goes into a self-running workflow

Goal in / workflow out

Goal

Objective

Context

State + files + constraints

Runtime

Reason, call, update

keeps running

Terminal

Browser

Files

Feedback

Result returns automatically

Goal 一進來就會被帶進同一個 runtime，context、tool calling 和 feedback 會自己維持整個 loop。

Chatbox

文字回答本身沒有問題，但真正的工作流仍然由使用者自己維持。

Agent Runtime

真正的差異在 runtime：它把模型、上下文、工具和回饋保留在同一個系統內。

Main Gap

核心不是模型更聰明，而是 workflow 可以不靠人類每一步接力。

Agent workflow

Agent 實際上是怎麼運作的

Agent runtime 就是 context 和 tool calling 交叉的地方。這個交叉點，才是把模型從「會聊天」變成「會做事」的關鍵。

Workflow Animation

Context、Tool Calling、Feedback 在 Agent 內部持續交叉

這個動畫在講一件事：Agent 並不是回你一句答案就停止，而是把上下文、工具呼叫、結果回傳都維持在同一個 runtime 裡面，持續更新下一步。

Context <--> Context <--> Context <-->

Tool Calling <--> Tool Calling <--> Tool Calling <-->

Goal

使用者目標

只要給一個高層目標，不需要每一步都重新 prompt 一次。

Context

工作中的上下文

檔案、輸出、限制、記憶、觀察結果，全部保留在 runtime 內。

Agent Runtime

Reason, Decide, Act, Update

Agent 的核心不是只回答問題，而是根據最新上下文持續判斷、呼叫工具、接收回傳，再決定下一步。

Observe Orient Tool call Feedback Next action

Tool Calling

能力協定 / Protocol

模型不是只說「應該做什麼」，而是能透過結構化呼叫真正去做。

Connected Systems

工具與環境

terminal、browser、files、APIs、外部工具的回傳會直接回到 agent loop。

接收目標

使用者只需要給一個目標，不需要每一個小步驟都重新 prompt。

組裝 working context

Agent 會蒐集目前狀態，包括過去輸出、檔案、限制、環境訊號與觀察結果。

透過 protocol 呼叫工具

模型不只是說「該做什麼」，而是真的能用結構化參數去呼叫可用工具。

讀取回饋並自動繼續

工具執行結果會回到模型，更新 context，然後直接影響下一個決策。

Decision loop

OODA：Agent 為什麼可以持續自己走下去

Agent 並不是把所有步驟寫死，而是每次根據新觀察重新進入一個 Observe、Orient、Decide、Act 的循環。這就是為什麼它可以自主完成多步驟工作。

OODA Loop

把 Agent 的決策流程做成一個真正會轉的圈

Observe、Orient、Decide、Act 不是走一次就結束，而是每次有新結果就重新進圈。這個環形 loop 才是 agent 能持續推進工作的核心。

Observe

Orient

Decide

Act

Adaptive Runtime

Observe -> Orient -> Decide -> Act

每次新結果回來，整個圈都重新開始。

Observe

先收集真實結果

terminal 輸出、DOM 變化、檔案差異、API response 都會先被觀察。

Orient

把資訊重新放回 context

觀察結果不是看完就丟，而是回到 runtime 裡更新 agent 對當前狀態的理解。

Decide

選出最有效率的下一步

根據目標、限制、目前狀態與工具能力，挑出現在最值得做的事。

Act

執行後立刻回圈

執行不是結束，Act 的結果會成為下一輪 Observe 的輸入，所以 loop 可以持續活著。

Protocol layer

什麼東西讓模型真的連上真實世界

Agent 需要的不只是模型，而是一個 protocol 或 capability layer，把可用工具用結構化方式暴露出來，模型才能要求動作、接收結果，並維持整個 loop 的一致性。

Context

Goal, state, files

Model

Reasoning

Capability Layer

Protocol dispatch

schema, permissions, tool selection, result parsing

Terminal

Browser

Files

APIs

Structured return

stdout / DOM / file diff / response

Context

Context 不只是一段對話紀錄，而是對目前工作狀態的完整描述。

Tool Calling

Tool calling 把推理變成可執行的動作，讓模型真的能呼叫能力。

Feedback Loop

結果回流後會更新 context，所以 runtime 可以持續重新判斷下一步。

Autonomy

人類的位置，從操作員變成監督者

在一般 chatbox 裡，人類仍然卡在 loop 的每個節點中間；在 agent runtime 裡，人類可以往上一層，從手動 relay 變成設定目標、批准與停止條件的人。

Without agent runtime

Human stays inside every handoff

Operator mode

Chatbox

Ask again

Human

Operator bottleneck

every result passes here

Terminal

Browser

Files

Next step

Paste back

With agent runtime

Human moves above the loop

Supervisor mode

Human oversight

Goal

Start once

Agent runtime

Runtime loop

context + tools + feedback

Context

State update

Terminal

Browser

Files

Feedback

Next step auto-selected

Manual relay

沒有 runtime 時，人類是實際操作員，也是整個流程最慢的瓶頸。

Supervision

有了 agent runtime 之後，人類可以退到更高層，負責目標、批准與停止條件。

Takeaway

Chatbox 幫你思考，Agent 幫你執行並持續自己推進工作。

presentation takeaway

Chatbox 幫你思考，Agent 幫你完成。真正的差異來自 context management、tool calling，以及一個能跨系統持續推進工作的 protocol-driven feedback loop。