AI 也要學會「看臉色」與「做計畫」? 拆解 AI Agent 的三大核心技能
想像一下,你雇用了兩位助理。
第一位助理博學多聞,你問他「如何策劃一場到京都的賞楓旅行」,他能瞬間寫出一份完美的五天四夜行程表,甚至附上歷史典故;但當你說「好,幫我訂機票跟旅館」時,他卻客氣地回答:「抱歉,我只是一個語言模型,無法連上網路為您操作。」第二位助理不僅能給你建議,還能直接打開瀏覽器、比對各大訂房網價格、確認你的行事曆空檔、刷卡訂票,最後把確認信發到你的信箱。
這就是 ChatGPT(大語言模型)與 AI Agent(人工智慧代理人)之間的鴻溝。如果說 LLM 是具備人類知識的「大腦」,那麼 AI Agent 就是裝上了「眼睛、耳朵與手腳」的完整生命體。要讓 AI 從「只會說」變成「動手做」,它必須學會三項核心技能:規劃(Planning)、記憶(Memory)以及工具使用與環境感知(Tool Use & Perception)。
一、 規劃力:將雄心壯志拆解為步步為營
人類在處理複雜任務時,大腦會自動進行「任務拆解」。例如「煮一頓晚餐」,你會自動拆分為:檢查冰箱、列採購清單、去超市、備料、烹飪。
早期的 AI 往往會直接跳到最後一步,或是給出一段籠統的文字。但 AI Agent 引入了關鍵的「規劃」機制,最著名的技術莫過於思維鏈(Chain of Thought, CoT)。
- 任務拆解(Task Decomposition)
Agent 會將一個模糊的大目標拆解成數個可執行的子任務。例如,當你要求 Agent「分析這間公司的競爭對手並寫一份報告」時,它的規劃模組會制定路徑:
-
步驟 A:搜尋該公司的核心產品。
-
步驟 B:找出市面上類似產品的廠商。
-
步驟 C:爬取這些廠商的官網與財報。
-
步驟 D:綜合資訊進行 SWOT 分析。
-
- 自省與修正(Self-Reflection)
優秀的 Agent 不僅會做計畫,還會「看臉色」——看計畫執行的成果。如果步驟 B 失敗了(例如網站進不去),它不會卡在那裡,而是會觸發「自省機制」,思考:「為什麼失敗?我是否該換一個搜尋引擎?」這種自我批判的能力,是 Agent 走向自主化的關鍵。
二、 記憶力:不再是「只有 10 秒記憶」的金魚
如果你每天跟同一個 AI 聊天,卻發現它每次都要重新自我介紹,這無疑令人沮喪。傳統 LLM 的記憶受限於「上下文視窗(Context Window)」,一旦對話太長,前面的資訊就會被遺忘。
AI Agent 則透過模擬人類大腦,發展出了兩種記憶模式:
- 短期記憶(Short-term Memory)
這相當於人類的「工作記憶」。Agent 會記錄目前正在執行的任務細節、剛得到的數據、以及當下的對話狀態。這是透過提示工程(Prompt Engineering)將資訊暫存在模型的輸入中來實現的。 - 長期記憶(Long-term Memory)
這是 Agent 真正的突破。透過向量資料庫(Vector Database)技術,Agent 能將過去累積的經驗、用戶的偏好、甚至是整本操作手冊存入「外部大腦」。 當 Agent 需要某個資訊時,它會利用「檢索增強生成(RAG)」技術,從海量資料中提取最相關的部分。這就像是 Agent 擁有一本隨身筆記本,隨時可以翻閱去年的對話紀錄或是專業知識。
三、工具使用與環境感知:AI 的「手腳」與「眼睛」
這是 AI Agent 最令人興奮的部分。一個只會思考的 Agent 只是哲學家,一個會使用工具的 Agent 才是生產力工具。
- 外部工具調用(Tool Use / API Integration)
透過 API(應用程式介面),Agent 可以操作各種數位工具。
-
計算機: 彌補 LLM 數學計算不精準的弱點。
-
搜尋引擎: 獲取即時新聞,而非僅依賴訓練數據。
-
程式執行器: 現場寫出 Python 代碼並執行,以處理數據分析。
-
控制硬體: 連接智慧家居,開燈、調整溫度。
-
- 環境感知(Perception)
所謂的「看臉色」,在 Agent 身上體現為對環境反饋的敏感度。當 Agent 執行一個動作(例如點擊網頁按鈕),它會觀察後續的變化:網頁跳轉了嗎?出現錯誤訊息了嗎?這種**多模態(Multimodal)**的感知能力,讓 Agent 能夠理解圖片、影片甚至聲音,從而做出更人性化的回應。
四、 未來的挑戰:當 Agent 具備「自主性」
當 AI Agent 同時具備了計畫、記憶與執行力,它就變成了一個**「自主代理人」(Autonomous Agent)**。這帶來了巨大的便利,但也引發了深層的思考。
- 數位護欄(Guardrails)
如果 Agent 為了達成「幫我省錢」的目標,擅自退掉了你所有的訂閱服務,這顯然不是我們想要的。我們需要設定明確的道德與邏輯邊界,確保 Agent 在追求目標時,不會逾越人類的價值觀。 - 人機協作的新常態
未來的社會將會出現「多代理人系統(Multi-Agent Systems)」。想像一個場景:你的「個人 Agent」與航空公司的「客服 Agent」進行自動談判,為你處理改簽事宜;而你只需要在最後按下「確認」鍵。
結語:我們正處於 AI 的「寒武紀大爆發」
從單純的「問答」到具備核心技能的「行動」,AI Agent 的發展標誌著人工智慧進入了實踐階段。它不再只是隔著螢幕與你聊天,而是深入到我們的數位生活中,學習如何像人一樣思考、計畫與執行。
學會「看臉色」是為了更好的協作,學會「做計畫」是為了更高的效率。當這三大技能日趨成熟,AI 將不再只是工具,而會成為我們最可靠的數位夥伴。