南訊企業股份有限公司 - AI 也要學會「看臉色」與「做計畫」？拆解 AI Agent 的三大核心技能

關於南訊

Home / 關於南訊 / 技術科普 / AI 也要學會「看臉色」與「做計畫」？拆解 AI Agent 的三大核心技能

關於南訊

企業簡介

大事紀要

技術科普

2026/03/09

AI 也要學會「看臉色」與「做計畫」？拆解 AI Agent 的三大核心技能

想像一下，你雇用了兩位助理。

第一位助理博學多聞，你問他「如何策劃一場到京都的賞楓旅行」，他能瞬間寫出一份完美的五天四夜行程表，甚至附上歷史典故；但當你說「好，幫我訂機票跟旅館」時，他卻客氣地回答：「抱歉，我只是一個語言模型，無法連上網路為您操作。」第二位助理不僅能給你建議，還能直接打開瀏覽器、比對各大訂房網價格、確認你的行事曆空檔、刷卡訂票，最後把確認信發到你的信箱。

這就是 ChatGPT（大語言模型）與 AI Agent（人工智慧代理人）之間的鴻溝。如果說 LLM 是具備人類知識的「大腦」，那麼 AI Agent 就是裝上了「眼睛、耳朵與手腳」的完整生命體。要讓 AI 從「只會說」變成「動手做」，它必須學會三項核心技能：規劃（Planning）、記憶（Memory）以及工具使用與環境感知（Tool Use & Perception）。

一、規劃力：將雄心壯志拆解為步步為營

人類在處理複雜任務時，大腦會自動進行「任務拆解」。例如「煮一頓晚餐」，你會自動拆分為：檢查冰箱、列採購清單、去超市、備料、烹飪。

早期的 AI 往往會直接跳到最後一步，或是給出一段籠統的文字。但 AI Agent 引入了關鍵的「規劃」機制，最著名的技術莫過於思維鏈（Chain of Thought, CoT）。

任務拆解（Task Decomposition）

Agent 會將一個模糊的大目標拆解成數個可執行的子任務。例如，當你要求 Agent「分析這間公司的競爭對手並寫一份報告」時，它的規劃模組會制定路徑：
- 步驟 A：搜尋該公司的核心產品。
- 步驟 B：找出市面上類似產品的廠商。
- 步驟 C：爬取這些廠商的官網與財報。
- 步驟 D：綜合資訊進行 SWOT 分析。
自省與修正（Self-Reflection）
優秀的 Agent 不僅會做計畫，還會「看臉色」——看計畫執行的成果。如果步驟 B 失敗了（例如網站進不去），它不會卡在那裡，而是會觸發「自省機制」，思考：「為什麼失敗？我是否該換一個搜尋引擎？」這種自我批判的能力，是 Agent 走向自主化的關鍵。

二、記憶力：不再是「只有 10 秒記憶」的金魚

如果你每天跟同一個 AI 聊天，卻發現它每次都要重新自我介紹，這無疑令人沮喪。傳統 LLM 的記憶受限於「上下文視窗（Context Window）」，一旦對話太長，前面的資訊就會被遺忘。

AI Agent 則透過模擬人類大腦，發展出了兩種記憶模式：

短期記憶（Short-term Memory）
這相當於人類的「工作記憶」。Agent 會記錄目前正在執行的任務細節、剛得到的數據、以及當下的對話狀態。這是透過提示工程（Prompt Engineering）將資訊暫存在模型的輸入中來實現的。
長期記憶（Long-term Memory）
這是 Agent 真正的突破。透過向量資料庫（Vector Database）技術，Agent 能將過去累積的經驗、用戶的偏好、甚至是整本操作手冊存入「外部大腦」。當 Agent 需要某個資訊時，它會利用「檢索增強生成（RAG）」技術，從海量資料中提取最相關的部分。這就像是 Agent 擁有一本隨身筆記本，隨時可以翻閱去年的對話紀錄或是專業知識。

三、工具使用與環境感知：AI 的「手腳」與「眼睛」

這是 AI Agent 最令人興奮的部分。一個只會思考的 Agent 只是哲學家，一個會使用工具的 Agent 才是生產力工具。

外部工具調用（Tool Use / API Integration）

透過 API（應用程式介面），Agent 可以操作各種數位工具。
- 計算機：彌補 LLM 數學計算不精準的弱點。
- 搜尋引擎：獲取即時新聞，而非僅依賴訓練數據。
- 程式執行器：現場寫出 Python 代碼並執行，以處理數據分析。
- 控制硬體：連接智慧家居，開燈、調整溫度。
環境感知（Perception）
所謂的「看臉色」，在 Agent 身上體現為對環境反饋的敏感度。當 Agent 執行一個動作（例如點擊網頁按鈕），它會觀察後續的變化：網頁跳轉了嗎？出現錯誤訊息了嗎？這種**多模態（Multimodal）**的感知能力，讓 Agent 能夠理解圖片、影片甚至聲音，從而做出更人性化的回應。

四、未來的挑戰：當 Agent 具備「自主性」

當 AI Agent 同時具備了計畫、記憶與執行力，它就變成了一個**「自主代理人」（Autonomous Agent）**。這帶來了巨大的便利，但也引發了深層的思考。

數位護欄（Guardrails）
如果 Agent 為了達成「幫我省錢」的目標，擅自退掉了你所有的訂閱服務，這顯然不是我們想要的。我們需要設定明確的道德與邏輯邊界，確保 Agent 在追求目標時，不會逾越人類的價值觀。
人機協作的新常態
未來的社會將會出現「多代理人系統（Multi-Agent Systems）」。想像一個場景：你的「個人 Agent」與航空公司的「客服 Agent」進行自動談判，為你處理改簽事宜；而你只需要在最後按下「確認」鍵。

結語：我們正處於 AI 的「寒武紀大爆發」

從單純的「問答」到具備核心技能的「行動」，AI Agent 的發展標誌著人工智慧進入了實踐階段。它不再只是隔著螢幕與你聊天，而是深入到我們的數位生活中，學習如何像人一樣思考、計畫與執行。

學會「看臉色」是為了更好的協作，學會「做計畫」是為了更高的效率。當這三大技能日趨成熟，AI 將不再只是工具，而會成為我們最可靠的數位夥伴。

AI 也要學會「看臉色」與「做計畫」？ 拆解 AI Agent 的三大核心技能

一、 規劃力：將雄心壯志拆解為步步為營