AI Agent:AI Agent框架+7個(gè)實(shí)例
何謂Agent
Agent 作為一種新興的人工智能技術(shù),正在受到越來越多的關(guān)注。要說清楚什么是 Agent,先得看看人工智能的本質(zhì)是什么。
人工智能這個(gè)名稱來自它試圖通過計(jì)算機(jī)程序或機(jī)器來模擬、擴(kuò)展和增強(qiáng)人類智能的 一些方面。在這個(gè)定義中,“人工”指的是由人類創(chuàng)造或模擬,而“智能”指的是解決問 題、學(xué)習(xí)、適應(yīng)新環(huán)境等的能力。人工智能領(lǐng)域的研究涵蓋了從簡單的自動(dòng)化任務(wù)到復(fù)雜 的決策和問題解決過程,其根本追求是開發(fā)出能模仿、再現(xiàn)甚至超越人類智能水平的技術(shù) 和系統(tǒng)。
傳統(tǒng)的人工智能技術(shù)通常局限于靜態(tài)的功能,它們只能在特定且受限的環(huán)境中執(zhí)行預(yù)先設(shè)定的任務(wù) 。這些系統(tǒng)往往缺乏靈活性和自適應(yīng)能力,無法自主地根據(jù)環(huán)境變化調(diào)整自 己的行為。
這個(gè)局限就是 Agent 概念的出發(fā)點(diǎn),它旨在推動(dòng) AI 從靜態(tài)的、被動(dòng)的存在轉(zhuǎn)變?yōu)閯?dòng) 態(tài)的、主動(dòng)的實(shí)體。
那么,下個(gè)定義:Agent,即智能體或智能代理(見圖 1.4),是一個(gè)具有一定程度自主性的人工智能系統(tǒng)。更具體地說,Agent 是一個(gè)能夠感知環(huán)境、做出決策并采取行動(dòng)的系統(tǒng)。
在人工智能領(lǐng)域中, 代理是一種具有計(jì)算能力的實(shí)體,研究者只能觀察到它們的行為和決策過程。為了深入理解和描述這些代理,研究者通常會(huì)引入其他幾個(gè)關(guān)鍵屬性,包括自 主性、反應(yīng)性、社會(huì)親和性以及學(xué)習(xí)能力,以全面地認(rèn)識人工智能代理的能力和潛力。
Chat GPT 首先通過文本或語音輸出框來感知環(huán)境,并進(jìn)行推 理決策,之后再通過文本框或者語音與人們互動(dòng)。當(dāng)然,還有更為復(fù)雜的 Age nt。這 里以自動(dòng)駕駛 Agent 為例進(jìn)行介紹。
■ 感知環(huán)境,就是指 Agent 能夠接收來自環(huán)境的信息。例如, 一個(gè)自動(dòng)駕駛 Agent 可以感知周圍的交通情況、道路狀況等信息。
■ 做出決策,就是指 Agent 根據(jù)感知的信息制訂下一步的行動(dòng)計(jì)劃。例如,自動(dòng)駕 駛 Agent 根據(jù)感知的信息決定是否加速、減速、轉(zhuǎn)彎等。
■ 采取行動(dòng),就是指 Agent 根據(jù)決策執(zhí)行相應(yīng)的行動(dòng)。例如,自動(dòng)駕駛 Agent 根 據(jù)決策控制汽車的加速器、剎車、方向盤等。
因此,Agent 能夠獨(dú)立完成特定的任務(wù)。Agent 的四大特性如下。
■ 自主性:Agent 能夠根據(jù)自身的知識和經(jīng)驗(yàn),獨(dú)立做出決策和執(zhí)行行動(dòng)。
■適應(yīng)性:Agent能夠?qū)W習(xí)和適應(yīng)環(huán)境,不斷提高自己的能力。
■ 交互性:Agent 能夠與人類進(jìn)行交互,提供信息和服務(wù)。
■ 功能性:Agent 可以在特定領(lǐng)域內(nèi)執(zhí)行特定的任務(wù)。 從技術(shù)角度來說,Agent 通常包括以下核心組件。
■ 感知器:Agent 通過感知器接收關(guān)于環(huán)境的信息。這可以是通過傳感器收集的實(shí) 時(shí)數(shù)據(jù),也可以是通過數(shù)據(jù)庫或互聯(lián)網(wǎng)獲取的信息。
■ 知識庫:Agent 根據(jù)目標(biāo)和以往的經(jīng)驗(yàn),通過知識庫存儲(chǔ)和管理有關(guān)環(huán)境和自身 狀態(tài)的信息。
■ 決策引擎:Agent 分析感知的信息,并結(jié)合知識庫中的數(shù)據(jù),通過決策引擎做出 決策。
■ 執(zhí)行器:Agent 通過執(zhí)行器在環(huán)境中采取行動(dòng)。這可以是物理動(dòng)作,如機(jī)器人移 動(dòng)其手臂,也可以是虛擬動(dòng)作,如在線服務(wù)發(fā)送信息。
盡管構(gòu)建 Agent 的基石已經(jīng)準(zhǔn)備就緒,但 Agent 的技術(shù)發(fā)展仍處于萌芽階段。開 發(fā)者需要進(jìn)行深入思考并動(dòng)手實(shí)踐,以確立 Agent 的開發(fā)框架、Agent 訪問工具的方 式、與數(shù)據(jù)交互的方式,以及如何對話以完成具體任務(wù)。這些問題的答案將塑造未來 Agent 的形態(tài)和能力。
在解鎖 Agent的巨大潛力的過程中,我們需要深入探討以下幾個(gè)關(guān)鍵問題。
■ Agent 如何在各行各業(yè)中提升效率以及創(chuàng)造機(jī)會(huì)和更多可能性?
■ 在眾多的 Agent 框架中,如何選擇適合自己需求的框架?
■ 在解決現(xiàn)實(shí)世界的問題時(shí),如何實(shí)施 Agent 才最有效?
■ 自主 Agent 如何改變我們對人工智能驅(qū)動(dòng)的任務(wù)管理的認(rèn)知和實(shí)踐?
學(xué)習(xí) Agent需要這樣一本AI Agent書籍
目前無論是學(xué)術(shù)界還是產(chǎn)業(yè)界,對人工智能應(yīng)用開發(fā)的關(guān)鍵問題遠(yuǎn)未達(dá)成共識?!秳?dòng)手做AI Agent GPT》或許可以作為讀者深入探討上述問題的漫長旅途的開端。本書旨在從技術(shù)和工具層面闡釋 Agent 設(shè)計(jì)的框架、功能和方法,具體涉及如下技術(shù)或工具。
■ Open AI API 以 及 Open AI Assistants :用 于 調(diào) 用 包 含 GP T -4 模 型 和 DALL ·E 3 模型在內(nèi)的眾多人工智能模型。
■ LangCha in :開源框架,旨在簡化構(gòu)建基于語言的人工智能應(yīng)用的過程,其中 包含對 ReAct 框架的封裝和實(shí)現(xiàn)。
■ Llama Index :開源框架,用于幫助管理和檢索非結(jié)構(gòu)化數(shù)據(jù),利用大模型的 能力和 Agent 框架來提高文本檢索的準(zhǔn)確性、效率和智能程度。
這些技術(shù)和工具都可以用于構(gòu)建 Agent,它們通過接口連接大模型,為 Agent 提 供語言理解、內(nèi)容生成和決策支持的能力。通過它們, Agent 可以支持多種外部工具, 進(jìn)而執(zhí)行復(fù)雜任務(wù)以及與環(huán)境進(jìn)行交互。
除了介紹 Agent 的框架和開發(fā)工具之外, 本書還將通過 7 個(gè)實(shí)操項(xiàng)目, 帶領(lǐng)讀者 學(xué)習(xí)前沿的 Agent 實(shí)現(xiàn)技術(shù)。這 7 個(gè)項(xiàng)目分別如下。
Agent 1:自動(dòng)化辦公的實(shí)現(xiàn)——通過 Assistants API 和 DALL ·E 3 模型創(chuàng) 作 PPT。
■ Agent 2:多功能選擇的引擎——通過 Function Calling 調(diào)用函數(shù)。
■ Agent 3:推理與行動(dòng)的協(xié)同——通過 LangChain 中的 ReAct 框架實(shí)現(xiàn)自動(dòng) 定價(jià)。
■ Agent 4: 計(jì) 劃 和 執(zhí) 行 的 解 耦 —— 通 過 Lang Chain 中 的 Play - and - Execute 實(shí)現(xiàn)智能調(diào)度庫存。
■ Agent 5:知識的提取與整合——通過 LlamaIndex 實(shí)現(xiàn)檢索增強(qiáng)生成 Agent。
■ Agent 6:GitHub 的網(wǎng)紅聚落——AutoGPT、BabyAGI 和 CAMEL。
■ Agent 7:多 Agent 框架——AutoGen 和 MetaGPT。
此外,我還在附錄中簡要介紹了科研論文中 Agent 技術(shù)進(jìn)展,旨在為讀者提供當(dāng)前 Agent 技術(shù)發(fā)展的全面視角并展現(xiàn)相關(guān)的探索。
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。