AI-Master-Book
  • about AI-Master-Book
  • AI Master Book
    • 이상치 탐지 with Python
    • 베이지안 뉴럴네트워크 (BNN) with Python
    • 그래프 뉴럴네트워크 (GNN) with Python
    • 데이터 마케팅 분석 with Python
  • LLM MASTER BOOK
    • OpenAI API 쿡북 with Python
    • 기초부터 심화까지 RAG 쿡북 with Python
    • MCP 에이전트 쿡북 with Python
  • LLMs
    • OpenAI API
      • 1️⃣ChatCompletion
      • 2️⃣DALL-E
      • 3️⃣Text to Speech
      • 4️⃣Video to Transcripts
      • 5️⃣Assistants API
      • 6️⃣Prompt Engineering
      • 7️⃣OpenAI New GPT-4o
    • LangChain
      • LangChain Basic
        • 1️⃣Basic Modules
        • 2️⃣Model I/O
        • 3️⃣Prompts
        • 4️⃣Chains
        • 5️⃣Agents
        • 6️⃣Tools
        • 7️⃣Memory
      • LangChain Intermediate
        • 1️⃣OpenAI LLM
        • 2️⃣Prompt Template
        • 3️⃣Retrieval
        • 4️⃣RAG ChatBot
        • 5️⃣RAG with Gemini
        • 6️⃣New Huggingface-LangChain
        • 7️⃣Huggingface Hub
        • 8️⃣SQL Agent & Chain
        • 9️⃣Expression Language(LCEL)
        • 🔟Llama3-8B with LangChain
      • LangChain Advanced
        • 1️⃣LLM Evaluation
        • 2️⃣RAG Evaluation with RAGAS
        • 3️⃣LangChain with RAGAS
        • 4️⃣RAG Paradigms
        • 5️⃣LangChain: Advance Techniques
        • 6️⃣LangChain with NeMo-Guardrails
        • 7️⃣LangChain vs. LlamaIndex
        • 8️⃣LangChain LCEL vs. LangGraph
    • LlamaIndex
      • LlamaIndex Basic
        • 1️⃣Introduction
        • 2️⃣Customization
        • 3️⃣Data Connectors
        • 4️⃣Documents & Nodes
        • 5️⃣Naive RAG
        • 6️⃣Advanced RAG
        • 7️⃣Llama3-8B with LlamaIndex
        • 8️⃣LlmaPack
      • LlamaIndex Intermediate
        • 1️⃣QueryEngine
        • 2️⃣Agent
        • 3️⃣Evaluation
        • 4️⃣Evaluation-Driven Development
        • 5️⃣Fine-tuning
        • 6️⃣Prompt Compression with LLMLingua
      • LlamaIndex Advanced
        • 1️⃣Agentic RAG: Router Engine
        • 2️⃣Agentic RAG: Tool Calling
        • 3️⃣Building Agent Reasoning Loop
        • 4️⃣Building Multi-document Agent
    • Hugging Face
      • Huggingface Basic
        • 1️⃣Datasets
        • 2️⃣Tokenizer
        • 3️⃣Sentence Embeddings
        • 4️⃣Transformers
        • 5️⃣Sentence Transformers
        • 6️⃣Evaluate
        • 7️⃣Diffusers
      • Huggingface Tasks
        • NLP
          • 1️⃣Sentiment Analysis
          • 2️⃣Zero-shot Classification
          • 3️⃣Aspect-Based Sentiment Analysis
          • 4️⃣Feature Extraction
          • 5️⃣Intent Classification
          • 6️⃣Topic Modeling: BERTopic
          • 7️⃣NER: Token Classification
          • 8️⃣Summarization
          • 9️⃣Translation
          • 🔟Text Generation
        • Audio & Tabular
          • 1️⃣Text-to-Speech: TTS
          • 2️⃣Speech Recognition: Whisper
          • 3️⃣Audio Classification
          • 4️⃣Tabular Qustaion & Answering
        • Vision & Multimodal
          • 1️⃣Image-to-Text
          • 2️⃣Text to Image
          • 3️⃣Image to Image
          • 4️⃣Text or Image-to-Video
          • 5️⃣Depth Estimation
          • 6️⃣Image Classification
          • 7️⃣Object Detection
          • 8️⃣Segmentatio
      • Huggingface Optimization
        • 1️⃣Accelerator
        • 2️⃣Bitsandbytes
        • 3️⃣Flash Attention
        • 4️⃣Quantization
        • 5️⃣Safetensors
        • 6️⃣Optimum-ONNX
        • 7️⃣Optimum-NVIDIA
        • 8️⃣Optimum-Intel
      • Huggingface Fine-tuning
        • 1️⃣Transformer Fine-tuning
        • 2️⃣PEFT Fine-tuning
        • 3️⃣PEFT: Fine-tuning with QLoRA
        • 4️⃣PEFT: Fine-tuning Phi-2 with QLoRA
        • 5️⃣Axoltl Fine-tuning with QLoRA
        • 6️⃣TRL: RLHF Alignment Fine-tuning
        • 7️⃣TRL: DPO Fine-tuning with Phi-3-4k-instruct
        • 8️⃣TRL: ORPO Fine-tuning with Llama3-8B
        • 9️⃣Convert GGUF gemma-2b with llama.cpp
        • 🔟Apple Silicon Fine-tuning Gemma-2B with MLX
        • 🔢LLM Mergekit
    • Agentic LLM
      • Agentic LLM
        • 1️⃣Basic Agentic LLM
        • 2️⃣Multi-agent with CrewAI
        • 3️⃣LangGraph: Multi-agent Basic
        • 4️⃣LangGraph: Agentic RAG with LangChain
        • 5️⃣LangGraph: Agentic RAG with Llama3-8B by Groq
      • Autonomous Agent
        • 1️⃣LLM Autonomous Agent?
        • 2️⃣AutoGPT: Worldcup Winner Search with LangChain
        • 3️⃣BabyAGI: Weather Report with LangChain
        • 4️⃣AutoGen: Writing Blog Post with LangChain
        • 5️⃣LangChain: Autonomous-agent Debates with Tools
        • 6️⃣CAMEL Role-playing Autonomous Cooperative Agents
        • 7️⃣LangChain: Two-player Harry Potter D&D based CAMEL
        • 8️⃣LangChain: Multi-agent Bid for K-Pop Debate
        • 9️⃣LangChain: Multi-agent Authoritarian Speaker Selection
        • 🔟LangChain: Multi-Agent Simulated Environment with PettingZoo
    • Multimodal
      • 1️⃣PaliGemma: Open Vision LLM
      • 2️⃣FLUX.1: Generative Image
    • Building LLM
      • 1️⃣DSPy
      • 2️⃣DSPy RAG
      • 3️⃣DSPy with LangChain
      • 4️⃣Mamba
      • 5️⃣Mamba RAG with LangChain
      • 7️⃣PostgreSQL VectorDB with pgvorco.rs
Powered by GitBook
On this page
  • Autonomous Agent (자율 에이전트)란?
  • Autonomous Agent 기본 사항
  • Autonomous Agent 유형 및 사례
  • Autonomous Agent Key Features
  • LLM Autonomous Agent 핵심 기술
  • LLM Autonomous Agent의 미래
  1. LLMs
  2. Agentic LLM
  3. Autonomous Agent

LLM Autonomous Agent?

PreviousAutonomous AgentNextAutoGPT: Worldcup Winner Search with LangChain

Last updated 1 year ago

Autonomous Agent (자율 에이전트)란?

Autonomous Agent(자율 에이전트)는 스스로 선택할 수 있는 스마트 시스템입니다. 엄격한 규칙을 따르는 표준 AI와 달리 자율 에이전트는 주변 환경과 목표에 따라 다음 행동을 결정합니다. 이러한 기술 덕분에 기술 업계에서 두각을 나타내고 있습니다.

  • 정의: 자율 에이전트의 핵심은 특정 작업을 수행하기 위해 스스로 작동하는 시스템이라고 정의할 수 있습니다. 이러한 자유로움은 일반적인 형태의 AI와 차별화됩니다.

  • 일반적인 AI와의 차이점: 모든 작업에 대해 직접적인 명령이 필요한 일반적인 AI와 달리, 자율 에이전트는 매 단계마다 무엇을 해야 하는지 지시받지 않고도 세상을 파악하여 행동합니다.

이 에이전트들은 기계가 주변 세계와 소통하는 방식에서 비약적인 발전을 보여주며, 기술이 더욱 적응력 있고 자연스러운 미래를 엿볼 수 있게 해줍니다.

Autonomous Agent 기본 사항

AI 자율 에이전트를 이해한다는 것은 이러한 시스템이 사람의 도움 없이 어떻게 사고하고 행동할 수 있는지 이해하는 것을 의미합니다. 이러한 에이전트는 우리가 기계와 소통하는 방식을 변화시켜 기술을 더욱 반응적이고 개인화할 수 있게 해줄 것입니다.

  • AI 자율 에이전트 이해하기: 이러한 에이전트는 똑똑하고 시간이 지남에 따라 학습하고 적응할 수 있습니다. 새로운 환경에서 무엇을 해야 하는지 알아낼 수 있어 생활과 업무의 여러 영역에서 매우 유용합니다.

  • 자유로운 작업: 이들의 진정한 힘은 다양한 환경에서 혼자서 일할 수 있는 능력에 있습니다. 집안일부터 복잡한 소프트웨어 처리까지, 이 상담원들은 지속적인 안내 없이도 업무를 수행할 수 있습니다.

이러한 자유로움이야말로 오픈AI 자율 에이전트를 매우 유망하게 만드는 요소입니다. 이는 단순히 또 하나의 기술이 아니라 생산성과 새로운 아이디어를 향상시킬 수 있는 보다 영리하고 자립적인 시스템으로의 핵심적인 전환입니다.

Autonomous Agent 유형 및 사례

  • 소프트웨어 에이전트(Software Agents): 이메일 분류나 개인 쇼핑과 같은 온라인 작업을 수행하는 프로그램.

  • 로봇 공학(Robotics): 드론이나 공장의 로봇 팔과 같이 실제 세계를 움직이고 상호작용할 수 있는 기계.

  • AI 기반 시스템(AI-Driven Systems): 데이터를 분석하고 선택을 내릴 수 있는 복잡한 공식으로, 금융 및 건강 등의 분야에서 사용됩니다.

분야

자율 에이전트 적용

이점

홈 자동화

스마트 온도 조절기, 조명 시스템, 보안 카메라

편의성, 에너지 효율성, 보안 향상

헬스케어

환자 모니터링 시스템 및 진단 도구

향상된 환자 관리, 조기 진단, 개인 맞춤형 치료 계획

금융

알고리즘 거래 및 사기 탐지 시스템

의사 결정, 위험 관리 및 보안 개선

고객 서비스

문의 및 지원 처리를 위한 AI 챗봇

연중무휴 24시간 서비스 가용성, 응답 시간 단축, 맞춤형 지원

운송

자율주행 자동차 및 배송 드론

더 안전한 도로, 인적 오류 감소, 효율적인 배송 서비스

제조

로봇 팔 및 자동화된 생산 라인

작업장의 생산성, 정밀성, 안전성 향상

Autonomous Agent Key Features

자율 에이전트는 자율성, 반응성, 능동성, 사회적 기술이라는 네 가지 주요 특성 덕분에 빛을 발합니다. 이러한 기능은 에이전트가 스마트한 방식으로 세상을 탐색하고 소통할 수 있도록 도와줍니다.

자율성(Autonomy)

자율성을 통해 에이전트는 스스로 선택할 수 있습니다. 즉, 사람의 입력 없이도 프로그래밍과 경험을 통한 학습을 통해 최적의 행동 방침을 찾아낼 수 있습니다.

반응성(Reactivity)

반응성은 환경의 변화를 감지하고 실시간으로 대응하는 기술입니다. 이러한 빠른 적응력은 즉각적인 주의가 필요한 작업에서 매우 중요하며, 자율 에이전트가 예기치 않은 상황을 쉽게 처리할 수 있도록 해줍니다.

선제적 대응(Proactiveness)

능동성은 주도권을 갖는 것을 포함합니다. 자율 에이전트는 세상에 반응하는 데 그치지 않고 요구 사항이나 문제를 예측하고 미리 대처할 수 있습니다. 이러한 미래 지향적인 접근 방식이 단순한 자동화된 시스템과 차별화되는 점입니다.

사회적 능력(Social ability)

소셜 스킬은 에이전트가 인간 및 다른 기계와 상호작용하는 방식을 말합니다. 효과적인 커뮤니케이션과 팀워크가 핵심이며, 공동의 노력을 통해 더 복잡한 작업을 수행할 수 있습니다.

LLM Autonomous Agent 핵심 기술

인공지능은 시스템을 그 어느 때보다 더 스마트하고 독립적으로 만들며 혁신을 일으키고 있습니다. 의사 결정을 내리고 경험을 통해 학습하는 능력은 기술을 혁신하고 있습니다.

  • 시간 경과에 따른 학습: 머신 러닝과 신경망을 통해 에이전트는 진화하며 각 작업에 따라 개선됩니다.

  • 패턴 파악: 데이터의 추세를 파악하여 미래의 이벤트를 예측하고 이에 대응할 수 있습니다.

  • 의사 결정: 이러한 에이전트는 프로그래밍과 학습한 내용을 바탕으로 최선의 행동 방침을 결정합니다.

1. Planning

복잡한 작업에는 일반적으로 많은 단계가 수반됩니다. 상담원은 이러한 단계를 파악하고 미리 계획할 수 있어야 합니다.

  • 하위 목표 및 분해: 에이전트는 큰 작업을 관리하기 쉬운 작은 하위 목표로 세분화하여 복잡한 작업을 효율적으로 처리할 수 있습니다.

  • 반성 및 개선: 에이전트는 과거 작업에 대한 자기 비판과 자기 성찰을 수행하고, 실수로부터 배우고, 향후 단계를 위해 개선하여 최종 결과의 품질을 향상시킬 수 있습니다.

2. Memory

기억력은 정보를 획득, 저장, 유지 및 나중에 검색하는 데 사용되는 프로세스로 정의할 수 있습니다. 인간의 두뇌에는 여러 유형의 기억이 있습니다.

  • 단기 기억: "상황 내 학습"과 동일하게 간주할 수 있습니다.

  • 장기 기억: 상담원이 외부 벡터 데이터베이스를 활용하여 장기간에 걸쳐 정보를 유지하고 불러올 수 있도록 합니다.

3. Tool Use

LLM에 외부 도구를 장착하면 모델의 기능을 크게 확장할 수 있습니다.

  • 에이전트는 현재 정보, 코드 실행 기능, 독점 정보 소스에 대한 액세스 등 모델 가중치에서 누락된 추가 정보(사전 학습 후에는 변경하기 어려운 경우가 많음)를 얻기 위해 외부 API를 호출하는 방법을 학습합니다. 참고: 특정 작업에 특화된 LLM은 도구로 간주할 수 있습니다.

LLM Autonomous Agent의 미래

1. On-device SLM(Small Language Model)

  • On-device 형태의 SLM에 주목 중

  • 모델 파라미터 수: 1.3B, 3B, 7B, 30B, 70B, 150B

  • Apple의 OpenELM 모델은 1B 이하

  • SLM의 Fine-tuning과 함게 경량화/최적화가 중요

2. Multi-modal 옴니버스

  • OpenAI가 GPT-4o 옴니버스 모델을 발표한 것처럼 멀티모달을 인식하며 복합적인 추론을 구현

  • 시각, 음성 인식, 모션 센서 데이터로 실제 환경을 인식하여 LLM이 Multi-Agent를 수행

3. Autonomous Agent

  • Autonomous Agents가 자율 생성 AI로 동작

  • Autonomous Agent 뿐만아니라 Multi-Agent로 동시 수행하는 Agentic AI가 대두

4. Conclusion: Future of AI

더 적은 사이즈 모델로 Mobile, PC, Edge 디바이스에서 동작하는 AGI(Artificial General Intelligence)로 진화하여 Agent가 Environment 환경에 따라 자율적(Autonomous)이고, 여러개가 동시 수행(Multi)하는 물리적인 AGI Robot이 등장할 것으로 보입니다.

1️⃣
https://lilianweng.github.io/posts/2023-06-23-agent/
https://lilianweng.github.io/posts/2023-06-23-agent/