728x90

ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models

Abstract

  • ReWOO (Reasoning Without Observation): 추론 과정을 외부 도구 관찰과 분리하는 새로운 모듈형 패러다임 제안

  • 기존 ALM 시스템 문제: 추론과 도구 호출을 교차 수행 → 토큰 사용량 증가, 계산 비용 상승

  • ReWOO의 핵심: 추론과 도구 호출을 분리해 비효율성 최소화

  • HotpotQA 벤치마크에서 5배 토큰 효율성 + 4% 정확도 향상

  • 도구 오류 상황에서도 안정적인 성능 유지

  • 추론 능력을 작은 모델(7B LLaMA)로 이전 가능 → 대규모 모델(GPT-3.5 175B) 의존성 감소

  • ReWOO는 효율적이고 확장 가능한 ALM 구축 가능성을 보여줌

1 Introduction

배경

  • LLM(대규모 언어 모델)과 외부 도구(플러그인)를 결합해 최신 정보를 검색하고 환경과 상호작용하는 ALM(증강 언어 모델)이 주목받는 중.
  • 기존 ALM 시스템은 ReAct 방식으로 추론과 도구 호출을 교차 수행 → 토큰 사용량 과다 및 계산 비용 증가 문제 발생.
  • OpenAI 같은 상용 LLM은 토큰 사용량 기반으로 과금 → 프롬프트 중복이 사용자 비용 증가로 이어짐.

  • 문제 해결
    • ReWOO (Reasoning Without Observation) 제안: ALM의 추론, 도구 호출, 요약 작업을 Planner, Worker, Solver 3개 모듈로 분리함.
      • Planner: 작업을 세분화하고 계획을 수립.
      • Worker: 외부 도구로부터 필요한 증거 검색.
      • Solver: 계획과 증거를 종합해 최종 답안 생성.
    • 기존 방식의 프롬프트 중복 문제 해결 → 토큰 사용량 절감 + 효율성 향상.

  • 실험 결과
    • 6개 NLP 벤치마크 + 맞춤형 데이터셋에서 ReWOO 성능 평가.
    • 기존 ALM 방식인 ReAct 대비 토큰 효율성 증가 + 성능 향상 확인.
    • LLaMA 7B 모델을 소규모 학습으로 GPT-3.5와 유사한 성능 달성 → 경량 모델 활용 가능성 입증.

  • 기여
    1. 추론 능력 분석: 명시적 관찰 없이도 LLM의 추론 능력을 활용해 프롬프트 효율적인 ALM 구현 가능성 제시.
    2. 모듈형 프레임워크: ReWOO를 통해 기존 ALM 대비 토큰 사용량 절감 + 성능 향상 + 강건성 증가.
    3. 경량화 가능성: LLM 추론 능력을 작은 모델로 이전해 경량화 및 확장성 지원.

  • 의의
    • ReWOO는 기존 ALM의 한계를 극복하며, 효율적이고 확장 가능한 ALM 시스템 개발에 기여 가능성을 보여줌.

2 Methodology

2.1 ReWOO with Plan-Work-Solve Paradigm

  • Planner: LLM의 예측 추론(foreseeable reasoning)을 활용해 작업 계획(blueprint) 수립.
    • 계획은 연속적인 (Plan, #E) 튜플로 구성 (#E는 증거 저장용 토큰).
    • 이전 단계의 #E를 다음 단계 Worker에게 전달해 다단계 및 복잡한 작업 처리 가능.
  • Worker: Planner가 수립한 계획에 따라 외부 도구 호출 → 실질적인 증거(#E)를 채움.
  • Solver: Planner와 Worker가 생성한 계획과 증거를 바탕으로 최종 솔루션 도출.
    • "주의 깊게" 사용 지시 시 성능 향상 관찰됨 → Planner/Worker 실패 보완 가능.

2.2 Prompt Redundancy Reduction

  • 기존 ALM은 추론-도구 호출-관찰(TAO) 패턴 반복 → 프롬프트 중복으로 토큰 사용량 폭증.
    • 질문(Q) + 컨텍스트(C) + 예제(S)를 기반으로 k번 추론 시, 입력 토큰이 선형이 아닌 제곱(k²) 수준 증가.
    • 결과적으로 계산 비용, 토큰 한계 초과, 시간 소모 증가.
  • ReWOO는 Plan, Evidence(#E), 실제 증거(E)를 사용해 이러한 중복을 방지.
    • 토큰 사용량이 선형적으로 감소해 복잡한 작업에서 비용 절감 효과 큼.

2.3 Parameter Efficiency by Specialization

  • 기존 ALM은 파라미터 모델(LLM)과 비파라미터 도구 호출 결합으로 훈련 복잡성 증가.
    • Toolformer: 도구 활용 데이터를 기반으로 LLM을 미세 조정 → 다단계 추론엔 한계.
    • ReAct: 추론 과정(TAO) 학습 → 새로운 작업/도구로의 일반화 부족.
  • ReWOO의 접근:
    • 추론을 도구 호출과 분리 → Planner 모듈에서 예측 추론 최적화 가능.
    • GPT-3.5를 활용해 (Plan, #E) 블루프린트 생성 → LLaMa 7B로 오프로딩하여 경량화된 Planner 7B 제작.
      • 알파카(Alpaca) 7B: GPT-3.5의 일반적 추론 능력을 재현하도록 미세 조정 후 Planner에 특화.
  • 결과: 여러 벤치마크에서 Planner를 GPT-3.5, Alpaca 7B, Planner 7B로 대체해 성능 테스트 → 경량 모델로도 높은 성능 달성.

3 Experiments

3.1 Setups

  • 평가 대상: ReWOO와 최신 프롬프트 패러다임 비교 (ReAct, CoT 등).
  • 데이터셋:
    • 일반 지식/추론: HotpotQA(다중 단계 QA), TriviaQA(독해 기반 도전적 QA), SportsUnderstanding(스포츠 도메인 QA), StrategyQA(추론 기반 QA).
    • 수학/과학 추론: GSM8K(초등 수학), PhysicsQuestions(고등학교 물리).
    • 커스텀: SOTUQA(2023 국정연설 QA, 최신 지식 활용), 실생활 기반 작업(ex: 식당 추천, 주식 거래 등).
  • 비교 기준:
    • Direct Prompt: 도구 없이 직접 해결 (기본 성능 확인).
    • Chain-of-Thought (CoT): 단계별 추론을 유도해 중간 추론 과정을 나타냄.
    • ReAct: 도구 호출과 추론을 교차 수행.
  • 평가 지표:
    • 정확도(EM, F1) + GPT-4 기반 의미 정확도.
    • 효율성: LLM 토큰 사용량, 추론 단계 수, 1k 쿼리당 비용(USD).

3.2 Results and Observations

(1) 프롬프트 패러다임 비교
  • ReWOO가 ReAct를 모든 벤치마크에서 일관적으로 능가.
    • 평균적으로 토큰 사용량 64% 감소, 정확도 4.4% 상승.
  • SOTUQA에서 ReWOO는 ReAct 대비 정확도 8% 상승, 토큰 43% 절감.
  • ReWOO의 효율성 → 복잡한 작업에서도 추론 능력 강화 및 비용 절감 입증.
(2) 도구의 영향
  • 불필요한 도구가 ALM 성능 저하 가능.
    • 도구 개수가 늘어날수록 정확도 감소 경향.
    • 부적절한 도구 사용(예: Yelp로 유명인 검색) 사례 발견.
(3) 도구 실패 상황에서의 강건성
  • ReWOO는 도구 오류(“No evidence found”) 상황에서도 상대적으로 안정적.
    • ReAct는 도구 오류에 크게 취약.
(4) RLHF(강화학습 미세조정)
  • text-davinci-003이 gpt-3.5-turbo 대비 단계 수 적고 효율적.
    • RLHF가 ALM의 상식적 추론 능력에 약간 부정적 영향을 줄 가능성.

3.3 Fine-tuning and Specialization of LLM

  • Planner 7B: GPT-3.5의 예측 추론 능력을 Alpaca 7B로 오프로딩 → HotpotQA, TriviaQA에서 GPT-3.5 성능에 근접.
  • 효과:
    • Planner 7B가 Google, Calculator 등 새로운 도구와의 추론에서도 점진적 성능 향상 관찰.
    • 경량 모델로 시스템 파라미터 효율성 및 확장성 대폭 개선 가능성 확인.
  • 향후 과제: Specialization 한계를 극복하기 위한 추가 연구 필요.

6 Conclusion

  • ReWOO 제안:

    • 추론과 도구 피드백(관찰)을 분리하여 다단계 추론 작업을 효율적으로 해결하는 모듈형 ALM 프레임워크.
  • 핵심 성과:

    • 기존 Thought-Action-Observation 방식의 프롬프트 중복 문제를 이론적으로 분해 → 토큰 사용량 대폭 감소.
    • 공개 NLP 벤치마크 + 커스텀 작업에서 ReWOO가 성능 및 효율성 모두 우수함을 입증.
    • 도구 오류 상황에서도 상대적으로 강건한 성능 관찰.
  • 추가 발견:

    • Instruction TuningSpecialization을 통한 일반 추론 능력의 경량화 및 오프로딩 가능성 확인.
  • 향후 과제:

    • 모듈형 LLM 미세조정, 도구 표현 학습, 시스템 그래프 학습 및 최적화를 포함한 ALM 시스템의 발전 가능성.
  • 의의:

    • ReWOO는 확장 가능한 AGI로의 발전에 기여할 탄탄한 기초를 마련함.
반응형