NVIDIA 연구팀, 효율적인 AI 관리를 위한 Orchestrator-8B를 포함한 ToolOrchestra 프레임워크 소개

December 06, 2025
NVIDIA, 오케스트레이터
9 min

뉴스 요약

NVIDIA Research는 인공지능 시스템이 여러 도구와 언어 모델을 관리하고 조율하는 방식을 혁신하도록 설계된 80억 매개변수 AI 모델인 Orchestrator-8B를 특징으로 하는 획기적인 프레임워크인 ToolOrchestra를 공개했습니다. 2025년 11월 말에 출시된 이 혁신적인 접근 방식은 작고 효율적인 오케스트레이터를 사용하여 다양한 전문 모델 및 도구에 작업을 지능적으로 위임함으로써 AI 개발의 중요한 과제를 해결합니다. 이는 정확도를 크게 향상시키면서 계산 비용과 지연 시간을 줄입니다.

AI 도구 관리에 대한 혁신적인 접근 방식

ToolOrchestra 프레임워크는 AI 에이전트 설계의 패러다임 전환을 나타내며, 단일의 거대한 대규모 언어 모델에 대한 전통적인 의존에서 벗어나 경량 오케스트레이터가 관리하는 복합 시스템으로 나아갑니다. NVIDIA와 홍콩대학교 연구원들이 개발한 이 방법은 복잡한 문제 해결에 있어서 더 큰 모델이 항상 더 좋다는 기존의 통념에 도전합니다.

GPT-5와 같은 단일 강력 모델이 모든 추론 및 도구 선택을 관리하는 현재 접근 방식과 달리, ToolOrchestra는 Orchestrator-8B라는 전용 컨트롤러 모델을 사용합니다. 이 작은 모델은 이기종 에이전트 시스템의 "두뇌" 역할을 하며, 웹 검색 및 코드 인터프리터와 같은 고전적인 도구뿐만 아니라 다른 대규모 언어 모델도 호출 가능한 구성 요소로 취급합니다. 오케스트레이터는 이러한 리소스를 언제, 어떻게 호출하고, 다중 턴 추론 작업에서 그들의 출력을 결합하는 방법을 학습합니다.

기술 아키텍처 및 훈련 방법론

Orchestrator-8B는 Qwen3-8B 기반 모델에서 미세 조정된 80억 매개변수의 디코더 전용 트랜스포머 아키텍처를 기반으로 구축되었습니다. 이 모델은 최종 답변의 정확성, 비용 및 지연 시간의 효율성, 사용자 선호도와의 정렬이라는 세 가지 중요한 차원을 균형 있게 맞추는 정교한 다중 목표 보상 시스템에 의해 안내되는 Group Relative Policy Optimization (GRPO)이라는 기술을 통해 강화 학습을 사용합니다.

보상 시스템은 과도한 컴퓨팅 사용에 페널티를 부과하는 동시에, 개인 정보 보호가 우려될 때 독점 API보다 오픈 소스 모델을 선호하는 등 사용자가 선호하는 도구 선택에 보상을 제공합니다. 이 접근 방식은 오케스트레이터가 정확성, 비용 및 솔루션 도달 시간을 동시에 최적화하여 수동 프롬프트 엔지니어링으로는 달성할 수 없는 수준의 성능을 달성할 수 있도록 합니다.

대규모 훈련을 지원하기 위해 연구팀은 10가지 다른 도메인에 걸쳐 수천 개의 검증 가능한 훈련 예제를 자동으로 생성하는 혁신적인 합성 데이터 파이프라인인 ToolScale을 개발했습니다. 각 도메인에 대해 대규모 언어 모델은 데이터베이스 스키마, 항목, 도메인별 API, 그리고 함수 호출의 실제 시퀀스 및 필요한 중간 정보를 포함하는 다양한 사용자 작업을 생성합니다. 이 자동화된 접근 방식은 광범위한 수동 데이터 큐레이션 없이 다양한 시나리오에 걸쳐 포괄적인 훈련을 가능하게 합니다.

벤치마크 성능 및 효율성 향상

Orchestrator-8B는 여러 까다로운 벤치마크에서 놀라운 성능을 보여주었으며, 훨씬 더 큰 단일 모델보다 지속적으로 우수한 성능을 발휘하면서도 비용은 훨씬 적게 들었습니다. 고급 추론 능력을 테스트하도록 설계된 벤치마크인 Humanity's Last Exam에서 Orchestrator-8B는 37.1%의 정확도를 달성하여 GPT-5의 35.1%를 능가했으며, 비용은 30%만 소모하고 작업을 2.5배 더 빠르게 완료했습니다.

검색 조건에서 사실 정확도를 평가하는 FRAMES 벤치마크에서 Orchestrator-8B는 76.3%를 기록하여 GPT-5의 74.0%보다 높았습니다. 마찬가지로 이중 제어 환경에서 함수 호출을 위한 τ² Bench 벤치마크에서 오케스트레이터는 80.2%를 달성하여 GPT-5의 77.7%를 넘어섰습니다. 이러한 결과는 오케스트레이션 접근 방식이 다양한 작업 유형에서 일관되게 우수한 성능을 제공함을 보여줍니다.

효율성 향상은 세부 지표를 검토할 때 특히 두드러집니다. 예를 들어, Humanity's Last Exam에서 Orchestrator-8B의 작업당 평균 비용은 8.2분의 완료 시간과 함께 단 $0.092였던 반면, GPT-5는 $0.302와 19.8분이었습니다. 이는 정확도를 동시에 향상시키면서 69%의 비용 절감과 58%의 시간 절감을 나타내며, 오케스트레이션 패러다임의 근본적인 효율성 이점을 보여줍니다.

지능형 도구 선택 및 균형 잡힌 활용

도구 사용 패턴 분석은 오케스트레이션 접근 방식의 또 다른 핵심 이점을 보여줍니다. Orchestrator-8B는 단일 모델에 비해 더 균형 잡힌 도구 호출을 수행하여 특정 도구나 모델에 대한 강한 편향을 피합니다. HLE, FRAMES 및 τ²-Bench 벤치마크에서 평균을 냈을 때, 오케스트레이터는 모든 문제에 대해 동일한 접근 방식을 기본으로 사용하는 대신 작업 요구 사항에 따라 다양한 리소스를 비례적으로 활용하는 것을 보여줍니다.

이러한 균형 잡힌 활용은 가장 적절한 리소스로 작업을 명시적으로 라우팅하도록 모델이 훈련되었기 때문입니다. 외부 도구가 더 효율적일 때에도 자체 내장 기능을 선호할 수 있는 단일 모델 시스템과 달리, Orchestrator-8B는 강화 학습을 통해 복잡한 쿼리 내의 각 하위 작업에 가장 적합한 도구나 모델이 무엇인지 객관적으로 평가하는 방법을 학습했습니다.

일반화 및 사용자 선호도 정렬

Orchestrator-8B의 가장 인상적인 측면 중 하나는 훈련 중에 한 번도 접하지 않은 도구 및 모델에 일반화하는 능력을 보여주었다는 것입니다. 연구원들은 이전에 본 적 없는 도구와 다른 가격 구성으로 오케스트레이터를 테스트했으며, 성능이 강력하게 유지되었고 많은 경우 원래 훈련된 시나리오보다 향상되었음을 발견했습니다. 이러한 일반화 능력은 조직이 공공, 민간 및 맞춤형 AI 모델을 혼합하여 사용하는 기업 애플리케이션에 매우 중요합니다.

또한 Orchestrator-8B는 다른 시스템에 비해 사용자 선호도에 대한 탁월한 준수 능력을 보여줍니다. 사용자가 특정 쿼리에 어떤 도구를 사용해야 하는지에 대한 선호도를 지정할 때(예: 민감한 데이터에 온프레미스 모델 사용 요청 또는 특정 API 제공업체 선호), 오케스트레이터는 이러한 제약 조건을 안정적으로 준수합니다. 강화 학습 보상 설계를 통해 내재된 이 선호도 준수 기능은 거버넌스 및 규정 준수 요구 사항이 종종 특정 도구 선택을 지시하는 실제 배포에 시스템을 실용적으로 만듭니다.

기업 애플리케이션 및 접근성

기업 AI 배포에 대한 시사점은 상당합니다. 조직은 현재 AI 기능과 비용의 균형을 맞추는 데 상당한 어려움을 겪고 있으며, 강력하지만 비싼 최첨단 모델과 더 경제적이지만 덜 유능한 대안 사이에서 어려운 절충을 해야 합니다. ToolOrchestra는 이러한 균형 잡힌 행동을 자동화하여 동시에 더 지능적이고 더 경제적인 시스템을 가능하게 합니다.

이 프레임워크의 유연성은 다양한 AI 인프라에 의존하는 기업에 적합합니다. 기업은 Orchestrator-8B를 기존의 상용 API, 오픈 소스 모델 및 독점 내부 모델과 통합하여 오케스트레이터가 성능 요구 사항, 비용 제약 및 데이터 거버넌스 정책에 따라 작업을 적절하게 라우팅할 수 있도록 합니다.

NVIDIA는 비상업적 연구 라이선스 하에 모델 가중치를 공개했으며, 훈련 코드는 허용적인 Apache 2.0 라이선스 하에 제공했습니다. 이 이중 라이선스 접근 방식은 학술 연구 및 탐색을 가능하게 하는 동시에 조직이 특정 요구 사항에 맞게 훈련 방법론을 조정할 수 있도록 합니다. 이 모델은 Hugging Face에서 사용할 수 있어 연구원과 개발자가 이 기술을 쉽게 실험할 수 있습니다.

아키텍처적 이점 및 계산 철학

Orchestrator-8B의 성공은 지능형 AI 시스템을 구축하는 방법에 대한 근본적인 사고의 전환을 입증합니다. 단순히 규모를 통해 모든 작업을 처리하려는 점점 더 큰 단일 모델을 추구하기보다는, 이 연구는 전문화된 구성 요소의 신중한 오케스트레이션을 통해 지능을 더 효율적으로 높일 수 있음을 보여줍니다.

이 접근 방식은 사람들이 도메인 전문가부터 정교한 소프트웨어 시스템 및 계산 도구에 이르기까지 인간의 지능을 뛰어넘는 외부 리소스를 일상적으로 활용하는 인간의 문제 해결 방식을 반영합니다. 언어 모델이 다양한 도구 및 다른 모델과 다양한 방식으로 상호 작용할 수 있도록 함으로써, ToolOrchestra는 어떤 단일 모델도 혼자서 달성할 수 없는 것 이상으로 더 유능한 복합 AI 시스템을 만듭니다.

기술 구현은 정교한 기능에도 불구하고 단순성을 유지합니다. 도구는 이름, 설명 및 매개변수를 지정하는 간단한 JSON 형식으로 정의됩니다. 이 표준화된 인터페이스는 오케스트레이터 자체의 광범위한 재구성 없이 새로운 도구 및 모델을 쉽게 통합할 수 있도록 합니다.

현재 한계 및 향후 개발

연구팀은 몇 가지 한계와 향후 연구 영역을 공개적으로 인정합니다. 첫째, 현재 작업은 오케스트레이터를 80억 매개변수 이상으로 확장하는 것을 탐구하지 않았으므로, 더 큰 오케스트레이터 모델에서 성능 및 효율성 이점이 지속될지에 대한 의문이 남아 있습니다. 둘째, 평가는 주로 추론 작업에 초점을 맞추었으며, 코드 생성 및 웹 상호 작용과 같은 더 넓은 도메인은 아직 철저히 테스트되지 않았습니다.

이러한 한계는 유망한 연구 방향을 제시합니다. 팀은 효율성을 계속 향상시키면서 지능의 상한선을 더욱 높일 수 있는 더 정교한 재귀적 오케스트레이터 시스템을 구상합니다. 이러한 시스템은 더 높은 수준의 오케스트레이터가 여러 전문 오케스트레이터를 조율하고, 각 오케스트레이터는 자체 도구 및 모델 세트를 관리하는 계층 구조를 사용할 수 있습니다.

AI 개발 환경에 미치는 영향

ToolOrchestra 및 Orchestrator-8B의 출시는 복합 AI 시스템으로의 진화에 있어 중요한 이정표를 나타냅니다. 기업이 복잡한 워크플로우를 위해 고급 AI 에이전트를 점점 더 많이 배포함에 따라, 오케스트레이션 접근 방식은 더 지능적일 뿐만 아니라 더 경제적이고 제어 가능한 시스템을 향한 실용적인 경로를 제공합니다.

이 작업은 AI 산업에서 발전이 항상 더 큰 최첨단 모델을 필요로 한다는 지배적인 가정에 도전합니다. 80억 매개변수 오케스트레이터가 리소스를 적절하게 조율하도록 훈련되었을 때 수십 배 더 큰 모델보다 뛰어난 성능을 발휘할 수 있음을 입증함으로써, NVIDIA Research는 아키텍처 혁신과 훈련 방법론이 단순한 규모만큼 중요할 수 있다는 증거를 제공합니다.

정확성, 비용 및 지연 시간의 균형을 맞추면서 사용자 선호도를 존중하는 다중 목표 최적화에 대한 프레임워크의 강조는 학술 AI 연구에서 종종 간과되었던 실제 기업의 우려 사항을 해결합니다. 이러한 실용적인 지향성은 운영 제약 및 거버넌스 요구 사항 하에 AI 시스템을 배포하려는 조직에 ToolOrchestra를 특히 관련성 있게 만듭니다.

AI 생태계에 대한 광범위한 시사점

앞으로 오케스트레이션 패러다임은 AI 생태계가 발전하는 방식을 재편할 수 있습니다. 소수의 지배적인 기반 모델을 중심으로 통합되기보다는, 효과적인 오케스트레이션에 의해 가능해진 미래는 더 다양할 수 있으며, 수많은 전문 모델이 특정 작업에서 탁월하고 오케스트레이터가 가장 적절한 리소스로 작업을 지능적으로 라우팅할 수 있습니다.

이 비전은 모듈형 AI 시스템 및 모델 마켓플레이스의 출현을 향한 광범위한 산업 동향과 일치합니다. 오케스트레이터가 작업 요구 사항, 비용 및 성능 특성을 기반으로 사용 가능한 모델 중에서 안정적으로 선택할 수 있다면, 모든 것을 처리하려는 범용 모델을 구축하려는 시도보다는 특정 도메인에 최적화된 고도로 전문화된 모델을 개발할 유인이 생깁니다.

이 연구는 AI 안전 및 거버넌스에도 영향을 미칩니다. 도구 및 모델 선택을 명시적이고 훈련 가능하게 함으로써, 오케스트레이션 시스템은 블랙박스 최첨단 모델에 비해 더 해석 가능한 의사 결정 프로세스를 제공합니다. 조직은 오케스트레이터가 작업을 분배하는 방식을 감사하고 제어하여 데이터 처리 정책 및 윤리적 지침을 준수할 수 있습니다.

경쟁적 포지셔닝 및 시장 상황

NVIDIA의 ToolOrchestra 출시는 AI 인프라 및 도구 분야의 치열한 경쟁 속에서 이루어졌습니다. OpenAI 및 Anthropic과 같은 회사가 점점 더 큰 기반 모델 훈련에 집중하는 동안, NVIDIA의 연구는 역량 향상을 위한 대안적인 경로를 보여줍니다. 이러한 포지셔닝은 NVIDIA의 GPU 인프라 및 AI 시스템 연구 강점을 활용하면서 순수 모델 제공업체와 차별화됩니다.

최첨단 모델의 API 비용이 여전히 상당하고 공급업체 종속에 대한 우려가 커지는 상황에서, 다양한 모델 포트폴리오에서 최대 가치를 추출할 수 있는 오케스트레이션 프레임워크는 점점 더 매력적으로 변하고 있습니다.

결론 및 미래 전망

ToolOrchestra 및 Orchestrator-8B는 AI 에이전트 아키텍처의 중요한 발전을 나타내며, 전문화된 리소스의 지능형 오케스트레이션이 단일 접근 방식에 비해 우수한 결과를 달성할 수 있음을 보여줍니다. 다중 목표 보상을 통한 강화 학습을 통해 더 큰 모델과 다양한 도구를 조율하도록 작은 모델을 훈련함으로써, NVIDIA Research는 더 효율적이고 제어 가능하며 비용 효율적인 AI 시스템을 구축하기 위한 실용적인 프레임워크를 만들었습니다.

모델 가중치 및 훈련 코드의 즉각적인 가용성은 연구원과 개발자가 이 기반 위에 구축하여 훨씬 더 정교한 오케스트레이션 시스템의 개발을 가속화할 수 있도록 합니다. 기술이 성숙하고 추가 도메인이 탐색됨에 따라, 오케스트레이션 기반 접근 방식은 고급 AI 애플리케이션의 표준 아키텍처 패턴이 되어 지능형 시스템을 설계하고 배포하는 방식을 근본적으로 변화시킬 수 있습니다.

비용을 관리하고 통제를 유지하면서 AI 투자 가치를 극대화하려는 기업에게 ToolOrchestra는 매력적인 미래 경로를 제공합니다. 더 낮은 비용으로 더 높은 정확도를 제공하면서 사용자 선호도를 존중하는 프레임워크의 입증된 능력은 많은 비즈니스 환경에서 AI 채택을 제한했던 주요 우려 사항을 해결합니다. 따라서 이 연구는 학계뿐만 아니라 산업 전반에 걸쳐 AI 시스템의 실제 배포를 형성하는 데 영향력을 미칠 수 있습니다.