여러 AI 모델에 쿼리하고, 동료 검토를 가능하게 하며, 의장 모델을 통해 응답을 종합하는 Multi-LLM 협업 도구

Pythonllm-councilkarpathy 11.2k Last Updated: November 22, 2025

LLM Council - 멀티 모델 AI 협업 플랫폼

프로젝트 개요

LLM Council은 Andrej Karpathy가 만든 혁신적인 오픈 소스 프로젝트로, 단일 모델 AI 상호 작용을 협업적인 멀티 모델 합의 시스템으로 전환합니다. 단일 LLM 제공업체에 의존하는 대신, 이 도구는 여러 최첨단 AI 모델이 함께 작동하고, 서로의 출력을 검토하며, 민주적인 프로세스를 통해 종합적인 응답을 생성하도록 조정합니다.

핵심 개념

LLM Council의 기본 아이디어는 개별 모델의 편향을 최소화하면서 다양한 AI 모델의 강점을 활용하는 것입니다. "AI 자문위원회"를 만들어 사용자는 단일 모델의 관점에 의존하는 대신 복잡한 질문에 대해 보다 포괄적이고 동료 검토를 거친 답변을 받습니다.

아키텍처 및 워크플로우

3단계 프로세스

1단계: 첫 번째 의견

  • 사용자 쿼리는 OpenRouter API를 통해 모든 위원회 구성원 모델에 동시에 전달됩니다.
  • 각 LLM은 다른 모델의 출력을 보지 않고 독립적인 응답을 생성합니다.
  • 개별 응답은 나란히 비교할 수 있도록 탭 보기로 표시됩니다.
  • 기본 위원회 구성원: GPT-5.1, Gemini 3.0 Pro, Claude Sonnet 4.5, Grok 4

2단계: 익명 동료 검토

  • 각 모델은 다른 모든 위원회 구성원의 익명화된 응답을 받습니다.
  • 모델은 정확성과 통찰력을 기준으로 각 응답을 평가하고 순위를 매깁니다.
  • 신원 익명화는 평가에서 편향과 편애를 방지합니다.
  • 교차 모델 평가는 놀라운 패턴을 드러냅니다 (모델은 종종 경쟁자를 더 높게 평가).

3단계: 의장 종합

  • 지정된 의장 LLM (구성 가능)은 모든 원본 응답을 검토합니다.
  • 동료 검토 순위 및 평가를 고려합니다.
  • 최상의 요소를 통합하여 최종 종합 답변을 생성합니다.
  • 사용자에게 포괄적인 응답을 제공합니다.

기술 스택

백엔드

  • 프레임워크: FastAPI (Python 3.10+)
  • HTTP 클라이언트: 비차단 API 호출을 위한 async httpx
  • API 통합: 멀티 모델 액세스를 위한 OpenRouter API
  • 저장소: data/conversations/에 JSON 기반 대화 지속성
  • 패키지 관리: 최신 Python 종속성 관리를 위한 uv

프론트엔드

  • 프레임워크: 빠른 개발 및 빌드를 위한 React with Vite
  • 렌더링: 서식이 지정된 출력을 위한 react-markdown
  • UI: 모델 비교를 위한 탭 보기가 있는 ChatGPT와 유사한 인터페이스
  • 개발 서버: 포트 5173의 Vite 개발 서버

주요 기능

멀티 모델 디스패칭

  • 여러 최첨단 모델에서 동시 쿼리 실행
  • backend/config.py를 통한 구성 가능한 위원회 멤버십
  • OpenAI, Google, Anthropic, xAI 등의 모델 지원

객관적인 동료 검토

  • 익명화된 응답 평가는 모델 편향을 방지합니다.
  • 정확성과 통찰력을 위한 정량적 순위 시스템
  • 모델 선호도 및 강점에서 흥미로운 패턴을 드러냅니다.

종합된 합의

  • 의장 모델은 다양한 관점을 집계합니다.
  • 여러 관점을 통합하여 일관된 최종 답변을 생성합니다.
  • 장황함, 통찰력 및 간결성의 균형을 맞춥니다.

투명한 비교

  • 모든 개별 응답의 나란히 보기
  • 동료 검토 순위에 대한 완전한 가시성
  • 사용자는 AI 합의와 함께 자신의 판단을 내릴 수 있습니다.

대화 지속성

  • 대화 기록 자동 저장
  • 쉬운 데이터 이동성을 위한 JSON 기반 저장소
  • 과거 위원회 세션을 검토하고 분석하는 기능

설치 및 설정

필수 조건

  • Python 3.10 이상
  • Node.js 및 npm
  • OpenRouter API 키 (크레딧 구매 필요)

백엔드 설정

# uv를 사용하여 종속성 설치
uv sync

프론트엔드 설정

# 프론트엔드 디렉토리로 이동
cd frontend

# npm 종속성 설치
npm install

cd ..

구성

  1. 프로젝트 루트에 .env 파일 생성:
OPENROUTER_API_KEY=sk-or-v1-your-key-here
  1. backend/config.py에서 위원회 구성:
COUNCIL_MODELS = [
    "openai/gpt-5.1",
    "google/gemini-3-pro-preview",
    "anthropic/claude-sonnet-4.5",
    "x-ai/grok-4",
]
CHAIRMAN_MODEL = "google/gemini-3-pro-preview"

애플리케이션 실행

옵션 1: 빠른 시작 스크립트

./start.sh

옵션 2: 수동 시작

# 터미널 1 - 백엔드
uv run python -m backend.main

# 터미널 2 - 프론트엔드
cd frontend
npm run dev

애플리케이션 액세스: http://localhost:5173

사용 사례

독서 및 문학 분석

  • Karpathy의 원래 사용 사례: 여러 AI 관점으로 책 읽기
  • 다양한 모델이 다양한 문학적 측면을 강조합니다.
  • 해석 스타일의 비교 분석

연구 및 분석

  • 여러 관점이 필요한 복잡한 질문
  • 기술 문서 평가
  • 비즈니스 전략 평가

콘텐츠 평가

  • 법률 문서 분석
  • 과학 논문 해석
  • 코드 검토 및 기술 문서 작성

모델 비교

  • 다양한 LLM 기능 벤치마킹
  • 모델 강점과 약점 이해
  • 제공업체 간의 편향 패턴 식별

흥미로운 발견

모델 자체 평가

  • 모델은 종종 경쟁사의 응답을 자신의 응답보다 우수하다고 선택합니다.
  • 동료 검토 프로세스에서 놀라운 객관성을 보여줍니다.
  • 접근 방식과 품질의 진정한 차이를 드러냅니다.

순위 패턴

Karpathy의 책 챕터 테스트에서:

  • 합의 우승자: GPT-5.1이 가장 통찰력이 있는 것으로 일관되게 평가됨
  • 합의 패자: Claude가 일관되게 최저 순위
  • 중간 계층: Gemini 3 Pro 및 Grok-4는 극단 사이

인간 대 AI 판단 불일치

  • AI 합의가 인간 선호도와 일치하지 않을 수 있습니다.
  • GPT-5.1은 통찰력으로 칭찬받았지만 Karpathy는 "너무 장황하다"고 비판했습니다.
  • Claude는 동료에게 최저 순위를 받았지만 창작자는 간결함으로 선호했습니다.
  • Gemini는 응축되고 처리된 출력으로 높이 평가되었습니다.
  • 모델이 간결함보다 장황함을 선호할 수 있음을 시사합니다.

프로젝트 철학

"바이브 코딩" 접근 방식

  • "99% 바이브 코딩" 토요일 해킹 프로젝트로 설명됨
  • AI 지원을 통한 빠른 개발
  • 창작자의 장기적인 지원 약속 없음
  • "코드는 이제 일시적이고 라이브러리는 끝났다"는 철학

오픈 소스 및 영감

  • 커뮤니티 영감을 위해 있는 그대로 제공
  • 사용자는 자신의 LLM을 통해 수정하도록 권장됩니다.
  • AI 오케스트레이션을 위한 참조 아키텍처를 나타냅니다.
  • 언어 모델에 적용된 앙상블 학습을 보여줍니다.

엔터프라이즈 의미

오케스트레이션 미들웨어

  • 멀티 모델 조정 아키텍처를 보여줍니다.
  • 공급업체 종속 문제 해결
  • 모델에 구애받지 않는 애플리케이션의 타당성을 보여줍니다.

품질 관리 계층

  • 동료 검토는 단일 모델 시스템에 없는 유효성 검사를 추가합니다.
  • 개별 모델 편향 감소
  • AI 의사 결정의 투명성 제공

참조 구현

  • 앙상블 AI를 위한 최소 실행 가능 아키텍처를 보여줍니다.
  • 엔터프라이즈 플랫폼에 대한 구축 대 구매 결정 안내
  • 멀티 모델 오케스트레이션 복잡성 해소

제한 사항 및 고려 사항

비용

  • 모든 위원회 구성원과 의장을 위한 OpenRouter API 크레딧 필요
  • 쿼리당 여러 모델 호출로 운영 비용 증가
  • 무료 티어 운영 불가

속도

  • 3단계 프로세스는 단일 모델 쿼리보다 느립니다.
  • 여러 API 호출로 대기 시간 추가
  • 속도와 품질/합의 간의 절충

모델 가용성

  • OpenRouter 모델 카탈로그에 따라 다름
  • 활성 API 키 및 크레딧 필요
  • 모델 제공업체 속도 제한 적용

유지 관리

  • 제작자는 지속적인 지원이 없음을 명시적으로 명시합니다.
  • 커뮤니티 주도 개선만 해당
  • 사용자는 적응 및 업데이트에 대한 책임이 있습니다.

기술적 고려 사항

익명화 전략

  • 응답에 임의 ID (A, B, C, D) 할당
  • 동료 검토에서 신원 기반 편향 방지
  • 평가 과정에서 객관성 유지

API 통합

  • OpenRouter를 통한 단일 통합 지점
  • 개별 제공업체 API 추상화
  • 멀티 모델 조정 단순화

데이터 개인 정보 보호

  • 로컬 웹 애플리케이션이 사용자 컴퓨터에서 실행됩니다.
  • 대화는 로컬에 JSON으로 저장됩니다.
  • API 호출은 OpenRouter (타사)를 통해 이루어집니다.

커뮤니티 및 생태계

관련 프로젝트

  • Swarms Framework: 이 프로젝트에서 영감을 받은 LLMCouncil 클래스 구현
  • Hugging Face Spaces: 커뮤니티 배포 가능
  • Medium/VentureBeat 보도: 엔터프라이즈 분석 및 의미

유사한 접근 방식

  • 머신 러닝의 앙상블 학습
  • 전문가 혼합 아키텍처
  • 다중 에이전트 AI 시스템
  • 분산 시스템의 합의 프로토콜

미래 방향

Karpathy는 계획된 개선 사항이 없다고 명시적으로 밝혔지만 잠재적인 커뮤니티 확장은 다음과 같습니다.

  • 확장된 모델 지원: 신흥 제공업체의 더 많은 위원회 구성원 추가
  • 사용자 정의 순위 기준: 사용자 정의 평가 차원
  • 스트리밍 응답: 모델 출력의 실시간 표시
  • 고급 종합: 보다 정교한 의장 알고리즘
  • 비용 최적화: 쿼리 유형에 따른 지능형 모델 선택
  • 성능 분석: 모델 정확도 및 선호도 패턴 추적
  • 통합 API: 다른 애플리케이션에 위원회 기능 임베딩

시작하기

  1. 리포지토리 복제: git clone https://github.com/karpathy/llm-council
  2. 위의 설치 지침 따르기
  3. 선호하는 위원회 모델 구성
  4. 쿼리 시작 및 관점 비교
  5. 다양한 모델 조합 실험
  6. 동료 검토 패턴 분석

결론

LLM Council은 앙상블 오케스트레이션을 통해 단일 모델 제한 사항을 해결하기 위한 실용적인 접근 방식을 나타냅니다. 캐주얼한 주말 프로젝트로 제시되었지만 멀티 모델 아키텍처, 동료 검토 메커니즘 및 AI 오케스트레이션 미들웨어의 미래에 대한 귀중한 통찰력을 제공합니다. 단일 제공업체 솔루션을 넘어 탐색하는 개발자, 연구원 및 기업에게 이 프로젝트는 보다 강력하고 합의 기반 AI 시스템을 구축하기 위한 영감과 구체적인 참조 구현을 모두 제공합니다.

정교한 멀티 모델 조정을 달성하는 몇 백 줄의 코드라는 프로젝트의 최소주의적 접근 방식은 앙상블 AI에 대한 기술적 장벽이 많은 사람들이 가정하는 것보다 낮다는 것을 보여줍니다. 진정한 과제는 프롬프트를 라우팅하는 데 있는 것이 아니라 거버넌스, 비용 관리 및 합의가 개별 모델 응답보다 결과를 진정으로 개선하는 시기를 결정하는 데 있습니다.

Star History Chart