karpathy/llm-council View GitHub Homepage for Latest Official Releases
多 LLM 协作工具,可查询多个 AI 模型,支持同行评审,并通过主席模型综合响应
Pythonllm-councilkarpathy 11.2k Last Updated: November 22, 2025
LLM Council - 多模型 AI 协作平台
项目概述
LLM Council 是 Andrej Karpathy 创建的一项创新开源项目,它将单模型 AI 交互转变为协作式、多模型共识系统。该工具不依赖于单一 LLM 提供商,而是协调多个前沿 AI 模型协同工作、互相审查彼此的输出,并通过民主流程生成综合响应。
核心概念
LLM Council 背后的基本思想是利用不同 AI 模型的优势,同时最大限度地减少单个模型的偏差。通过创建一个“AI 顾问委员会”,用户可以获得更全面、经过同行评审的复杂问题答案,而不是依赖于单个模型的视角。
架构 & 工作流程
三阶段流程
阶段 1:第一意见
- 用户查询通过 OpenRouter API 同时分派给所有委员会成员模型
- 每个 LLM 生成其独立的响应,而无需查看其他模型的输出
- 单独的响应显示在选项卡视图中,以便进行并排比较
- 默认委员会包括:GPT-5.1、Gemini 3.0 Pro、Claude Sonnet 4.5 和 Grok 4
阶段 2:匿名同行评审
- 每个模型接收来自所有其他委员会成员的匿名响应
- 模型根据准确性和洞察力评估并对每个响应进行排名
- 身份匿名化可防止评估中的偏差和偏袒
- 跨模型评估揭示了令人惊讶的模式(模型通常将竞争对手的排名更高)
阶段 3:主席综合
- 指定的主席 LLM(可配置)审查所有原始响应
- 考虑同行评审排名和评估
- 生成最终的综合答案,其中包含最佳元素
- 向用户提供全面的响应
技术栈
后端
- 框架: FastAPI (Python 3.10+)
- HTTP 客户端: 用于非阻塞 API 调用的异步 httpx
- API 集成: 用于多模型访问的 OpenRouter API
- 存储: 基于 JSON 的对话持久性,位于
data/conversations/中 - 包管理: 用于现代 Python 依赖管理的 uv
前端
- 框架: 带有 Vite 的 React,用于快速开发和构建
- 渲染: 用于格式化输出的 react-markdown
- UI: 类似于 ChatGPT 的界面,带有用于模型比较的选项卡视图
- 开发服务器: 端口 5173 上的 Vite 开发服务器
主要特性
多模型分派
- 跨多个前沿模型同时执行查询
- 通过
backend/config.py配置委员会成员 - 支持来自 OpenAI、Google、Anthropic、xAI 等公司的模型
客观同行评审
- 匿名响应评估可防止模型偏差
- 用于准确性和洞察力的定量排名系统
- 揭示模型偏好和优势方面的有趣模式
综合共识
- 主席模型聚合不同的观点
- 生成包含多个观点的连贯最终答案
- 平衡冗长、洞察力和简洁性
透明比较
- 所有单独响应的并排视图
- 完全可见的同行评审排名
- 用户可以在 AI 共识之外形成自己的判断
对话持久性
- 自动保存对话历史记录
- 基于 JSON 的存储,便于数据可移植性
- 能够审查和分析过去的委员会会议
安装 & 设置
前提条件
- Python 3.10 或更高版本
- Node.js 和 npm
- OpenRouter API 密钥(需要购买积分)
后端设置
# 使用 uv 安装依赖项
uv sync
前端设置
# 导航到前端目录
cd frontend
# 安装 npm 依赖项
npm install
cd ..
配置
- 在项目根目录中创建
.env文件:
OPENROUTER_API_KEY=sk-or-v1-your-key-here
- 在
backend/config.py中配置委员会:
COUNCIL_MODELS = [
"openai/gpt-5.1",
"google/gemini-3-pro-preview",
"anthropic/claude-sonnet-4.5",
"x-ai/grok-4",
]
CHAIRMAN_MODEL = "google/gemini-3-pro-preview"
运行应用程序
选项 1:快速启动脚本
./start.sh
选项 2:手动启动
# 终端 1 - 后端
uv run python -m backend.main
# 终端 2 - 前端
cd frontend
npm run dev
在以下位置访问应用程序:http://localhost:5173
用例
阅读 & 文学分析
- Karpathy 的原始用例:以多种 AI 视角阅读书籍
- 不同的模型强调不同的文学方面
- 解释风格的比较分析
研究 & 分析
- 需要多个视角的复杂问题
- 技术文档评估
- 业务战略评估
内容评估
- 法律文件分析
- 科学论文解读
- 代码审查和技术写作
模型比较
- 评估不同 LLM 的能力
- 了解模型的优势和劣势
- 识别跨提供商的偏差模式
有趣的发现
模型自我评估
- 模型经常选择竞争对手的响应,认为其优于自己的响应
- 证明了同行评审过程中的惊人客观性
- 揭示了方法和质量上的真正差异
排名模式
在 Karpathy 对书籍章节的测试中:
- 共识赢家: GPT-5.1 一致被评为最具洞察力
- 共识输家: Claude 一致排名最低
- 中间层: Gemini 3 Pro 和 Grok-4 介于极端之间
人类与 AI 判断分歧
- AI 共识可能与人类偏好不一致
- GPT-5.1 因其洞察力而受到赞扬,但被 Karpathy 批评为“过于冗长”
- Claude 被同行评为最低,但因其简洁而被创建者偏爱
- Gemini 因其精简、处理过的输出而受到赞赏
- 表明模型可能更喜欢冗长而不是简洁
项目理念
“Vibe Coded” 方法
- 被描述为“99% vibe coded”的周六黑客项目
- 在 AI 辅助下快速开发
- 创建者不承诺长期支持
- “代码现在是短暂的,库已经结束”的理念
开源 & 灵感
- 按原样提供,以供社区参考
- 鼓励用户通过自己的 LLM 进行修改
- 代表 AI 编排的参考架构
- 演示了应用于语言模型的集成学习
企业影响
编排中间件
- 揭示了多模型协调的架构
- 解决了供应商锁定问题
- 证明了模型无关应用程序的可行性
质量控制层
- 同行评审增加了单模型系统中缺少的验证
- 减少了单个模型的偏差
- 提供了 AI 决策的透明度
参考实现
- 显示了集成 AI 的最小可行架构
- 指导企业平台的构建与购买决策
- 揭开了多模型编排复杂性的神秘面纱
局限性 & 考虑因素
成本
- 需要 OpenRouter API 积分才能用于所有委员会成员和主席
- 每个查询的多个模型调用会增加运营成本
- 没有可用的免费套餐
速度
- 三阶段流程比单模型查询慢
- 多个 API 调用会增加延迟
- 速度与质量/共识之间的权衡
模型可用性
- 依赖于 OpenRouter 模型目录
- 需要有效的 API 密钥和积分
- 受模型提供商速率限制的约束
维护
- 创建者明确声明不提供持续支持
- 仅限社区驱动的改进
- 用户负责调整和更新
技术考虑因素
匿名化策略
- 将随机 ID (A, B, C, D) 分配给响应
- 防止同行评审中基于身份的偏差
- 保持评估的客观性
API 集成
- 通过 OpenRouter 的单点集成
- 抽象出各个提供商的 API
- 简化多模型协调
数据隐私
- 本地 Web 应用程序在用户的机器上运行
- 对话以 JSON 格式本地存储
- API 调用通过 OpenRouter(第三方)
社区 & 生态系统
相关项目
- Swarms Framework: 实现了受本项目启发的 LLMCouncil 类
- Hugging Face Spaces: 提供社区部署
- Medium/VentureBeat 报道: 企业分析和影响
类似方法
- 机器学习中的集成学习
- 专家混合架构
- 多代理 AI 系统
- 分布式系统中的共识协议
未来方向
虽然 Karpathy 明确表示没有计划进行改进,但潜在的社区扩展可能包括:
- 扩展模型支持: 添加来自新兴提供商的更多委员会成员
- 自定义排名标准: 用户定义的评估维度
- 流式响应: 实时显示模型输出
- 高级综合: 更复杂的主席算法
- 成本优化: 基于查询类型的智能模型选择
- 性能分析: 跟踪模型准确性和偏好模式
- 集成 API: 将委员会功能嵌入到其他应用程序中
入门
- 克隆存储库:
git clone https://github.com/karpathy/llm-council - 按照上面的安装说明进行操作
- 配置您首选的委员会模型
- 开始查询并比较观点
- 尝试不同的模型组合
- 分析同行评审模式
结论
LLM Council 代表了一种通过集成编排解决单模型局限性的务实方法。虽然它被呈现为一个随意的周末项目,但它为多模型架构、同行评审机制以及 AI 编排中间件的未来提供了宝贵的见解。对于探索单提供商解决方案之外的开发人员、研究人员和企业来说,该项目既提供了灵感,又为构建更强大、共识驱动的 AI 系统提供了具体的参考实现。
该项目采用极简主义方法——几百行代码实现了复杂的多模型协调——表明集成 AI 的技术障碍低于许多人认为的水平。真正的挑战不在于路由提示,而在于治理、成本管理以及确定共识何时真正改善个人模型响应的结果。