挑战
团队在使用多个 AI 工具时面临缺乏集中管理和成本控制的问题:
- 每个团队成员都单独订阅了不同的 AI 提供商
- 组织内部没有统一的对话历史或知识共享
- 无法了解 AI 使用成本或每个用户的消耗情况
- 无法通过消费者工具满足企业安全和 GDPR 合规性要求
- 比较模型输出需要切换多个界面
我们的解决方案
我们构建了一个生产级多模型 AI 聊天平台,支持积分计费、基于角色的访问控制和 GDPR 合规性。
架构
- 前端: React 18 + TypeScript + Vite with Tailwind CSS
- 后端: Node.js/Express with TypeScript and Prisma ORM
- 数据库: PostgreSQL(60+ 表),带有 Redis 缓存
- 认证: AWS Cognito,采用基于 JWT 的 RBAC
- 计费: LemonSqueezy,带有积分消耗跟踪
- 队列: BullMQ,用于后台作业处理
- 基础设施: AWS (ECS/Fargate, RDS, ElastiCache, S3, KMS, SES)
AI 集成
- OpenAI GPT 模型
- Anthropic Claude 模型
- Google Gemini 模型
- xAI Grok 模型
- Perplexity,用于网络搜索
- Suno,用于 AI 音乐生成
主要功能
- 多模型聊天 - 在每次对话中切换 AI 提供商
- 分屏对比 - 并排比较模型输出
- 工作流自动化 - LangGraph 驱动的循序渐进 AI 工作流
- GPT 市场 - 发现、创建和共享自定义 GPTs
- 工件 - 对话中沙盒化的代码/HTML 预览
- 积分系统 - 按使用量付费,支持自动充值和管理员授权
- GDPR 合规性 - 自动化删除、数据导出、AES-256-GCM 加密
- 内容审核 - 带有自动分类系统,用于不当内容标记
- 群组聊天 - 单次对话中支持多个 AI 参与者
- 网络搜索 - 集成 Perplexity 以提供有根据的、最新的回复
成果
技术栈
常见问题
MicrocosmWorks 设计了一个智能路由层,该层根据任务类型、复杂性和 token 需求评估传入的提示,然后将其分派给最合适的模型,无论是 GPT-4、Claude、Llama 还是专门微调的模型。这种方法优化了响应质量和成本,因为更简单的查询可以由更快、更便宜的模型处理,而复杂的推理任务则交由更强大的模型。
MicrocosmWorks 实施了一个统一的信用系统,将不同 AI 提供商的各种每 token 成本抽象为一种企业客户批量购买的单一内部货币。每次模型交互都会根据其实际 API 成本加上可配置的利润率扣除信用,为管理员提供一个统一的仪表板,用于跟踪使用情况、设置部门级预算和生成退款报告。
是的,MicrocosmWorks 构建了一个集中式治理层,无论底层哪个 LLM 处理查询,都能强制执行一致的数据处理策略。所有对话都在静态时加密,基于角色的访问控制决定了哪些团队可以访问哪些模型,并且可配置的保留策略会根据您的合规性要求自动清除对话历史记录。
MicrocosmWorks 优化了路由层,使得每个请求的开销低于 50 毫秒,与典型的 LLM 响应时间 1-10 秒相比可以忽略不计。该平台使用连接池、与每个提供商的预认证会话以及异步流式传输,以便在选定模型开始生成 token 后,token 立即出现在用户界面中。
MicrocosmWorks 以 $30-$50 美元/小时的开发费率构建企业多模型聊天平台,这仅是大型咨询公司收取类似 AI 基础设施项目费用的一小部分。总范围取决于模型集成数量、认证和 SSO 要求,以及您是否需要对话分支、提示库或微调流水线等功能。
