MÓDULO 2.3

🤖 Provedor de inferência e modelo

Codex OAuth, OpenRouter, Anthropic, MiniMax, modelos locais. Como decidir entre custo, privacidade, qualidade e volume sem ficar pulando provedor.

6
Tópicos
30
Minutos
Decisão
Tipo
Médio
Nível
1

🟢 Codex OAuth via ChatGPT Plus/Pro

O caminho mais barato pra uso intenso em 2026. Sem API key. Login OAuth via browser usando sua conta ChatGPT Plus ($20/mês) ou Pro ($200/mês). Modelo padrão: gpt-5.3-codex, com vision incluída.

💰Por que é tão barato

  • ChatGPT Plus ($20): uso ilimitado dentro do rate limit do plano. Cabe 10+ conversas longas/dia tranquilo.
  • ChatGPT Pro ($200): acesso a o3, o4-pro, GPT-5 com limites maiores. Para uso pesado profissional.
  • Comparação API direta: mesmo uso pela API custa $100+/mês. Plus economiza 5x.
  • Sem API key: autentica via browser, token captado pelo Hermes — nada a gerenciar manualmente.

⚙️ Configuração

# config.yaml dentro do container (~/.hermes/config.yaml)
provider: "codex"
model: "gpt-5.3-codex"

# Login OAuth (abre URL no browser)
docker exec -it hermes hermes auth codex

⚠️Limitação importante

"Ilimitado" tem rate limit invisível. Pra uso muito pesado (centenas de chamadas/hora), a OpenAI pode reduzir velocidade ou bloquear temporariamente. Em uso pessoal normal, você nunca encosta no teto.

2

🌐 OpenRouter — pay-per-token flexível

OpenRouter é o agregador mais usado: você bota crédito uma vez, escolhe qualquer modelo (Claude, Gemini, DeepSeek, Grok, GPT) e paga por token consumido. Vantagem-chave: trocar modelo por tarefa, dentro do mesmo provedor.

🎁Modelos destaque (mai/2026)

  • openrouter/owl-alpha — gratuito, bom pra crons leves
  • google/gemini-2.5-flash — ~$0,075/1M tokens, ideal pra compressão de contexto
  • deepseek/deepseek-v4-pro — adicionado no v0.13.0, raciocínio top barato
  • x-ai/grok-4.3 — adicionado no v0.13.0, resposta longa
  • anthropic/claude-opus-4.6 — qualidade premium, custo elevado
  • tencent/hy3-preview — adicionado por contribuidor

⚙️ Configuração

# Setar API key
docker exec -it hermes hermes config set OPENROUTER_API_KEY sk-or-...

# config.yaml
provider: "openrouter"
model: "deepseek/deepseek-v4-pro"

# Compressão de contexto separada (opcional)
compression:
  provider: "openrouter"
  model: "google/gemini-2.5-flash"

💡Estratégia split de custo

Use modelo top (Claude/DeepSeek-Pro) pra conversa principal, e modelo barato (Gemini Flash) pra compressão de contexto. Hermes suporta provedor diferente por slot. Conversa fica top-quality, compressão fica em centavos.

3

🎭 Anthropic / Claude via API ou GMI

Quando a tarefa é crítica — review de código complexo, escrita longa de qualidade, planejamento estratégico —, Claude Opus tem qualidade superior a qualquer outro modelo aberto ou OpenAI em 2026. Custo é alto, mas vale pontualmente.

🛣️Dois caminhos pra Claude

  • Anthropic API direta: conta na anthropic.com, ANTHROPIC_API_KEY. Faturamento próprio.
  • Via OpenRouter: anthropic/claude-opus-4.6 sem precisar abrir conta na Anthropic. Markup pequeno.
  • Via GMI: revendedor, GMI_API_KEY. Útil para faturamento centralizado em empresas.

⚙️ Configuração via OpenRouter

provider: "openrouter"
model: "anthropic/claude-opus-4.6"

# Ou via Anthropic direto (requer ANTHROPIC_API_KEY)
provider: "anthropic"
model: "claude-opus-4.6"

Quando vale o custo

  • Refatoração ou review de código complexo (1k+ linhas)
  • Escrita longa profissional (artigos, ebooks, documentação técnica)
  • Planejamento estratégico com análise de múltiplos cenários
  • Tarefas onde 5% de qualidade extra muda o resultado final
4

🔌 MiniMax OAuth, Nous Portal, locais

Casos especiais: privacidade extrema (dados sensíveis nunca saem da rede), custo zero pra volume infinito (após investimento de hardware), ou acesso a modelos chineses de alta qualidade via OAuth.

🌍 Provedores menos comuns mas úteis

  • MiniMax OAuth: login browser sem API key, modelo MiniMax-M2.7. Boa qualidade pra preço zero direto.
  • Nous Portal: hermes auth + provider: "nous". Conta NousResearch (mantenedora do Hermes).
  • OpenAI API direta: OPENAI_API_KEY, útil se você já tem créditos OpenAI Enterprise.
  • Local (Ollama, LM Studio, vLLM): qualquer endpoint OpenAI-compatible. Setup: base_url: "http://host.docker.internal:11434/v1".

💻 Endpoint local exemplo

# Mac Mini com Ollama rodando Qwen ou Llama
provider: "openai"
base_url: "http://192.168.1.10:11434/v1"
model: "qwen2.5:14b"
api_key: "ollama"  # placeholder, Ollama não valida

🧠Tool-use enforcement

Modelos com auto enforcement (Hermes injeta reforço de tool-use): gpt, codex, gemini, gemma, grok. Modelos confiados nativamente (sem reforço extra): Claude, DeepSeek, Qwen, LLaMA. Saber disso ajuda quando uma tool não está sendo chamada.

5

🏆 Modelos recomendados em 2026

Curadoria baseada nos modelos mencionados na release v0.13.0 (mai/2026) e nos padrões observados em uso real. Misturar é o caminho otimizado — não existe um modelo único que vença em todas as dimensões.

Top picks por categoria

CategoriaModeloProvedorPor quê
Geralgpt-5.3-codexCodex OAuthVision + tool use, $20 fixo
Raciocíniodeepseek/deepseek-v4-proOpenRouterTop em matemática/lógica, barato
Texto longoclaude-opus-4.6OpenRouter/AnthropicQualidade superior em escrita
Compressãogemini-2.5-flashOpenRouterUltra-barato, rápido
Watchdogopenrouter/owl-alphaOpenRouterGrátis, bom pra ticks no-agent
Sem custoMiniMax-M2.7MiniMax OAuthSem API key, qualidade decente

🎚️Setup recomendado pra começar

Conversa principal: gpt-5.3-codex via Codex OAuth (já paga ChatGPT Plus). Compressão: gemini-2.5-flash via OpenRouter ($5 de crédito dura meses). Cron de watchdog: owl-alpha grátis. Custo total: $20-25/mês para uso pessoal intenso.

6

🎯 Como decidir: tabela de critérios

Sem critério, você fica trocando provedor toda hora. Com critério claro, você escolhe uma vez e ajusta ao longo do tempo. Trocar é trivial em Hermes (uma linha em config.yaml), mas pular sem razão queima energia mental.

🌳 Árvore de decisão

  • Já tem ChatGPT Plus/Pro? → Codex OAuth é o caminho mais barato. Comece por aí.
  • Quer flexibilidade entre modelos sem múltiplas contas? → OpenRouter como hub.
  • Tarefas premium (escrita, análise crítica)? → Claude Opus pontual via OpenRouter.
  • Privacidade extrema (dados sensíveis)? → Local via Ollama (Mac Mini ou desktop com GPU).
  • Volume gigante e custo importa? → DeepSeek/Gemini Flash via OpenRouter.
  • Sem cartão de crédito? → MiniMax OAuth ou modelos free do OpenRouter.

🔄Quão fácil é trocar

Migração entre provedores leva 30 segundos: editar ~/.hermes/config.yaml + docker compose restart. Skills, memória, sessões — tudo permanece. Use Codex 3 meses, troca pra OpenRouter, troca pra local — zero dor. Isso significa: não procrastine a primeira escolha. Comece pelo Codex OAuth, otimize depois.

💡Erro comum

Tentar configurar 4 provedores simultaneamente "pra ter opção". Resultado: nenhum funcionando direito, debug paralelo virando bola de neve. Comece com UM. Domine. Adiciona o segundo só quando o primeiro estiver sólido.

🎯Resumo do módulo

Codex OAuth ($20 ChatGPT Plus) é o caminho mais barato — sem API key, login via browser.
OpenRouter dá flexibilidade entre modelos — owl-alpha grátis, Gemini Flash barato, Claude premium.
Anthropic Claude para tarefas críticas — qualidade superior, custo elevado, uso pontual.
MiniMax OAuth e local para casos especiais — sem API key e privacidade extrema.
Misturar é o caminho otimizado — provedor diferente por slot (conversa, compressão, watchdog).

Próximo módulo:

2.4 - 📱 Telegram: BotFather, token, autorização