2.3 Provedor e modelo | Agente Hermes

🟢 Codex OAuth via ChatGPT Plus/Pro

O caminho mais barato pra uso intenso em 2026. Sem API key. Login OAuth via browser usando sua conta ChatGPT Plus ($20/mês) ou Pro ($200/mês). Modelo padrão: gpt-5.3-codex, com vision incluída.

💰Por que é tão barato

ChatGPT Plus ($20): uso ilimitado dentro do rate limit do plano. Cabe 10+ conversas longas/dia tranquilo.
ChatGPT Pro ($200): acesso a o3, o4-pro, GPT-5 com limites maiores. Para uso pesado profissional.
Comparação API direta: mesmo uso pela API custa $100+/mês. Plus economiza 5x.
Sem API key: autentica via browser, token captado pelo Hermes — nada a gerenciar manualmente.

⚙️ Configuração

# config.yaml dentro do container (~/.hermes/config.yaml)
provider: "codex"
model: "gpt-5.3-codex"

# Login OAuth (abre URL no browser)
docker exec -it hermes hermes auth codex

⚠️Limitação importante

"Ilimitado" tem rate limit invisível. Pra uso muito pesado (centenas de chamadas/hora), a OpenAI pode reduzir velocidade ou bloquear temporariamente. Em uso pessoal normal, você nunca encosta no teto.

🌐 OpenRouter — pay-per-token flexível

OpenRouter é o agregador mais usado: você bota crédito uma vez, escolhe qualquer modelo (Claude, Gemini, DeepSeek, Grok, GPT) e paga por token consumido. Vantagem-chave: trocar modelo por tarefa, dentro do mesmo provedor.

🎁Modelos destaque (mai/2026)

openrouter/owl-alpha — gratuito, bom pra crons leves
google/gemini-2.5-flash — ~$0,075/1M tokens, ideal pra compressão de contexto
deepseek/deepseek-v4-pro — adicionado no v0.13.0, raciocínio top barato
x-ai/grok-4.3 — adicionado no v0.13.0, resposta longa
anthropic/claude-opus-4.6 — qualidade premium, custo elevado
tencent/hy3-preview — adicionado por contribuidor

⚙️ Configuração

# Setar API key
docker exec -it hermes hermes config set OPENROUTER_API_KEY sk-or-...

# config.yaml
provider: "openrouter"
model: "deepseek/deepseek-v4-pro"

# Compressão de contexto separada (opcional)
compression:
  provider: "openrouter"
  model: "google/gemini-2.5-flash"

💡Estratégia split de custo

Use modelo top (Claude/DeepSeek-Pro) pra conversa principal, e modelo barato (Gemini Flash) pra compressão de contexto. Hermes suporta provedor diferente por slot. Conversa fica top-quality, compressão fica em centavos.

🎭 Anthropic / Claude via API ou GMI

Quando a tarefa é crítica — review de código complexo, escrita longa de qualidade, planejamento estratégico —, Claude Opus tem qualidade superior a qualquer outro modelo aberto ou OpenAI em 2026. Custo é alto, mas vale pontualmente.

🛣️Dois caminhos pra Claude

Anthropic API direta: conta na anthropic.com, ANTHROPIC_API_KEY. Faturamento próprio.
Via OpenRouter: anthropic/claude-opus-4.6 sem precisar abrir conta na Anthropic. Markup pequeno.
Via GMI: revendedor, GMI_API_KEY. Útil para faturamento centralizado em empresas.

⚙️ Configuração via OpenRouter

provider: "openrouter"
model: "anthropic/claude-opus-4.6"

# Ou via Anthropic direto (requer ANTHROPIC_API_KEY)
provider: "anthropic"
model: "claude-opus-4.6"

✓Quando vale o custo

Refatoração ou review de código complexo (1k+ linhas)
Escrita longa profissional (artigos, ebooks, documentação técnica)
Planejamento estratégico com análise de múltiplos cenários
Tarefas onde 5% de qualidade extra muda o resultado final

🔌 MiniMax OAuth, Nous Portal, locais

Casos especiais: privacidade extrema (dados sensíveis nunca saem da rede), custo zero pra volume infinito (após investimento de hardware), ou acesso a modelos chineses de alta qualidade via OAuth.

🌍 Provedores menos comuns mas úteis

MiniMax OAuth: login browser sem API key, modelo MiniMax-M2.7. Boa qualidade pra preço zero direto.
Nous Portal: hermes auth + provider: "nous". Conta NousResearch (mantenedora do Hermes).
OpenAI API direta: OPENAI_API_KEY, útil se você já tem créditos OpenAI Enterprise.
Local (Ollama, LM Studio, vLLM): qualquer endpoint OpenAI-compatible. Setup: base_url: "http://host.docker.internal:11434/v1".

💻 Endpoint local exemplo

# Mac Mini com Ollama rodando Qwen ou Llama
provider: "openai"
base_url: "http://192.168.1.10:11434/v1"
model: "qwen2.5:14b"
api_key: "ollama"  # placeholder, Ollama não valida

🧠Tool-use enforcement

Modelos com auto enforcement (Hermes injeta reforço de tool-use): gpt, codex, gemini, gemma, grok. Modelos confiados nativamente (sem reforço extra): Claude, DeepSeek, Qwen, LLaMA. Saber disso ajuda quando uma tool não está sendo chamada.

🏆 Modelos recomendados em 2026

Curadoria baseada nos modelos mencionados na release v0.13.0 (mai/2026) e nos padrões observados em uso real. Misturar é o caminho otimizado — não existe um modelo único que vença em todas as dimensões.

⭐Top picks por categoria

Categoria	Modelo	Provedor	Por quê
Geral	`gpt-5.3-codex`	Codex OAuth	Vision + tool use, $20 fixo
Raciocínio	`deepseek/deepseek-v4-pro`	OpenRouter	Top em matemática/lógica, barato
Texto longo	`claude-opus-4.6`	OpenRouter/Anthropic	Qualidade superior em escrita
Compressão	`gemini-2.5-flash`	OpenRouter	Ultra-barato, rápido
Watchdog	`openrouter/owl-alpha`	OpenRouter	Grátis, bom pra ticks no-agent
Sem custo	`MiniMax-M2.7`	MiniMax OAuth	Sem API key, qualidade decente

🎚️Setup recomendado pra começar

Conversa principal: gpt-5.3-codex via Codex OAuth (já paga ChatGPT Plus). Compressão: gemini-2.5-flash via OpenRouter ($5 de crédito dura meses). Cron de watchdog: owl-alpha grátis. Custo total: $20-25/mês para uso pessoal intenso.

🎯 Como decidir: tabela de critérios

Sem critério, você fica trocando provedor toda hora. Com critério claro, você escolhe uma vez e ajusta ao longo do tempo. Trocar é trivial em Hermes (uma linha em config.yaml), mas pular sem razão queima energia mental.

🌳 Árvore de decisão

Já tem ChatGPT Plus/Pro? → Codex OAuth é o caminho mais barato. Comece por aí.
Quer flexibilidade entre modelos sem múltiplas contas? → OpenRouter como hub.
Tarefas premium (escrita, análise crítica)? → Claude Opus pontual via OpenRouter.
Privacidade extrema (dados sensíveis)? → Local via Ollama (Mac Mini ou desktop com GPU).
Volume gigante e custo importa? → DeepSeek/Gemini Flash via OpenRouter.
Sem cartão de crédito? → MiniMax OAuth ou modelos free do OpenRouter.

🔄Quão fácil é trocar

Migração entre provedores leva 30 segundos: editar ~/.hermes/config.yaml + docker compose restart. Skills, memória, sessões — tudo permanece. Use Codex 3 meses, troca pra OpenRouter, troca pra local — zero dor. Isso significa: não procrastine a primeira escolha. Comece pelo Codex OAuth, otimize depois.

💡Erro comum

Tentar configurar 4 provedores simultaneamente "pra ter opção". Resultado: nenhum funcionando direito, debug paralelo virando bola de neve. Comece com UM. Domine. Adiciona o segundo só quando o primeiro estiver sólido.

🎯Resumo do módulo

✓

Codex OAuth ($20 ChatGPT Plus) é o caminho mais barato — sem API key, login via browser.

✓

OpenRouter dá flexibilidade entre modelos — owl-alpha grátis, Gemini Flash barato, Claude premium.

✓

Anthropic Claude para tarefas críticas — qualidade superior, custo elevado, uso pontual.

✓

MiniMax OAuth e local para casos especiais — sem API key e privacidade extrema.

✓

Misturar é o caminho otimizado — provedor diferente por slot (conversa, compressão, watchdog).

Próximo módulo:

2.4 - 📱 Telegram: BotFather, token, autorização

← Módulo Anterior Próximo Módulo →