Outros Modelos
Use a BSPAY com Llama, Mistral, Groq, Cohere, Ollama e qualquer modelo OpenAI-compatible
Guia para integrar a BSPAY com modelos além de GPT/Claude/Gemini — Llama (Groq, Together, Ollama), Mistral, Cohere, Fireworks, Anyscale, vLLM, LM Studio e qualquer outro OpenAI-compatible.
O catálogo completo de endpoints, HMAC, webhooks e erros vive em Integração com IA. Aqui mostramos só o setup específico de cada provedor.
Padrão universal — OpenAI-Compatible
Quase todos provedores (Groq, Together, Fireworks, Anyscale, vLLM, LM Studio, Ollama com endpoint OpenAI) aceitam o mesmo schema do OpenAI Chat Completions. Reuse o cliente Python da página ChatGPT / OpenAI trocando apenas base_url + model:
Llama via Groq
Latência muito baixa, perfeito pra agentes em tempo real.
Llama 3.3 70B no Groq é confiável pra tool calling. Modelos menores (8B) erram parâmetros frequentemente — evite em produção financeira.
Llama / qualquer modelo via Ollama (local)
Ollama local é ótimo pra dev/staging — zero custo, zero latência de rede. Mas operações HMAC ainda precisam ser executadas pelo mesmo processo (nunca exponha signing_key ao modelo).
Mistral
Mistral Large suporta tool calling no formato OpenAI. Para Mistral Small/Medium, valide schema antes de executar.
Cohere
Cohere Command R+ tem tool calling robusto. Use command-r (não plus) se precisar de menor custo.
Self-hosted (vLLM / TGI / LM Studio)
Para empresas com requisitos de soberania de dados:
Em deployment self-hosted, mantenha o LLM na mesma rede privada que o serviço que executa HMAC + chama BSPAY. Isso elimina o risco do signing_key trafegar.
Boas práticas universais
Use modelos ≥ 70B params para HMAC
A geração de código que monta timestamp + "." + nonce + "." + body na ordem certa é frágil em modelos pequenos. Llama 3.3 70B, Mistral Large, Command R+ são confiáveis.
Schema validation no backend
Independente do modelo, valide os argumentos da tool call antes de executar (Zod/Pydantic). LLMs às vezes alucinam campos extras ou tipos errados.
Confirmação humana é obrigação do AGENTE, não do MODELO
Não confie que o system prompt vai garantir confirmação humana. Implemente um wrapper que intercepta cashout_*/convert/internal_transfer e exige confirm=True explícito antes de chamar a API real.
Cache do token globalmente
Se você roda múltiplos agentes concorrentes (cluster K8s), use Redis pra compartilhar o token. Senão cada réplica vai re-autenticar e estourar o rate limit de /oauth/token (30/min/IP).
Comparativo rápido
| Provedor | Latência | Custo | Tool Calling | HMAC-friendly |
|---|---|---|---|---|
| Groq (Llama 3.3 70B) | ⚡ ultra-baixa | $ | ✓ excelente | ✓ |
| Together / Fireworks | baixa | $ | ✓ bom | ✓ |
| Mistral Large | média | $$ | ✓ bom | ✓ |
| Cohere R+ | média | $$ | ✓ bom | ✓ |
| Ollama (local) | depende GPU | grátis | ✓ (Llama 3.3) | ✓ |
| vLLM (self-host) | baixa | infra | ✓ | ✓ |
"HMAC-friendly" = ainda exige assinatura no servidor (nenhum modelo deve ter o
signing_key). Todos passam — a diferença é só latência/custo.
