CAPÍTULO 00 / Plataforma

A plataforma que cabe na operação.

Três núcleos independentes que conversam entre si por contratos abertos. Cada um resolve um problema operacional concreto e pode ser adotado isoladamente. Quando integrados, formam a base sobre a qual times brasileiros operam aplicações regulamentadas em larga escala.

Núcleo 01

Observa — telemetria que conta a história inteira.

Substituímos a soma desordenada de quatro ferramentas comerciais por um plano único de leitura. Traces, logs e métricas correlacionados desde a coleta, com retenção configurável por tipo de evento e por equipe responsável.

FUN 01

Coleta OpenTelemetry

Agentes que aceitam OTLP nativo, com normalização de atributos e enriquecimento por contexto de equipe. Compatível com instrumentação automática em Java, Go, Node e Python.

FUN 02

Retenção configurável

Política de retenção por tipo de evento, por nível de severidade e por equipe. Eventos auditáveis sob LGPD ficam separados em armazenamento criptografado e replicado em duas regiões.

FUN 03

Correlação automática

Um único identificador de trace acompanha o pedido do edge até o banco. Ao abrir um alerta, a leitura já contém o trace correspondente, os logs do período e as métricas dos serviços envolvidos.

FUN 04

SLOs vivos

Definição de objetivos de serviço com janela móvel e orçamento de erro auditável. Painel comparativo entre equipes que ajuda a priorizar trabalho de confiabilidade no trimestre seguinte.

FUN 05

Investigação guiada

Plantão recebe sugestão de hipóteses ordenadas por probabilidade durante incidentes. Reduz tempo médio até a primeira ação útil. Modelo treinado nos próprios incidentes do cliente, não compartilhado entre contas.

FUN 06

Custos previsíveis

Painel de custo de telemetria por equipe, por aplicação e por mês. Alertas automáticos quando uma equipe passa do orçamento mensal acordado. Sem surpresa no fechamento do trimestre.

Núcleo 02

Edge — computação distribuída, próxima de quem importa.

Workers em pontos de presença em São Paulo, Fortaleza e Porto Alegre. Replicação geográfica de estado, roteamento por latência e fallback automático quando uma região perde quórum. Para operações em que cada 80 milissegundos muda a conversão do cliente final.

28ms
latência mediana entre São Paulo e Fortaleza
3+3
PoPs no Brasil, mais três regiões de fallback
99,97%
disponibilidade contratual com janela de manutenção
250ms
tempo máximo de failover entre regiões
Núcleo 03

Malha — comunicação com identidade e política.

Camada de comunicação entre serviços com identidade SPIFFE, autorização baseada em política e auditoria por requisição. Compatível com clusters Kubernetes existentes e com migração gradual a partir de Istio ou Linkerd legados.

M 01

Identidade SPIFFE

Cada serviço recebe uma identidade verificável renovada automaticamente. Substitui chaves estáticas e segredos compartilhados em arquivos de configuração. Auditoria por requisição em ambientes regulados.

M 02

Política declarativa

Política de autorização em arquivos versionados, revisados em pull request. Quem pode chamar quem fica documentado, audível e diff-able. Bloqueios são propagados em segundos, não em ciclos de deploy.

M 03

Migração gradual

Coexistência com Istio e Linkerd durante a transição. Serviços migrados convivem com os legados sem interromper o tráfego de produção. Reversão em qualquer ponto, sem perda de estado.

Capítulo 04 / Comparativo

Como os núcleos conversam.

Adoção isolada
1 núcleo

Cliente adota um núcleo. O ciclo de implantação termina em doze semanas e o time interno conduz a partir daí. Cabível em times pequenos com problema bem delimitado.

  • Observa, Edge ou Malha — um dos três
  • Ciclo de doze semanas com dois engenheiros
  • Documentação de operação no fechamento
  • Sem dependência dos outros núcleos
Solicitar proposta
Adoção integrada
2 núcleos

Combinação mais comum entre clientes em operação regulada. Observa instrumenta a Malha, ou Edge se apoia na Observa para roteamento por latência aferida em tempo real.

  • Dois núcleos com contratos integrados
  • Ciclo de dezesseis semanas em pares
  • Painel de leitura unificado entre núcleos
  • Suporte trimestral a partir do quarto mês
Iniciar ciclo
Plataforma completa
3 núcleos

Adoção dos três núcleos em ciclo único. Indicado para operações nascendo do zero ou em reescrita após incidente regulatório, com foco em LGPD e em auditoria fim-a-fim.

  • Observa, Edge e Malha integrados
  • Ciclo de vinte e quatro semanas com três pares
  • ADR público de cada decisão arquitetural
  • Cláusula de transferência total ao time interno
Conversar
Capítulo 05 / Perguntas

O que clientes geralmente perguntam.

01

Vocês operam dentro do meu ambiente ou em nuvem própria?

Operamos onde o cliente decide. A plataforma roda em VPC do cliente em AWS, GCP, Azure ou em datacenter privado brasileiro. Não há ambiente compartilhado entre contas, e nenhum dado de telemetria sai da infraestrutura do cliente sem autorização explícita por contrato.

02

Como funciona o licenciamento? É proprietário ou aberto?

Os três núcleos têm núcleo aberto sob Apache 2.0, com módulos comerciais opcionais para conformidade, painel de custos e suporte com SLA contratual. O cliente pode operar a plataforma sem nós no terceiro ano se quiser. Não há cláusula de renovação automática.

03

A plataforma é compatível com a LGPD em operação financeira?

Sim. A Observa separa dados pessoais em armazenamento criptografado com chaves geridas pelo cliente, e mantém trilha auditável de acesso por requisição. Já passamos por auditoria externa em três clientes regulados pelo BACEN. O relatório-tipo pode ser compartilhado sob NDA.

04

Qual o esforço para migrar de Datadog, New Relic ou Grafana Cloud?

A migração costuma durar entre seis e dez semanas, dependendo do volume e da quantidade de painéis em uso. Mantemos o ambiente legado em paralelo durante o ciclo. A virada acontece quando o time interno confirma paridade de leitura, não antes.

05

Como vocês comparam ao custo de manter um time de SRE interno?

Não comparamos. Nosso engajamento parte do princípio de que o time interno de SRE precisa existir e conduzir a operação depois. Trabalhamos para instalar a plataforma e a capacidade — não para substituir o time. Quando o cliente já tem SRE estruturado, o ciclo costuma terminar em menos tempo.

06

Vocês atendem fora do Brasil?

Hoje não. Toda a documentação, os ADRs e o canal de suporte são em português, e o estúdio mantém presença física apenas em São Paulo, Recife e Florianópolis. Pretendemos abrir uma unidade em Lisboa em 2027, mas ainda sem cronograma fechado.

07

Qual o critério de saída de um engajamento?

Definido no primeiro dia, em uma página. Inclui o conjunto de capacidades que o time interno precisa demonstrar para conduzir sozinho — operação rotineira, resposta a incidente P0, decisão de capacidade para o próximo trimestre. Quando o critério é atingido, encerramos o ciclo e seguimos disponíveis em contrato trimestral, se o cliente quiser.

Quer ler o relatório de implantação de um cliente real?

Mantemos três relatórios públicos, com nomes anonimizados, sobre engajamentos que terminaram em 2024 e 2025. Cobrem decisão técnica, custo final e o que o time interno conduz hoje. Compartilhamos sob NDA mínimo.