CAPÍTULO 00 / Plataforma

A plataforma que cabe na operação.

Três núcleos independentes que conversam entre si por contratos abertos. Cada um resolve um problema operacional concreto e pode ser adotado isoladamente. Quando integrados, formam a base sobre a qual times brasileiros operam aplicações regulamentadas em larga escala.

Núcleo 01

Observa — telemetria que conta a história inteira.

Substituímos a soma desordenada de quatro ferramentas comerciais por um plano único de leitura. Traces, logs e métricas correlacionados desde a coleta, com retenção configurável por tipo de evento e por equipe responsável.

FUN 01

Coleta OpenTelemetry

Agentes que aceitam OTLP nativo, com normalização de atributos e enriquecimento por contexto de equipe. Compatível com instrumentação automática em Java, Go, Node e Python.

FUN 02

Retenção configurável

Política de retenção por tipo de evento, por nível de severidade e por equipe. Eventos auditáveis sob LGPD ficam separados em armazenamento criptografado e replicado em duas regiões.

FUN 03

Correlação automática

Um único identificador de trace acompanha o pedido do edge até o banco. Ao abrir um alerta, a leitura já contém o trace correspondente, os logs do período e as métricas dos serviços envolvidos.

FUN 04

SLOs vivos

Definição de objetivos de serviço com janela móvel e orçamento de erro auditável. Painel comparativo entre equipes que ajuda a priorizar trabalho de confiabilidade no trimestre seguinte.

FUN 05

Investigação guiada

Plantão recebe sugestão de hipóteses ordenadas por probabilidade durante incidentes. Reduz tempo médio até a primeira ação útil. Modelo treinado nos próprios incidentes do cliente, não compartilhado entre contas.

FUN 06

Custos previsíveis

Painel de custo de telemetria por equipe, por aplicação e por mês. Alertas automáticos quando uma equipe passa do orçamento mensal acordado. Sem surpresa no fechamento do trimestre.

Núcleo 02

Edge — computação distribuída, próxima de quem importa.

Workers em pontos de presença em São Paulo, Fortaleza e Porto Alegre. Replicação geográfica de estado, roteamento por latência e fallback automático quando uma região perde quórum. Para operações em que cada 80 milissegundos muda a conversão do cliente final.

28ms

latência mediana entre São Paulo e Fortaleza

3+3

PoPs no Brasil, mais três regiões de fallback

99,97%

disponibilidade contratual com janela de manutenção

250ms

tempo máximo de failover entre regiões

Núcleo 03

Malha — comunicação com identidade e política.

Camada de comunicação entre serviços com identidade SPIFFE, autorização baseada em política e auditoria por requisição. Compatível com clusters Kubernetes existentes e com migração gradual a partir de Istio ou Linkerd legados.

M 01

Identidade SPIFFE

Cada serviço recebe uma identidade verificável renovada automaticamente. Substitui chaves estáticas e segredos compartilhados em arquivos de configuração. Auditoria por requisição em ambientes regulados.

M 02

Política declarativa

Política de autorização em arquivos versionados, revisados em pull request. Quem pode chamar quem fica documentado, audível e diff-able. Bloqueios são propagados em segundos, não em ciclos de deploy.

M 03

Migração gradual

Coexistência com Istio e Linkerd durante a transição. Serviços migrados convivem com os legados sem interromper o tráfego de produção. Reversão em qualquer ponto, sem perda de estado.

Capítulo 04 / Comparativo

Como os núcleos conversam.

Adoção isolada

1 núcleo

Cliente adota um núcleo. O ciclo de implantação termina em doze semanas e o time interno conduz a partir daí. Cabível em times pequenos com problema bem delimitado.

Observa, Edge ou Malha — um dos três
Ciclo de doze semanas com dois engenheiros
Documentação de operação no fechamento
Sem dependência dos outros núcleos

Solicitar proposta

Adoção integrada

2 núcleos

Combinação mais comum entre clientes em operação regulada. Observa instrumenta a Malha, ou Edge se apoia na Observa para roteamento por latência aferida em tempo real.

Dois núcleos com contratos integrados
Ciclo de dezesseis semanas em pares
Painel de leitura unificado entre núcleos
Suporte trimestral a partir do quarto mês

Iniciar ciclo

Plataforma completa

3 núcleos

Adoção dos três núcleos em ciclo único. Indicado para operações nascendo do zero ou em reescrita após incidente regulatório, com foco em LGPD e em auditoria fim-a-fim.

Observa, Edge e Malha integrados
Ciclo de vinte e quatro semanas com três pares
ADR público de cada decisão arquitetural
Cláusula de transferência total ao time interno

Conversar

Capítulo 05 / Perguntas

O que clientes geralmente perguntam.

Vocês operam dentro do meu ambiente ou em nuvem própria?

Operamos onde o cliente decide. A plataforma roda em VPC do cliente em AWS, GCP, Azure ou em datacenter privado brasileiro. Não há ambiente compartilhado entre contas, e nenhum dado de telemetria sai da infraestrutura do cliente sem autorização explícita por contrato.

Como funciona o licenciamento? É proprietário ou aberto?

Os três núcleos têm núcleo aberto sob Apache 2.0, com módulos comerciais opcionais para conformidade, painel de custos e suporte com SLA contratual. O cliente pode operar a plataforma sem nós no terceiro ano se quiser. Não há cláusula de renovação automática.

A plataforma é compatível com a LGPD em operação financeira?

Sim. A Observa separa dados pessoais em armazenamento criptografado com chaves geridas pelo cliente, e mantém trilha auditável de acesso por requisição. Já passamos por auditoria externa em três clientes regulados pelo BACEN. O relatório-tipo pode ser compartilhado sob NDA.

Qual o esforço para migrar de Datadog, New Relic ou Grafana Cloud?

A migração costuma durar entre seis e dez semanas, dependendo do volume e da quantidade de painéis em uso. Mantemos o ambiente legado em paralelo durante o ciclo. A virada acontece quando o time interno confirma paridade de leitura, não antes.

Como vocês comparam ao custo de manter um time de SRE interno?

Não comparamos. Nosso engajamento parte do princípio de que o time interno de SRE precisa existir e conduzir a operação depois. Trabalhamos para instalar a plataforma e a capacidade — não para substituir o time. Quando o cliente já tem SRE estruturado, o ciclo costuma terminar em menos tempo.

Vocês atendem fora do Brasil?

Hoje não. Toda a documentação, os ADRs e o canal de suporte são em português, e o estúdio mantém presença física apenas em São Paulo, Recife e Florianópolis. Pretendemos abrir uma unidade em Lisboa em 2027, mas ainda sem cronograma fechado.

Qual o critério de saída de um engajamento?

Definido no primeiro dia, em uma página. Inclui o conjunto de capacidades que o time interno precisa demonstrar para conduzir sozinho — operação rotineira, resposta a incidente P0, decisão de capacidade para o próximo trimestre. Quando o critério é atingido, encerramos o ciclo e seguimos disponíveis em contrato trimestral, se o cliente quiser.

Quer ler o relatório de implantação de um cliente real?

Mantemos três relatórios públicos, com nomes anonimizados, sobre engajamentos que terminaram em 2024 e 2025. Cobrem decisão técnica, custo final e o que o time interno conduz hoje. Compartilhamos sob NDA mínimo.

Solicitar relatório Ler a pesquisa