Por dentro dos nossos assessments: SAMM, DSOMM e OWASP GenAI

Pentest mostra onde dói hoje. Assessment de maturidade mostra por que continua doendo. Um encontra as vulnerabilidades que existem agora; o outro mede a capacidade do time de evitar que elas voltem a aparecer. Os dois se complementam, mas resolvem perguntas diferentes.

Quando a gente desenha um assessment, não inventa framework proprietário. Usamos frameworks abertos, mantidos pela comunidade, que qualquer pessoa pode ler e auditar. O nosso trabalho está em aplicá-los com critério, cruzar as evidências e transformar o resultado em um plano que a engenharia consegue executar. Este artigo apresenta os três pilares: OWASP SAMM, OWASP DSOMM e o OWASP GenAI Security Project.

Por que medir maturidade

Maturidade é capacidade repetível. Um time pode corrigir todas as vulnerabilidades do último pentest e continuar imaturo, porque o processo que gerou aquelas vulnerabilidades segue intacto. Medir maturidade é responder três perguntas:

Onde estamos? Quais práticas de segurança existem de fato, com que profundidade e cobertura.
Onde precisamos chegar? O nível-alvo não é “máximo em tudo”. Depende do risco do negócio, do setor e da regulação.
Qual o caminho? A sequência de melhorias que fecha os gaps, separando quick wins de mudanças estruturais.

Todo assessment nosso entrega isso em três artefatos: relatório executivo, score de maturidade por prática e um roadmap vivo, que o time atualiza e acompanha evoluir, em vez de um PDF que envelhece na pasta.

OWASP SAMM: o mapa do programa

O Software Assurance Maturity Model é o framework que usamos para medir o programa de AppSec como um todo. Ele organiza a segurança de software em 5 funções de negócio, cada uma com 3 práticas, totalizando 15 práticas:

Função	Práticas
Governance	Strategy & Metrics · Policy & Compliance · Education & Guidance
Design	Threat Assessment · Security Requirements · Security Architecture
Implementation	Secure Build · Secure Deployment · Defect Management
Verification	Architecture Assessment · Requirements-driven Testing · Security Testing
Operations	Incident Management · Environment Management · Operational Management

Cada prática é avaliada em 3 níveis de maturidade, e o resultado é um score de 0 a 3 por prática. O que faz o SAMM funcionar bem como base de diagnóstico:

É mensurável. As perguntas de avaliação são públicas e estruturadas, então o score de hoje é comparável com o score da próxima rodada.
É prescritivo na medida certa. Cada nível descreve atividades concretas, não aspirações. Sair do nível 1 para o 2 em Secure Build tem definição clara.
Aceita nível-alvo por contexto. Uma fintech regulada e uma startup B2B no primeiro ano não precisam do mesmo alvo. O gap é medido contra o alvo certo, não contra a perfeição.

O SAMM responde “como está o programa”. A limitação dele é a altitude: ele enxerga o processo, mas não desce até a pipeline.

DSOMM: a engenharia no chão de fábrica

O DevSecOps Maturity Model completa o SAMM exatamente onde ele para. Enquanto o SAMM pergunta “existe processo de build seguro”, o DSOMM pergunta o que está implementado de verdade: os artefatos são assinados? As imagens de container têm scan? Os segredos estão fora do repositório? Há quanto tempo aquela dependência crítica está desatualizada?

O DSOMM organiza atividades concretas de engenharia em dimensões como build e deployment, cultura e organização, implementação, coleta de informação e teste e verificação, com níveis progressivos de profundidade. E mantém mapeamentos para SAMM e ISO 27001, o que permite cruzar os dois diagnósticos sem retrabalho.

Na prática, a gente usa o DSOMM para ancorar as respostas do SAMM em evidência. Quando o time diz “temos SAST na pipeline”, o DSOMM transforma a frase em perguntas verificáveis: em quais repositórios, bloqueando o quê, com qual taxa de falso positivo tolerada, tratada por quem. É a diferença entre um assessment de questionário e um assessment de engenharia.

OWASP GenAI: a camada nova

Para o AI Security Maturity Assessment, a base é o OWASP GenAI Security Project, que reúne o material mais maduro disponível sobre segurança de aplicações com IA generativa. Três recursos do projeto sustentam o nosso diagnóstico:

O Top 10 para aplicações LLM funciona como taxonomia de risco: prompt injection, vazamento de informação sensível, supply chain de modelos, output sem validação, excesso de agência, entre outros. É contra essa lista que avaliamos os fluxos com LLM do cliente. Escrevemos uma introdução prática a esses riscos em Os dois tipos de fraqueza da era da IA.
O checklist de governança e segurança para LLMs, voltado a CISOs, cobre o lado organizacional: inventário de uso de IA, políticas de uso de copilots, gestão de fornecedores de modelo, privacidade e conformidade.
Os guias de aplicações agênticas e red teaming, mais recentes, orientam a avaliação de sistemas onde a IA tem ferramentas e autonomia, que é onde o risco cresce mais rápido.

A partir desses materiais, o assessment de IA mede dimensões que um SAMM clássico não enxerga: o time sabe quais fluxos usam LLM e com quais dados? Existem guardrails fora do modelo ou a defesa é só o system prompt? A cadeia de suprimentos de modelos e MCPs tem o mesmo controle que a de pacotes? Output de modelo é tratado como dado não confiável? Há limites de agência e de consumo?

Para fechar

Frameworks abertos são o motivo de a gente conseguir publicar este artigo sem perder nada: a metodologia é pública por design, e o valor está na aplicação criteriosa, no cruzamento das evidências e na execução do plano. Se quiser saber qual seria o score do seu programa de AppSec, ou o quão pronto seu time está para construir com IA, fale com a gente. O diagnóstico é o primeiro passo do ciclo.

Por dentro dos nossos assessments: SAMM, DSOMM e OWASP GenAI

Por que medir maturidade

OWASP SAMM: o mapa do programa

DSOMM: a engenharia no chão de fábrica

OWASP GenAI: a camada nova

Para fechar

Continue lendo

Os dois tipos de fraqueza da era da IA

Threat Modeling Express: o método que usamos nos nossos workshops