No resumo, eu diria que você deve definir claramente o que constitui "disponível" versus "indisponível" e se comparar a ele. Por exemplo, você pode ter um SLA de desempenho do lado do cliente para o site de 1 segundo para a "dobra" e 3 segundos para uma página completamente renderizada. Quando você não atinge o SLA de desempenho, deve considerar isso como uma falha de disponibilidade para esse período de tempo. Não importa se você está atingindo o CDN ou não - a experiência do usuário é o que importa.
No entanto, como você só faz medições a cada 5 minutos, parece razoável medir as ocorrências no CDN em relação ao site mestre separadamente e calcular que 75% da disponibilidade é proveniente do CDN e 25% do mestre . A dificuldade aqui é que 75% é apenas uma média. Para distribuir a culpa com precisão por um determinado período, você precisa saber quando um ou outro site não está realmente voltado para o cliente, por exemplo, durante uma mudança planejada ou após uma ação manual quando um problema é detectado. Você também precisa considerar o que acontece quando um dos sites mestre ou CDN está inativo. O cliente obtém um HTTP 500 ou eles simplesmente fazem o failover para o site de trabalho? Depende muito da sua solução de balanceamento de carga. A métrica "pior caso" que você descreveu parece simplista demais. Pergunte a si mesmo: "O que nossos clientes estão experimentando?"
Quanto a saber se você deve tomar "culpa" quando o CDN está em baixo: absolutamente. Se 75% dos seus hits estiverem indo para o CDN, 75% da experiência do cliente dependerá deles. Você é responsável por fornecer uma boa experiência a seus clientes, portanto, se o CDN estiver com problemas, você precisará usar seus recursos de engenharia para comprovar e acompanhar o provedor.
Outra coisa a considerar é o que acontece quando o site principal fica indisponível por um longo período de tempo. Como você descreveu, parece que o CDN é uma cópia estática do conteúdo no site mestre. Se o site principal estiver inativo por um longo tempo, o CDN pode começar a ficar obsoleto. Então, talvez parte do seu SLA seja a atualização: 1 segundo para a "dobra" e 3 segundos para uma página totalmente renderizada, com conteúdo de no máximo 15 minutos.