30K de texto da Wikipedia não é tão útil quanto uma explicação de porque um cache muito grande é menos ideal. Quando o cache fica muito grande, a latência para encontrar um item no cache (fatoração de erros de cache) começa a se aproximar da latência de procurar o item na memória principal. Eu não sei a que proporções os projetistas de CPU pretendem, mas eu acho que é algo análogo à diretriz 80-20: você gostaria de encontrar seus dados mais comuns no cache 80% do tempo, e os outros 20 % do tempo você terá que ir para a memória principal para encontrá-lo. (ou qualquer que seja a proporção pretendida pelos designers da CPU).
EDIT: Tenho certeza que não está perto de 80% / 20%, então substitua X e 1-X. :)