O UTF-8 é auto-sincronizado. Algo que examina os bytes pode dizer se está no início de um caractere UTF-8 ou em meio a um.
Digamos que você tenha dois caracteres em seu esquema: 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
Se o analisador pegar no segundo octeto, ele não pode dizer que não é para ler o segundo e terceiro octetos como um caractere. Com o UTF-8, o analisador pode dizer que está no meio de um caractere e continuar até o início do próximo, enquanto emite algum estado para mencionar o símbolo corrompido.
Para a edição: se o bit superior estiver limpo, os analisadores UTF-8 sabem que estão vendo um caractere representado em um octeto. Se estiver definido, é um caractere de vários octetos.
É tudo sobre recuperação de erros e fácil classificação de octetos.