Não há " a codificação padrão", você tem muitos deles.
UTF-8 , uma codificação Unicode, é a mais comumente usada atualmente. É o padrão na maioria das distribuições Linux, bem como muitos clientes de email em outras plataformas. No Windows, "Unicode" geralmente se refere a UTF-16, que é apenas outra representação do mesmo Unicode.
Outras codificações foram caindo lentamente em desuso, devido a suas limitações e incapacidade de usar vários idiomas no mesmo arquivo.
-
O mais "padrão" deles seria as codificações ISO 8859 , principalmente ISO 8859-1 para "Europa Ocidental".
-
Suas homólogos do Windows são muito semelhantes; o mais comum é o Windows-1252 também conhecido como cp1252 , um superconjunto da ISO 8859-1 . (Seu cp1251 é para script cirílico.)
- Outras codificações, como KOI8-R e Shift-JIS, também são usadas.
Veja também uma lista de codificações de caracteres .
Um script em Python chamado chardet é capaz de adivinhar com exatidão a codificação usada em determinados arquivos.