Existe potencialmente um problema em determinar o comprimento das cadeias de caracteres Unicode. Veja esta página dos documentos de desenvolvedor do Twitter para mais detalhes sobre Normalização
A contagem de caracteres dependerá da localidade que você configurou. Você pode executar locale
para verificar se você tem um código de idioma UTF-8 configurado. Feito isso, o código de @ stephen-rauch deve funcionar.
Dependendo da biblioteca de regex usada, você também poderá usar scripts nomeados como \p{Hebrew}
e \P{Greek}
Aqui está um exemplo do uso de \P{Hebrew}
para remover todos os caracteres não hebraicos: Link
Editado: Os resultados iniciais foram devidos a um locale mal configurado