Se connecter avec
S'enregistrer | Connectez-vous

Compter les caractères grecs d'un texte

Dernière réponse : dans Programmation

Bonjour, Je dispose, sous la forme de trois documents word en unicode, de toutes les formes rencontrées dans des textes grecs de l'Antiquité (les mots sont donc de grec ancien, environ 8 millions de caractères en tout). Je souhaite faire une analyse statistique de ce corpus en le décomposant en lettres de l'alphabet grec, donc savoir combien de alphas, de bêtas, de gammas... Et je bloque parce que TextStat et tous les compteurs en ligne rencontrés ne fonctionnent apparemment qu'avec l'alphabet latin. Ma 1re question est : "Comment faire ?" Et si vous avez une réponse valable notamment pour le grec moderne, j'ai une 2e question : "Votre 1re réponse permet-elle de traiter aussi les caractères spécifiques au grec ancien et absents du grec moderne en matière de voyelles (alpha esprit doux, alpha esprit rude, alpha accent grave, alpha avec iota souscrit, etc...) ?" Je précise que j'ai choisi sans trop savoir la sous-catégorie de ce forum : si un modérateur veut déplacer ma question, qu'il le fasse ! Bonne année à tous.

Autres pages sur : compter caracteres grecs texte

Lassé par la pub ? Créez un compte

Meilleure solution

Expert Programmation

Salut,

Arff... Ça c'est de la question !

J'ai bien une solution à te proposer, mais je ne suis pas sûr qu'elle te plaise :
cat fichier_unicode | sed "s/./&¤/g" | tr "¤" "\n" | c:\windows\command\sort | uniq -c


Et voilà, en deux coups de cuiller à pot. :sol: 
Mais il faut être sous Linux ou s'installer les outils GNU sous Windows.
Lassé par la pub ? Créez un compte