Quelles variables ? (1)
N’importe quel paramètre observable du document peut constituer une variable.
On peut compter le nombre d’occurrences :
- de caractères, combinaisons de 2, de 3 caractères ...
- de mots, combinaisons de 2 mots, 3 mots ...
- d’étiquettes morphologiques (N,V,Adj ...)
- de combinaisons mot + étiquette morphologique ...
Ou compter des co-occurrences de ces différentes choses