Automatic Segmentation of Texts and Corpora - Université Pierre et Marie Curie Accéder directement au contenu
Article Dans Une Revue Journal of Quantitative Linguistics Année : 2004

Automatic Segmentation of Texts and Corpora

Résumé

Le découpage des grands corpus de textes est l'une des questions cruciales posées aux études littéraires. Il est proposé une double méthode. L'analyse de la croissance du vocabulaire (type-token ratio) met en lumière les principaux changements de rythme. Ces résultats sont complétés par l'étude de la diversité du vocabulaire. Un algorithme de segmentation, associé à un test de validité, indique le découpage optimal. La méthode est appliquée aux oeuvres de Racine, Corneille et aux discours du Général de Gaulle.
Fichier principal
Vignette du fichier
LabbeLabbeHubertJQL04.pdf (157.92 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

halshs-00290976 , version 1 (08-07-2012)

Identifiants

  • HAL Id : halshs-00290976 , version 1

Citer

Cyril Labbé, Dominique Labbé, Pierre Hubert. Automatic Segmentation of Texts and Corpora. Journal of Quantitative Linguistics, 2004, 11, pp.193-213. ⟨halshs-00290976⟩
278 Consultations
375 Téléchargements

Partager

Gmail Facebook X LinkedIn More