Automatic Segmentation of Texts and Corpora

Cyril Labbé; Dominique Labbé; Pierre Hubert

Article Dans Une Revue Journal of Quantitative Linguistics Année : 2004

Automatic Segmentation of Texts and Corpora

(1) , (2) , (3)

1
2
3

Cyril Labbé

Fonction : Auteur
PersonId : 9675
IdHAL : cyril-labbe

Systèmes d’Information - inGénierie et Modélisation Adaptables

Dominique Labbé

Fonction : Auteur
PersonId : 952972

Pacte, Laboratoire de sciences sociales

Pierre Hubert

Fonction : Auteur

Université Pierre et Marie Curie - Paris 6

Résumé

Le découpage des grands corpus de textes est l'une des questions cruciales posées aux études littéraires. Il est proposé une double méthode. L'analyse de la croissance du vocabulaire (type-token ratio) met en lumière les principaux changements de rythme. Ces résultats sont complétés par l'étude de la diversité du vocabulaire. Un algorithme de segmentation, associé à un test de validité, indique le découpage optimal. La méthode est appliquée aux oeuvres de Racine, Corneille et aux discours du Général de Gaulle.

Mots clés

Type token ratio Segmentation Croissance du vocabulaire Diversité du vocabulaire Test de validité Sheffé Racine de Gaulle

Domaines

Science politique

Fichier principal

LabbeLabbeHubertJQL04.pdf (157.92 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Dominique Labbé : Connectez-vous pour contacter le contributeur

https://shs.hal.science/halshs-00290976

Soumis le : dimanche 8 juillet 2012-22:15:44

Dernière modification le : jeudi 25 avril 2024-03:08:44

Archivage à long terme le : mardi 9 octobre 2012-02:20:07

Dates et versions

halshs-00290976 , version 1 (08-07-2012)

Identifiants

HAL Id : halshs-00290976 , version 1

Citer

Cyril Labbé, Dominique Labbé, Pierre Hubert. Automatic Segmentation of Texts and Corpora. Journal of Quantitative Linguistics, 2004, 11, pp.193-213. ⟨halshs-00290976⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UPMC UGA CNRS PACTE LIG LIG_GLSI_SIGMA SORBONNE-UNIVERSITE LIG_SIDCH SCIENCESPO_GRENOBLE

278 Consultations

375 Téléchargements

Automatic Segmentation of Texts and Corpora

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager