UNIL
le savoir vivant
Vous êtes ici: UNIL > L'enseignement > Fiche de cours
Français | English   Imprimer   

Fiche de cours

Traitement informatique des corpus textuels I

Computer processing of text data I

Faculté de gestion: Faculté des lettres

Responsable(s): Aris Xanthos

Période de validité: 2016 ->

Horaires du cours (Hebdomadaire)

Date Lieu Remarque Thématique Intervenant(s)
2016/2017 : Mercredi 10:15-12:00 (Hebdomadaire) Anthropole/2012     Aris Xanthos

Cours-TP (travaux pratiques) (obligatoire)

Semestre d'automne
2 heures par semaine
28 heures par semestre
Hebdomadaire
Langue(s) d'enseignement: français
Public: Oui
Crédits: 4

Objectif

L'objectif de cet enseignement est de fournir une introduction générale au traitement informatique des corpus textuels (TICT), du point de vue des possibilités qu'il offre, des problèmes qu'il soulève, ainsi que des méthodes et pratiques qui le sous-tendent. Cet objectif sera atteint au travers de séances de cours-TP qui permettront aux étudiants d'acquérir les savoirs et savoir-faire fondamentaux dans ce domaine.

Remarque: cours labellisé P2I

Contenu

Constitution des corpus
- Représentation informatique des textes
- Encodage et formats de fichiers
- Modes de saisie et prétraitement
- Annotation (format TEI-XML)

Exploration de corpus
- Segmentation
- Indexation
- Concordances
- Collocations
- Expressions régulières

Aspects quantitatifs
- Types et tokens
- Fréquence absolue et relative
- Tables de contingence
- Analyse des correspondances
- Analyse des séries temporelles
- Mesures de complexité

Evaluation

L'enseignement est validé par le biais d'une épreuve écrite de 60 minutes en session (janvier pour le semestre d'automne, juin pour le semestre de printemps).

Bibliographie

Atkins, S., Clear, J., Ostler, N. (1992). Corpus Design Criteria. Literary and Linguistic Computing, 7(1), pp.1-16.
Biber, D. (1993). Representativeness in Corpus Design. Literary and Linguistic Computing, 8(4), pp.243-257.
Biber, D., Conrad, S. & Reppen, R. (1998). Corpus linguistics. Investigating language structure and use. Cambridge: Cambridge University Press.
Crowdy, S. (1993). Spoken Corpus Design. Literary and Linguistic Computing, 8(4), pp.259-265.
Edwards, J.A. (1992). Design principles in the transcription of spoken discourse. In J. Svartik (Ed.), Directions in Corpus Linguistics. Berlin: Mouton de Gruyter, pp.129-144.
Habert, B. (2000). Des corpus représentatifs: de quoi, pour quoi, comment? In M. Bilger (Ed.), Linguistique sur corpus: études et réflexions. Perpignan: Presses universitaires de Perpignan, pp.11-58.
Hockey, S. & Walker, D. (1993). Developing Effective Resource for Research on Texts: Collecting Texts, Tagging Texts, Cataloguing Texts, Using Texts, and Putting Texts in Context. Literary and Linguistic Computing, 8(4), pp.235-242.
Leech, G. (1993). Corpus Annotation Schemes. Literary and Linguistic Computing, 8(4), pp.275-281.
McEnery, T. & Wilson, A. (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press.
Sinclair, J. (1991). Corpus, Concordance, Collocation. Oxford: Oxford University Press.

Informations supplémentaires

www.unil.ch/sli

Canton de Vaud
Swiss University
Unicentre  -  CH-1015 Lausanne  -  Suisse  -  Tél. +41 21 692 11 11  -  Fax  +41 21 692 26 15