Expressions polylexicales en traitement automatique des langues [Carlos Ramisch - soutenance HDR] [5 septembre 2023]

 Description

Un des phénomènes les plus fascinants des langues humaines est la création et l'utilisation d'expressions idiomatiques qui défient toutes les règles de composition logique. Par exemple, en portugais brésilien, on peut exprimer un désaccord avec "nem aqui nem na China" (lit. "et-pas ici et-pas en-la Chine" -> "absolument pas") ou "nem que a vaca tussa" (lit. "et-pas si la vache tousse" -> "absolument jamais"). Les expressions idiomatiques de ce type sont des expressions polylexicales (EP) prototypiques, c'est-à-dire des interprétations idiosyncratiques associées à des combinaisons de mots particulières. Beaucoup d'encre a coulé sur le traitement informatique des EP dans le TAL depuis le célèbre article de Sag et al. (2002). Cette présentation donne un aperçu de la recherche sur ce sujet, en mettant l'accent sur mes propres intérêts scientifiques. Je commence par une description du phénomène linguistique et de son traitement informatique, motivant et illustrant les notions abstraites par des exemples. Les deux parties suivants couvrent les tâches d'identification et de découverte automatique d'EP. Pour ces deux parties, je commence par passer en revue les ressources (jeux de données et corpus), notamment celles auxquelles j'ai contribué. Ensuite, je présente les modèles utilisés pour (a) prédire la compositionnalité des EP nominales en anglais, français et portugais, et (b) identifier les EP verbales en contexte, dans le cadre du projet PARSEME. Les deux parties détaillent les défis posés par l'évaluation de ces tâches et contiennent des résultats d'évaluation empiriques. Enfin, je résume mes principales contributions et explore les pistes de recherche futures qui me semblent prometteuses. Celles-ci incluent la poursuite du travail sur les EP, l'induction de lexiques sémantiques, et le TAL orienté diversité.

Mots clés : compositionality computational linguistics corpus annotation expressions polylexicales multiword expressions mwe identification parseme semantics

 Informations

 Téléchargements

Fichiers vidéos :

Fichier audio :

 Intégrer/Partager

Réseaux sociaux

 Options
Cocher cette case pour lancer la lecture automatiquement.
Cocher cette case pour lire la vidéo en boucle.
Cocher la case pour indiquer le début de lecture souhaité.
 Intégrer dans une page web
 Partager le lien
qrcode