arxiv: v1 [q-bio.qm] 2 Sep PDF

of 20
30 views
PDF
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Document Description
arxiv: v1 [q-bio.qm] 2 Sep 2015 Analyse lexicale outillée de la parole transcrite de patients schizophrènes Maxime Amblard * Karën Fort ** Caroline Demily *** Nicolas Franck *** Michel Musiol
Document Share
Document Transcript
arxiv: v1 [q-bio.qm] 2 Sep 2015 Analyse lexicale outillée de la parole transcrite de patients schizophrènes Maxime Amblard * Karën Fort ** Caroline Demily *** Nicolas Franck *** Michel Musiol **** * LORIA, UMR 7503, Université de Lorraine, CNRS, Inria ** Université Paris-Sorbonne / EA STIH *** UMR 5229 CH le Vinatier CNRS et Université Lyon 1 **** ATILF, UMR 7118, Université de Lorraine, CNRS RÉSUMÉ. Cet article détaille les résultats d analyses réalisées sur la transcription d entretiens avec des patients schizophrènes, aux niveaux de la production orale (disfluences) et du lexique (morpho-syntaxe et lemmes). L étude s inscrit dans le cadre d un projet plus large qui prévoit d autres niveaux d analyse (syntaxique et du discours), les résultats obtenus devant nous permettre de réfuter ou d identifier de nouveaux indices linguistiques présents dans la manifestation d un dysfonctionnement à ces différents niveaux. Le corpus traité contient plus de mots, son analyse a donc nécessité l utilisation d outils de traitement automatique des langues (TAL) et de textométrie. Nous avons en particulier séparé le traitement des disfluences du traitement lexical, ce qui nous a permis de montrer que si les schizophrènes produisent davantage d achoppements et de répétitions (disfluences) que les témoins, la richesse de leur lexique n est pas significativement différente. ABSTRACT. This article details the results of analyses we conducted on the discourse of schizophrenic patients, at the oral production (disfluences) and lexical (part-of-speech and lemmas) levels. This study is part of a larger project, which includes other levels of analyses (syntax and discourse). The obtained results should help us rebut or identify new linguistic evidence participating in the manifestation of a dysfunction at these different levels. The corpus contains more than 375,000 words, its analysis therefore required that we use Natural Language Processing (NLP) and lexicometric tools. In particular, we processed disfluencies and parts-ofspeech separately, which allowed us to demonstrate that if schizophrenic patients do produce more disfluencies than control, their lexical richness is not significatively different. MOTS-CLÉS : schizophrénie, disfluences, morpho-syntaxe, lemmes, discours pathologique KEYWORDS: schizophrenia, disfluencies, POS, lemmas, pathological discourse 3 e soumission à TAL 55-03, le 01/09/2015 2 3 e soumission à TAL Introduction De nombreuses études ont porté sur la définition, l implémentation et l évaluation d outils pour analyser les pratiques langagières. Leurs motivations s inscrivent dans des tâches bien définies, mais la question de la validité cognitive des théories et modèles est souvent reléguée à des ouvertures plus qu à de véritables arguments. S il apparaît évident qu il s agit d une question complexe, il n en est pas moins nécessaire d interroger ces propositions sous l angle du fonctionnement cognitif. Une manière d appréhender cette problématique est de s intéresser à des manifestations explicites du fonctionnement cognitif, par exemple des dysfonctionnements plutôt qu à des usages supposés normaux. Ici, nous nous intéressons à l étude de la réalisation de phénomènes spécifiques chez les schizophrènes au travers de leur pratique langagière. Ces phénomènes sont analysés comme des dysfonctionnements dans la planification du discours, symptôme d un dysfonctionnement cognitif (Rebuschi et al., 2013). Nous ne tentons pas de définir comment le cerveau produit ce dysfonctionnement mais comment et où ce dysfonctionnement apparaît du point de vue linguistique. Une fois ce dysfonctionnement circonscrit, il deviendra possible de travailler à un modèle pour en rendre compte précisément. Dans un mouvement inverse, étudier ces dysfonctionnements apparaissant dans la langue permet de donner une validité cognitive aux outils capables de les identifier. Ces travaux s inscrivent dans le cadre d une étude large portant sur les pratiques langagières de patients schizophrènes. Le matériel de cette étude provient principalement d entretiens semi-dirigés par des psychologues. Ces entretiens sont définis pour minimiser l apport du psychologue, laissant une place importante à la parole du patient. Il s agit de recueillir l expression de sa pensée, pour procéder à une analyse, en général psychologique ou psychiatrique. Mais ce n est pas notre sujet. Nous appréhendons ce matériau comme l expression d une pensée en action, au sens cognitif, et l analysons du point de vue de la pratique langagière. Dans la continuité des travaux de (Chaika, 1974) et (Fromkin, 1975) qui, les premiers, ont cherché à mettre en avant des indices spécifiques à la capacité langagière des schizophrènes. Ils se sont appuyés sur l hypothèse forte que la forme de l expression de leur pensée véhiculait des informations sur les processus cognitifs en œuvre. En même temps, les schizophrènes manifestent des particularités. Si Chaïka s intéresse à la capacité d appliquer des règles syntaxiques, (Landre et al., 1992) rapporte que les schizophrènes font le même type d erreurs que les aphasiques, ce qui les conduit à donner une origine extralangagière au dysfonctionnement, le positionnant à un plus haut niveau cognitif. (Besche et al., 1996) ont étudié la pratique lexicale des patients schizophrènes pour également réfuter l idée qu ils auraient un trouble généralisé de traitement du contexte, à nouveau inscrivant les dysfonctionnements à un niveau cognitif plus élevé. Cependant, ces études restent très limitées, tant dans le nombre de patients pris en considération que dans l ampleur des phénomènes analysés. En général, et au vue de la difficulté de rencontrer de tels patients, ces études incluent seulement une vingtaine de Analyse lexicale de paroles schizophrènes 3 participants. Par ailleurs, les moyens tant matériels que théoriques à la disposition des auteurs les contraignent à réaliser à la main des tests relativement peu avancés. Nous ne souhaitons aucunement remettre en cause leurs méthodes, mais utiliser des outils et méthodologies développés dans le cadre du traitement automatique des langues (TAL) sur ces données particulières. Dans une première partie, nous revenons sur le contexte de cette étude, tant du point de vue de son organisation que de son contexte scientifique. Nous en précisons également le cadre et les limites. Puis nous présentons le corpus en revenant sur sa constitution et les difficultés de la création d une telle ressource. Enfin, nous détaillons les outils utilisés et les résultats obtenus sur le corpus en analysant les achoppements et les répétitions (disfluences), les catégories morpho-syntaxiques, et les lemmes produits. Nous proposerons ensuite une brève analyse textométrique avant de conclure. 2. Contexte de l étude Si nous disposons aujourd hui de nombreuses références d articles traitant du sujet de la production langagière des schizophrènes, il n est pas aussi simple d en tirer des conclusions. Outre que ces articles proviennent de domaines variés (psychologie, médecine, linguistique, etc.) et qu ils sont plus ou moins récents et plus ou moins facilement disponibles selon les traditions de chaque domaine, les conditions des expériences décrites sont d une telle variabilité qu il est difficile d en mettre les résultats en cohérence. En effet, les tailles de corpus et les protocoles varient énormément, la langue diffère, les patients sont pour certains en remédiation (et sous-traitement), d autres non. Enfin, les résultats sont comparés dans certains cas à des témoins et dans d autres à des patients souffrant d autres désordres ou pathologies. La méta-étude de Brendan Maher (Maher, 1972) est très intéressante de ce point de vue, car l auteur signale les biais de telle ou telle étude ou leurs différences. S il présente ensemble les résultats concernant les répétitions et ceux concernant la richesse lexicale, il est l un des rares à les distinguer. Ses conclusions sur les répétitions, déduites des TTR (Type-Token Ratio), sont relativement claires : les patients schizophrènes ont un TTR inférieur, ce qui signifierait qu ils se répètent davantage. Des perturbations du discours des schizophrènes (achoppements, répétitions) ont également été observées par d autres, notamment dans (Feldstein, 1962) et (Kremen et al., 2003). Par ailleurs, (Maher, 1972) cite, tout en émettant certaines réserves (les données étant trop limitées), des résultats qui montreraient que les patients schizophrènes utiliseraient un vocabulaire plus restreint. Une étude portant sur les familles de schizophrènes et détaillée dans (DeLisi, 2001) montre elle-aussi que les schizophrènes chroniques utilisent significativement moins de mots que les témoins. L analyse que nous présentons vise à vérifier ces résultats, sur une cohorte relativement large. Elle est à notre connaissance la seule portant sur des patients francophones, surtout, elle a été réalisée à l aide d outils de TAL au niveau état de l art. Il est à noter que, comme les travaux que nous présentons s inscrivent dans un projet plus 4 3 e soumission à TAL général, le corpus sur lequel nous travaillons est partagé avec d autres recherches. Le protocole utilisé couvre lui l ensemble du projet. En particulier, nous mesurons les capacités neuro-cognitives par une série de tests avant l entretien et au cours de certains, nous enregistrons le comportement oculomoteur du patient avec un oculomètre (eye-tracker) et/ou l activité encéphale par électro-encéphalographe (EEG). Dans cet article, nous n utilisons que les enregistrements sonores transcrits des entretiens. 3. Constitution du corpus Notre étude, comme la plupart de celles sur les pratiques langagières des patients schizophrènes, est confrontée à de nombreux obstacles pour la constitution du corpus Répartition des sujets Aux vues des difficultés pour identifier les patients et les faire intervenir dans l étude, notre corpus a été constitué en plusieurs phases, dans différents centres hospitaliers. Dans l analyse présentée ici, nous considérons les résultats de deux cohortes comportant en tout 80 sujets qui se répartissent en 49 schizophrènes et 31 témoins. Le tableau 1 présente la ventilation des sujets en fonction de leur type (schizophrène ou témoin) et de leur sexe. Le corpus est divisé en deux cohortes, correspondant aux villes des unités médicales spécialisées des recueils. Par respect pour la confiance accordée par les patients, nous anonymisons ces noms de villes en Ville1 et Ville2. Le recueil de Ville1 a été réalisé par une psychologue pour les patients et trois psychologues pour les témoins, et celui de Ville2 par les deux mêmes psychologues pour les patients et les témoins. Le sous-corpus Ville1 a été constitué au second semestre Il est composé de 18 patients diagnostiqués schizophrènes, en remédiation et sous traitement, ainsi que de 23 témoins. Le sous-corpus Ville2 a été constitué au printemps Il est composé de 31 patients diagnostiqués schizophrènes en remédiation et sous traitement, à l exception de sept d entre eux (qui n étaient pas sous traitement), et de 8 témoins. corpus Ville1 corpus Ville2 total hommes femmes total hommes femmes total schizophrènes sous traitement sans traitement total témoins total Tableau 1 Répartition des sujets dans le corpus en fonction des cohortes et du sexe. Analyse lexicale de paroles schizophrènes Protocole de collecte L interaction choisie pour cette étude s organise autour d un entretien semi-dirigé conduit par un psychologue. Ce type d entretien est bien défini dans la communauté psychologique et psychanalytique (bien que la terminologie puisse varier) : il s agit pour le psychologue de maintenir une interaction dans laquelle l interlocuteur parle librement de lui-même. Pour cela il revient sur son environnement matériel direct, ses relations humaines dans son cadre, ainsi qu à l extérieur de son cadre. Le psychologue n est en aucun cas personnellement engagé dans l interaction, et sa contribution principale est de relancer l échange ou de préciser certains éléments. Par ailleurs, lors de la constitution du sous-corpus Ville1, les sujets ont passé une série de tests permettant de mesurer certaines compétences cognitives. Les tests choisis sont classiques, au sens où ils sont régulièrement utilisés dans la littérature pour des analyses similaires. Les trois tests psychocognitifs choisis mesurent les capacités de mémoire à court terme, d attention, et la mémoire de travail : 1) le Wechsler Adult Intelligence Scale-III (mesure du quotient intellectuel, ou QI), 2) le California Verbal Learning Test (capacité cognitive et de stratégie), 3) le Trail Making Test (dépréciation de la flexibilité cognitive et de l inhibition, déficit qui peut affecter la vitesse du système perceptif-moteur, la flexibilité spontanée ou la flexibilité de réaction). Dans le présent article, nous n utiliserons que les résultats du test de QI. Il nous semble important d insister sur le fait que le protocole stipule explicitement que le contenu de l entretien ne peut et ne doit pas être utilisé ni pour, ni contre le patient. Le fait de ne pas utiliser le contenu contre le patient leur permet une certaine liberté d expression, et dans un mouvement inverse ne pas l utiliser pour eux limite la tentation de renvoyer une image trop positive d eux-mêmes dans le contexte hospitalier Transcription de la parole Nous récupérons les enregistrements des entretiens sous forme de fichier sonore mp3. Ils sont alors transcrits. Nous considérons la transcription comme le premier niveau d annotation de la ressource. Les deux sous-corpus ayant été constitués à des moments très écartés dans le temps (plus de 10 ans les séparent), les processus de transcription n ont pas pu être les mêmes. Cependant, dans les deux cas, les transcriptions ont été réalisées par plusieurs annotateurs. Il s est agit du ou de la psychologue qui a mené tout ou partie des entretiens, ainsi que d une seconde personne. L investissement en temps sur cette tâche étant limité, les transcriptions n ont malheureusement pas pu être réalisées en parallèle. Il est important de noter que les transcripteurs n ayant pas connaissance de l utilisation de leur travail pour des tâches de TAL, n ont probablement pas pu influencer les résultats dans un sens ou un autre. Les annotateurs ont suivi les recommandations 6 3 e soumission à TAL de base fournies avec Transcriber pour une transcription fine et la transcription a été post-traitée suivant les préconisations de (Blanche-Benveniste et Jeanjean, 1987). Nous avons réalisé une relecture partielle a posteriori pour identifier les unifications d annotations minimales à apporter à l ensemble de la ressource par une série de scripts de normalisation tant sur le codage du texte, le format des fichiers que les annotations elles-mêmes. En moyenne, les entretiens du sous-corpus de Ville1 sont constitués de 552,73 tours de parole, alors que les entretiens du sous-corpus Ville2 en contiennent 234,5. L ensemble du corpus comprend tours de parole, soit environ mots. Le tableau 2 présente la répartition en tours de parole et en mots de l ensemble du corpus. Il faut noter que, du point de vue du TAL, ce corpus reste de taille modeste. Cependant, nous considérons qu il atteint une taille raisonnable pour l utiliser, au vue de sa spécificité, aspect sur lequel nous revenons dans la section suivante. Figure 1 Distribution des tailles des entretiens en nombre de mots (en bleu) et en nombre de tours de parole (en vert), ainsi que les quartiles (en rouge). La figure 1 illustre la distribution des tailles des entretiens en nombre de mots et de tours de parole, pour les deux cohortes. Les quartiles apparaissent en rouge. On constate que les entretiens contiennent pour la moitié d entre eux entre et mots. Par ailleurs, le nombre de tours de parole est relativement constant dans le corpus. On calcule qu en moyenne un entretien est composé de 393 tours de parole pour mots. Le caractère spécifique de l entretien semi-directif apparaît dans le corpus : le psychologue produit le même nombre de tours de parole que le sujet, pour un volume de mots très inférieur. Par exemple, dans le sous-corpus Ville1, le nombre de tours de parole des schizophrènes et des psychologues devant un schizophrène est le même, alors que le volume de mots des schizophrènes est 1,54 fois plus important que celui des psychologues. Les témoins du sous-corpus de Ville1 ne présentent pas cette caractéristique, mais une analyse plus fine des entretiens montre que pour six d entre eux, les témoins ont été réticents à prendre la parole. Analyse lexicale de paroles schizophrènes 7 corpus Ville1 corpus Ville2 nb tours nb mots nb tours nb mots S T P + S P + T total Tableau 2 Décomposition du corpus en sous-corpus, en nombre de tours de parole et nombre de mots, en fonction du type d interlocuteur : S (schizophrènes), T (témoins), P + S (psychologue avec un schizophrène), P + T (psychologue avec un témoin). Notre étude se focalise sur des aspects relevant du lexique et de la morpho-syntaxe. Aussi nous n avons pas exploité les aspects phonétiques, comme le temps de parole ou la vitesse d élocution des locuteurs, ni le recouvrement des tours de parole. Ces données restent cependant disponibles dans le corpus pour une étude ultérieure Difficultés d accès aux patients Le nombre de 80 sujets peut sembler limité, mais la constitution d une telle ressource implique de surmonter de nombreuses difficultés, en particulier pour accéder aux patients. De ce fait, disposer d une cinquantaine de transcriptions d entretiens avec des schizophrènes représente déjà un corpus significatif. Pour s entretenir avec une personne prise en charge en milieu hospitalier, il est nécessaire d obtenir une autorisation du CPP (Comité de Protection de la Personne) de la région de l établissement. Les demandes déposées contiennent explicitement et exactement le protocole. L instruction du dossier requiert plusieurs mois et demande la contraction d une assurance (pour prendre en charge les possibles dommages). Ces assurances augmentent considérablement les budgets nécessaires à ce type d expérience. Une fois les accords obtenus, il n est alors plus possible de modifier les protocoles. Mais ce qui rend complexe la constitution d une telle ressource est principalement la difficulté de faire participer les patients. Plusieurs problèmes se posent. Il faut d abord identifier, au sein d un service, les patients répondant aux critères de l étude et en capacité d interagir avec une personne tierce au service. Puis il faut, au sein de cette population, trouver les patients qui acceptent de participer. Une première réticence vient du fait qu il n y a pas de conséquence positive, en terme médical, à participer à l étude. Il faut ajouter à cela des inquiétudes compréhensibles des patients concernant la possible publication de leur histoire, bien qu une anonymisation soit garantie. 8 3 e soumission à TAL Par ailleurs, le protocole requérant de passer des tests psycho-cognitifs et un entretien, le temps nécessaire est de l ordre de deux heures, ce qui est relativement élevé. Ce n est pas tant la disponibilité des patients qui est alors en jeu, que leur aptitude à rester concentrés. Lorsque le patient présente soudainement des difficultés, il faut convenir d un second rendez-vous pour finaliser le protocole. La multiplication des rendez-vous génère des défections. À titre d exemple, lors de la p
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks
SAVE OUR EARTH

We need your sign to support Project to invent "SMART AND CONTROLLABLE REFLECTIVE BALLOONS" to cover the Sun and Save Our Earth.

More details...

Sign Now!

We are very appreciated for your Prompt Action!

x