Reçu le 10-02-2021 / Évalué le 15-03-2021 / Accepté le 18-04-2021
Résumé
Au cours des dernieres années, la traduction automatique (TA) a fait des progres remarquables grâce a ['utilisation de réseaux de neurones artificiéis ; toutefois, l'intéret et le succes des logiciels de TA - rendus disponibles gratuitement pour le grand public - ont mis en évidence la présence de biais de genre dans les résultats obtenus. Ce biais pourrait dépendre d'une biodiversité insuffisante de données qui servent a l'entraînement des algorithmes d'intelligence artificielle. Prenant pour exemple les noms de métiers, cette étude entend vérifier si la présence de deux différents types d'adjectifs (d'apparence et de compétence) peut influencer la traduction automatique qui concerne le genre en allant du français vers l'italien ou vice-versa. La liste des noms de métiers analysés, qui a été rédigée a partir du systéme de classification des professions européennes ESCO (European Skills, Competences, Occupation), a permis de créer des phrases que nous avons fait traduire par trois moteurs de traduction automatique neuronale : Google Translate, DeepL, Microsoft Translator.
Mots-clés : études de genre, écart entre les sexes, apprentissage profond, ESCO (European Skills, Competences), traduction automatique
Riassunto
Durante gli ultimi anni, la traduzione automatica (TA) ha fatto dei progressi notevoli grazie all'approccio delle reti neuronali; l'interesse e il successo degli strumenti di TA - resi disponibili gratuitamente al grande pubblico - hanno messo in evidenza la presenza di un divario di genere nei risultati. Tale divario potrebbe dipendere da una biodiversita insuficiente dei dati che servono ad allenare l'algoritmo d'intelligenza artificiale. Prendendo in considerazione il caso dei nomi delle professioni, il presente studio vuole verificare in che modo la presenza di due diversi tipi di aggettivi (d'apparenza e di competenza) possa influenzare la traduzione automatica del genere dal francese all'italiano o viceversa. L'analisi e stata condotta utilizzando una lista di nomi di professione che abbiamo selezionato a partire dal sistema di classificazione delle professioni europee ESCO (European Skills, Competences, Occupation) e che e servita per creare delle frasi che abbiamo fatto tradurre da tre motori di traduzione neuronale: Google Translate, DeepL, Microsoft Translator.
Parole chiave: studi di genere, gender data gap, deep learning, ESCO (European Skills, Competences, Occupation), traduzione automatica
Abstract
In recent years, machine translation (MT) has made considerable progress thanks to the neural network approach. The interest and the success of MT tools - made freely available to the general public - have highlighted the presence of a gender gap in the results. This gap could be due to an insufficient biodiversity of the data used to train the artificial intelligence algorithm. Considering as a case study the names of professions, the present article aims to verify how the presence of two different types of adjectives (appearance and competence) can influence the automatic translation of gender from French to Italian or vice versa. The analysis was carried out using a list of profession names that we selected from the ESCO Project (European Skills, Competences, Occupation) and which was used to create sentences that we had translated by three neural translation engines: Google Translate, DeepL, Microsoft Translator.
Keywords: gender studies, gender data gap, deep learning, ESCO (European Skills, Competences, Occupation), automatic translation
1.La traduction automatique : fonctionnement et typologies
Dans son essai Dire presque la méme chose, Umberto Eco donne l'exemple de textes traduits de maniere automatique qui deviennent presque anecdotiques. La reflexion d'Eco exemplifie les deux sentiments opposes que la traduction automatique suscite depuis toujours. D'un côté les technophobes (Eco, 1964), convaincus d'une distance infranchissable entre la performance humaine et celle de la machine, et de l'autre, les technophiles qui revent d'un instrument capable d'imiter les capacites humaines.
L'histoire de la traduction automatique oscille entre ces deux positions, scandée par l'introduction de nouvelles technologies, notamment les corpus numériques et les techniques d'apprentissage liées a l'intelligence artificielle. Ce mouvement incessant entre la confiance envers une traduction automatique comparable a ce que ferait l'etre humain, et le découragement qui la voit condamnée a un état d'imperfection, n'a jamais cessé et a produit diverses générations d'élaboration dans le domaine de la traduction, toutes basées chacune sur une idée différente de la traduction.
Les tout premiers systemes de traduction automatique (TA) naissent autour des années 1950. Ils sont fondés sur une approche de la traduction entendue comme décryptage d'un code (Weaver, 1949), traduisant donc mot a mot. Les éléments qui composaient ces systemes étaient un compilateur (parser), permettant d'identifier la relation entre les mots de la langue source et ceux de la langue d'arrivée, un dictionnaire monolingue, avec les informations morphosyntaxiques de la langue source, et un dictionnaire bilingue, utilise pour permettre au systeme de trouver l'équivalent dans la langue cible. Cette traduction mot a mot rendait évidemment difficile la traduction des expressions métaphoriques ou ambiguěs.
L'attention portée a la grammaire a permis de développer une deuxieme génération de systemes informatiques a base de regles (rule-based). Ces systemes partent d'une conception théorique de la traduction pour laquelle, grâce a l'analyse de la représentation du signifié dans la langue source, il est possible de créer une représentation équivalente dans la langue cible1 ; au niveau technologique, elles sont construites a travers une série de regles morphologiques, syntaxiques et sémantiques. Si ce type de systeme a l'avantage de traduire correctement les structures syntaxiquement non paralleles entre deux langues, il présente encore des défauts. Tout d'abord, l'impossibilité d'incorporer dans une liste toutes les regles grammaticales d'une langue. Ensuite, pour une interpretation correcte des ambiguítés liées aux termes homographes et polysémiques, il est nécessaire de prendre en considération le cotexte et le contexte. Les travaux successifs ont emprunté cette direction et, aux alentours des années 1980, l'apparition de corpus de grande taille en format numérique a permis de créer des systemes basés sur les corpus (corpus-based). Ce modele s'appuie sur une grande quantité d'exemples corrects et alignés, qui sont identifies grâce a des calculs statistiques. Il s'agit, en quelque sorte, d'une tentative de résoudre le probleme lié a la connaissance du contexte : par exemple, l'expression idiomatique italienne « in bocca al lupo » est traduite en français par « bonne chance » en raison de la recurrence de ces séquences, et de leur co-occurrence reguliere dans des segments alignés correspondants. Toutefois, cette solution présente une limite : se basant sur des statistiques tirées d'exemples du corpus, le systeme n'est pas en mesure de traduire des expressions linguistiques inhabituelles ou poétiques et plus généralement les expressions qui présentent un certain niveau de créativité ou qui sont peu représentées dans le corpus.
Au début des années 2000, un tournant important est marqué par l'introduction des techniques issues de l'intelligence artificielle. Le systeme de TA devient alors capable d'apprendre et d'améliorer ses performances grâce a des algorithmes entraínés sur des quantités énormes de données non structurées. En 2014, les réseaux de neurones artificiels apparaissent : cette architecture entend imiter les réseaux biologiques des neurones du cerveau humain grâce a une organisation par niveaux qui interagissent entre eux a travers des nœuds contenant des centres de connaissance. L'élaboration des données grâce aux réseaux de neurones artificiels permet de créer des modeles de connaissance qui s'améliorent sans cesse. Cette technologie, qui s'appuie sur des systemes définis a base de connaissance (knowledge-based), est utilisée pour la traduction automatique neuronale (Neural Machine Translation - NMT). Bien qu'elle exploite divers outils - tels que dictionnaires, regles grammaticales et sémantiques, glossaires spécialisés et mémoires de traductions - elle représente en quelque sorte une évolution de la traduction basée sur les corpus (Wilks, 2009).
2.Le biais de genre et la traduction automatique
En 2016, Google a lancé son traducteur automatique neuronal ; en 2018, Microsoft, Systran et Linguee en ont fait de meme. La mise a disposition gratuite des outils de TA a modifié l'interface des logiciels suggérant par exemple a l'utilisateur une traduction correcte ou lui permettant d'évaluer la traduction faite par le moteur. Cette pratique ne découle pas d'une sensibilité démocratique envers la connaissance, mais elle vise a tirer profit de la compétence linguistique des utilisateurs qui, de cette maniere, deviennent des experts linguistiques bénévoles.
La visibilité majeure acquise récemment par la traduction automatique ainsi que l'usage massif de ce type de traduction ont conduit a une prise de conscience a propos des stéréotypes de genre dans les traductions2. Cette tendance s'est accrue grâce a un intéret grandissant et a une sensibilité renouvelée pour la question du genre dans le langage, dont témoigne, entre autres, le débat récent sur le langage épicene3.
De nombreuses études, que nous préciserons dans cette section, supposent que l'existence du biais de genre dans les traductions automatiques serait due a une biodiversité insuffisante des données d'entrées. En effet, les architectures neuronales constituent l'évolution des architectures a base de corpus, qui sont alors unies aux approches d'apprentissage profond (deep learning) : cela veut dire que les données de sortie sont grandement affectées par la qualité des données d'entrées qui entraînent les algorithmes d'intelligence artificielle. Bien que l'on obtienne de meilleurs résultats lorsque le moteur de traduction automatique est entraíné sur un corpus représentant le meme type de discours spécifique que celui du texte a traduire, il faut aussi considérer que la langue (et par conséquent le corpus) est le reflet de la société : longtemps, certains noms de métiers n'ont pas disposé d'équivalents féminins, puisque ces métiers n'étaient jamais exercés par des femmes. Par exemple, si le mot « infirmiere » est normalement bien attesté, c'est aussi parce que cette profession, qui a subi une forte croissance depuis la premiere et la seconde guerre mondiale, était exercée habituellement par des femmes ; il n'en va pas de meme pour le mot « ingénieure », qui est apparu bien plus tard parce que ce métier a été longtemps réservé aux hommes.
Bien que les stéréotypes de genre présents dans le langage varient au fil des années dans le sens d'un rééquilibrage (Jones et al., 2020), l'écart est encore présent. Caroline Criado Perez (2019) parle de décalage dans les données sexospécifiques (gender data gap), en faisant référence a l'absence d'une representation adéquate des femmes dans les bases de données statistiques ; de maniere similaire, Ricardo Baeza-Yates (2018) parle de biais algorithmique (algorithmic bias) en signalant que le bas pourcentage de femmes dans le secteur de la programmation par rapport a celui des hommes aurait des conséquences sur la conception des algorithmes.
Å la fin de l'année 2018, Google a officiellement admis la présence des stéréotypes de genre au sein de ses applications automatiques4 (traduction, suggestion de redaction dans Gmail, etc.) et a également publié un article sur les mesures adoptées pour résoudre cet écart5.
Si l'existence de stéréotypes de genre est donc prouvée, les méthodes utilisées pour les détecter peuvent etre variées. Dans une étude sur le moteur de TA de Google, Marcelo Prates (Prates et al., 2019) a sélectionné plus de 1 000 professions, une liste des adjectifs les plus fréquents selon le Corpus of Contemporary American English (COCA) et une structure syntaxique a double possibilité, sans ou avec l'adjectif. Les résultats montrent que le systeme traduit préférablement les pronoms personnels au masculin plutôt qu'au féminin et que la présence de certains adjectifs comme « Arrogant, Cruel and Guilty » (« arrogant, cruel et coupable », ibidem : 24) porte l'algorithme a privilégier la traduction au masculin, alors que d'autres adjectifs comme « Shy, Attractive, Happy, Kind and Ashamed » (« timide, séduisant, heureux, gentil, honteux/qui a honte », idem) facilitent la traduction au féminin, suggérant une representation stéréotypée des genres. Stanovsky (Stanovsky, G. et al. 2019) parvient a la meme conclusion en constatant que la traduction devient plus précise en présence d'une sorte d'amalgame entre certaines professions et le genre, comme dans « female nurse » (« infirmiere »). De meme, la structure syntaxique a fait l'objet d'études qui ont essayé d'identifier des éléments critiques ou de faciliter une traduction correcte. Costa Jussa (2019), qui propose d'intégrer des mots pour mitiger l'impact des stéréotypes de genre (words embeddings), constate que les noms propres contribuent a réduire l'ambiguVté. Enfin, Monti (2017) identifie des constructions comme les anaphores, les appositions et l'accord sujet/objet avec le complement prédicatif qui seraient problématiques. Toutes ces études nous ont servi de point de départ théorique pour sélectionner une liste de noms de métiers que nous allons présenter dans la section suivante.
3.Methodologie d'analyse : les noms de métiers et la structure syntaxique
En partant de la prémisse que les systemes de TA génerent des traductions erronées en termes de genre, dues entre autres a un manque de biodiversité dans les données d'entrée, nous allons nous intéresser au type d'erreurs de TA, dans la conviction que cette analyse pourrait éclairer la nature des stéréotypes présents. Notre objectif n'est pas d'évaluer la performance des logiciels de TA, mais de savoir si les erreurs sont simplement aléatoires, ou bien si elles sont révélatrices de stéréotypes provenant d'un imaginaire caché.
Tout en considérant les travaux précédemment mentionnés, nous avons tout d'abord sélectionné une liste de noms de métiers, extraite de celle du projet ESCO6 (European Skills Competences and Occupations), cette derniere comptant 2 942 noms de professions en 27 langues européennes. La liste ESCO s'appuie a son tour sur un code ISCO 087 qui divise les professions en 10 groupes : Professions militaires ; Directeurs, cadres de direction et gérants ; Professions intellectuelles et scientifiques ; Professions intermédiaires ; Employés de type administratif ; Personnel des services directs aux particuliers, commerçants et vendeurs ; Agriculteurs et ouvriers qualifies de l'agriculture, de la sylviculture et de la peche ; Métiers qualifies de l'industrie et de l'artisanat ; Conducteurs d'installations et de machines, et ouvriers de l'assemblage ; Professions élémentaires.
Nous avons sélectionné 73 noms de métiers équivalents en français et en italien (tableau 1), en suivant un critere de représentativité générale en termes de typologie ; nous avons également préféré retenir les seuls hyperonymes plutôt que de multiplier les hyponymes. Par exemple, en ce qui concerne le secteur médical, nous avons préféré le mot « docteur » aux hyponymes « dermatologue », « neurologue », « pharmacologue », « pneumologue », « psychiatre », « pédiatre », etc.
En nous appuyant sur les études de TA mentionnées précédemment, nous avons inséré ces noms dans des phrases dont la structure syntaxique est la suivante : article indéfini, nom du métier, adverbe + adjectif, passé composé (auxiliaire + participe passé), complément de lieu. Cette structure fournit de nombreux indices d'accord de genre meme dans le cas d'une profession ayant un nom épicene (comme « secrétaire » en français ou « commerciante » en italien). Pour ce qui concerne les adjectifs, nous avons distingué l'adjectif d'apparence, tels « beau/belle » en français ou les équivalents italiens « bello/bella », de l'adjectif de compétence, comme « intelligent/intelligente » en français ou les équivalents italiens « intelligente /intelligente ». Nous avons sélectionné les 500 adjectifs les plus utilises dans les corpus frWac et itWac (M. Baroni et al., 2008) et avons construit une base de données d'un total de 584 phrases (en tableau 2).
Ensuite, nous avons fait traduire ces phrases du français vers l'italien ou vice-versa par trois moteurs de TA neuronales : Google Translate (GT), Microsoft Translator (MT), DeepL (DT). Les résultats obtenus sont analysés dans la section suivante.
4.Analyses et résultats
Apres avoir fait élaborer les phrases par les moteurs, nous avons analyse manuellement les résultats obtenus, en les annotant selon leur exactitude. Elles ont été jugées « fausses » en ne considérant que le nom de métier, c'est-a-dire que, meme si d'autres éléments grammaticaux (accord du participe, article, etc.) ont été correctement traduits au féminin, le nom de métier ne l'était pas. Dans ce cas, la phrase a été annotée comme « incorrecte » puisque le concept a été bien traduit mais que le nom n'a pas été accordé au genre de maniere correcte. Dans le cas des noms de métiers épicenes, l'erreur n'est considérée que lorsque la totalité de la phrase est traduite avec l'accord de l'autre genre par rapport a l'original ou lorsque le nom de métier est traduit par un autre mot.
Comme on peut l'observer dans les tableaux 3 et 4, les taux de traductions correctes des phrases au masculin de la langue source (qu'elle soit en français ou en italien) ont un pourcentage qui va de 93 % a 97% et les taux des traductions correctes pour le féminin oscillent entre 8% et 86%. Plus précisément le féminin ne présente que deux sous-groupes qui ont un taux de réponses correctes assez élevé tandis que tous les autres ont un niveau tres bas. Le taux de réponses correctes plus élevé au masculin par rapport au féminin confirme la présence d'un déséquilibre en faveur du masculin, comme l'indiquaient aussi les études mentionnées.
Nous observons encore que le résultat lié au sous-groupe des noms de métiers au féminin montre que la féminisation est moins fréquente dans des phrases avec l'adjectif de compétence (de 7% a 18%) que dans les phrases avec l'adjectif de l'apparence (11%-86%), ce qui confirme l'hypothese de depart selon laquelle deux adjectifs appartenant a deux champs sémantiques différents influencent l'exactitude des traductions.
En revanche, la presence d'adjectifs d'apparence et de competence n'affecte nullement les performances de traduction dans le cas du masculin et les noms des métiers sur lesquels se concentrent les erreurs sont toujours les memes : « infermiere/infirmier » est traduit a 100% au feminin, suivi de « esřeřisřa/esthéticien » avec un taux d'erreur de 83 %, de « segrefario/sécretaire » avec un taux d'erreur de 75%. Certains cas qui semblent isolés comme « potier », « orfevre », « ballerino », « coreógrafo » présentent un taux d'erreur de 8%.
En analysant la typologie d'erreurs, nous observons qu'il s'agit la de noms de métiers traduits au féminin. Nous trouvons donc, en correspondance de « Un infirmier tres beau est entré dans la salle », la traduction « Un'infermiera molto bella ė entrata nella stanza ». Dans ces cas, le nom du métier l'emporte sur la structure syntaxique, qui pourtant possede plusieurs éléments comme les accords ou les adjectifs pouvant conduire a une interpretation correcte de la part du moteur de traduction automatique. La traduction est donc forcée au féminin, et, quelle que soit la langue source, les trois moteurs de traductions montrent toujours les memes noms de métiers ayant le plus haut taux d'erreurs.
Dans le cas du masculin, nous avons vu que les noms de métiers traduits de maniere erronée par les trois moteurs de traduction sont toujours les memes, que ce soit de l'italien vers le français ou du français vers l'italien. En comparant les memes noms de métiers avec les résultats des traductions des phrases au féminin, nous observons qu'ils donnent lieu aux rares phrases qui sont traduites correctement.
Comme on peut le voir dans les tableaux 9, 10, 11, 12, « estet/sta/esthéticienne », « secrétaire/segretar/a », « infermiere//nferm/era » ont des taux de réponses correctes tres élevé.
Le choix des mots n'est pas aléatoire : en effet, en comparant les noms de métiers traduits de maniere incorrecte au masculin et de maniere correcte au féminin, quelle que ce soit la langue source, les mots qui ont un taux tres élevé d'erreurs ou de réponses correctes sont toujours les memes. De plus, on peut regrouper les noms de métiers qui sont traduits correctement au féminin en utilisant les 10 catégories de la taxonomie du projet ESCO qui, comme nous l'avons dit auparavant, s'inspire de la classification ISCO-08 : nous avons pu ainsi identifier que le secteur ayant une couverture majeure est celui des « Professions intellectuelles et scientifiques » (tableau 13).
Conclusions
L'hypothese d'une influence des adjectifs est partiellement confirmée : les taux de résultats corrects sont clairement déséquilibrés en faveur des noms au masculin pour lesquelles la présence des adjectifs de compétence et d'apparence ne semblent jouer aucun rôle lors de la traduction. En revanche, pour les noms au féminin le taux d'erreur est bien plus élevé et le rôle des adjectifs d'apparence et de compétence semble jouer un rôle déterminant. Cela impliquerait que dans le cas d'une performance déja basse - due aussi a une biodiversité insuffisante des données dans le corpus d'entraînement de l'algorithme d'intelligence artificielle - la présence d'adjectifs liés a l'apparence et a la compétence rend la representation encore moins stable en raison de l'existence d'un stéréotype.
Des études futures en ce domaine pourraient contribuer a approfondir cette question, en élargissant la liste des adjectifs pour couvrir un spectre sémantique plus ample.
Eleonora Marzi est linguiste a l'Université de Bologne. Elle s'occupe d'interculturalité et d'analyse du discours en s'appuyant sur des technologies informatiques telles que le web sémantique et le traitement du langage naturel. Parmi ses derniers articles, citons : « Le texte liquide entre linéarité et causalité : les caractéristiques de l'hypertexte dans la littérature numérique » (2021), « L'implicito nella linguistica: uno studio sull'immaginario letterario nella pubblicita » (2020), « La néonymie a l'épreuve de la textométrie : le cas du terme francisation » (2020).
Notes
1. Un des principaux supporteurs de cette approche et aussi fondateur de la moderne « Science de la traduction » fut le linguiste américain Eugene Nida (1969).
2. Voir, entre autres, Luise Von Flotow, L. (2011) et Anne-Emmanuelle Berger (2019).
3. Le langage épicene ou rédaction épicene vise a éviter le sexisme du langage, grâce a l'usage de techniques de reformulation lexicale, syntaxique, l'attention a l'accord morphologique et a la typographie. Le langage épicene permet d'éviter la discrimination de genre et rejette l'idée d'un androcentrisme marqué par l'utilisation du masculin comme universel générique. Â ce sujet, voir, entre autres, Éliane Viennot (2014) et Luca Greco (2014).
4. https://blog.google/products/translate/reducing-gender-bias-google-translate
5. https://ai.googleblog.com/2018/12/prov'ding-gender-spedfic-translations.htiTil Voir aussi Dave Paresh (2018).
6. ESCO est un projet de la Commission Européenne qui organise une ontologie multilingue en trois piliers : professions, compétences et certifications.
7. Â chaque métier équivaut un code ISCO 08 qui est superposable a la catégorie ESCO. Voir : https://ec.europa.eu/esco/portal/occupation?resetLanguage=true&newLanguage=fr
8. Date de derniere consultation des sites : 7 février 2021.
Bibliographie
Baeza-Yates, R. 2018. « Bias on the web ». Communications of the ACM, n°61 (6), p. 54-61.
Baroni M. et al. 2008. The WaCky Wide Web : A Collection of Very Large Linguistically Processed Web-Crawled Corpora. Pays-Bas : Kluwer Academic Publishers.
Berger, A.-E. 2019, « Le genre de la traduction : introduction ». Revue De Genere, n°5, p. I-XII.
Cardon, D. et al. 2018. « La revanche des neurones. L'invention des machines inductives et la controverse de ['intelligence artificielle ». Réseaux, n° 211 (5), p. 173-220.
Costa-Jussa, M. R. 2019. « An analysis of gender bias studies in natural language processing ». Nature Machine Intelligence, n° 1(11), p. 495-496.
Criado-Perez, C. 2019. Invisible Women: Exposing Data Bias in a World Designed for Men. Londres : Chatto & Windus.
Eco, U. 1964, Apocalittici e integrati. Milan : Bompiani.
Eco, U. 2003, Dire presque la meme chose. Traduction de M Bouzaher. Paris : Grasset [or. Dire quasi la stessa cosa, Milan : Bompiani].
Federici, E. (dir.) 2011. Translating Gender. Berne : Peter Lang.
Greco L. 2014. « Les recherches linguistiques sur le genre : un état de l'art ». Langage et société, n° 148 (2), p.11-29.
Jones, J. J. et al. 2020. « Stereotypical Gender Associations in Language Have Decreased Over Time ». Sociological Science, n° 7, p. 1-35.
Loffler-Laurian, A-M. 1996, La traduction automatique, Presses universitaires du Septentrion : Villeneuve d'Ascq.
Monti, J. 2017. « Questioni di genere in traduzione automatica ». In : De Meo, A., Di Pace, L., Manco, A. Al femminile, scritti linguistici in onore di Cristina Vallini. Florence : Franco Cesati editore, p. 411-431.
Morel, H. 2020 « Au-dela de la langue, les femmes invisibles ». Cahiers d'histoire. Revue d'histoire critique, p. 147-148.
Nida, E., Taber, C.R. 1969. The Theory and Practice of Translation. Leiden : E.J. Brill.
Prates, M. et al. 2019. « Assessing Gender Bias in Machine Translation - A Case Study with Google Translate ». Neural Computing and Application. Londres : Springer. [En ligne] : https://arxiv.org/pdf/1809.02208.pdf [consulté le 07 février 2021].
Nirenburg, S., et al. 2003. Readings in Machine Translation. Cambridge, Massachussets : The MIT Press.
Paresh, D. 2018. « Fearful of bias, Google blocks gender-based pronouns from new AI tool ». [En ligne] : https://news.trust.org/item/20181127055628-022s5 [consulté le 07 février 2021].
Stanovsky, G. et al. 2019. « Evaluating Gender Bias in Machine Translation ». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Firenze.
Viennot, E. 2014. Non, le masculin ne l'emporte pas sur le féminin. Paris : Editions iXe.
Von Flotow, L. 2011. Gender in Translation. Amsterdam-Philadelphia : John Benjamins Publishing Company.
Weaver, W. 1949. Memorandum, New York : The Rockefeller Foundation.
Wilks, Y. 2009. Machine Translation, Its Scope and Limits. Londres : Springer.
Sitographie8
DeepL
https://www.deepl.com/translator
ESCO - European Skills Competences and Occupations
https://ec.europa.eu/esco/portal
Google Translate (GT)
https://translate.google.com
Microsoft Translator (MT) : https://www.microsoft.com/it-it/translator
You have requested "on-the-fly" machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Show full disclaimer
Neither ProQuest nor its licensors make any representations or warranties with respect to the translations. The translations are automatically generated "AS IS" and "AS AVAILABLE" and are not retained in our systems. PROQUEST AND ITS LICENSORS SPECIFICALLY DISCLAIM ANY AND ALL EXPRESS OR IMPLIED WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES FOR AVAILABILITY, ACCURACY, TIMELINESS, COMPLETENESS, NON-INFRINGMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Your use of the translations is subject to all use restrictions contained in your Electronic Products License Agreement and by using the translation functionality you agree to forgo any and all claims against ProQuest or its licensors for your use of the translation functionality and any output derived there from. Hide full disclaimer
© 2021. This work is published under https://creativecommons.org/licenses/by-nc-nd/3.0/fr/ (the“License”). Notwithstanding the ProQuest Terms and Conditions, you may use this content in accordance with the terms of the License.
Abstract
Au cours des dernieres années, la traduction automatique (TA) a fait des progres remarquables grâce a ['utilisation de réseaux de neurones artificiéis ; toutefois, l'intéret et le succes des logiciels de TA - rendus disponibles gratuitement pour le grand public - ont mis en évidence la présence de biais de genre dans les résultats obtenus. Ce biais pourrait dépendre d'une biodiversité insuffisante de données qui servent a l'entraînement des algorithmes d'intelligence artificielle. Prenant pour exemple les noms de métiers, cette étude entend vérifier si la présence de deux différents types d'adjectifs (d'apparence et de compétence) peut influencer la traduction automatique qui concerne le genre en allant du français vers l'italien ou vice-versa. La liste des noms de métiers analysés, qui a été rédigée a partir du systéme de classification des professions européennes ESCO (European Skills, Competences, Occupation), a permis de créer des phrases que nous avons fait traduire par trois moteurs de traduction automatique neuronale : Google Translate, DeepL, Microsoft Translator.