Abstract

Translate

Sign language serves as a crucial mode of communication for individuals with hearing impairments, and its principles extend to hand gesture systems used in various technological applications, including machine operation and virtual reality. This dissertation presents the development and evaluation of a static American Sign Language (ASL) recognition system using Convolutional Neural Networks (CNNs), also known as ConvNets. The accuracy of such a system relies heavily on the availability of labeled training samples. This study addresses this challenge by proposing and investigating an effective method for generating labeled images for training ASL recognition models.

Initially, CNN models were trained and tested using a benchmark dataset to establish baseline performance metrics. Subsequently, an approach utilizing MediaPipe hand-tracking technology was developed to generate labeled samples, and the impact of incorporating these samples alongside benchmark data on model performance was evaluated. Furthermore, the study explored the potential benefits of applying existing data augmentation methods and Non-Local Means (NLM) denoising algorithms to enhance the combined dataset.

This dissertation makes three main contributions to the literature: (1) It identifies a CNN model that performs better than extant models for ASL recognition. (2) It demonstrates how labeled samples may be generated to train the model using MediaPipe. (3) It identifies a data augmentation method that further improves the performance of the model. The top-performing CNN model achieved a perfect accuracy of 100% when trained on the base dataset. When trained on the enhanced dataset, it maintained a high accuracy of 99.92%.

Alternate abstract:

La langue des signes joue un rôle crucial en tant que mode de communication pour les personnes malentendantes, et ses principes s'étendent aux systèmes de gestes de la main utilisés dans diverses applications technologiques, y compris le fonctionnement des machines et la réalité virtuelle. Cette thèse présente le développement et l'évaluation d'un système de reconnaissance de la Langue des Signes Américaine (ASL) statique utilisant des Réseaux de Neurones Convolutifs (CNN), également connus sous le nom de ConvNets. La précision d'un tel système dépend fortement de la disponibilité d'échantillons d'entraînement étiquetés. Cette étude aborde ce défi en proposant et en étudiant une méthode efficace pour générer des images étiquetées pour l'entraînement des modèles de reconnaissance de l'ASL.

Initialement, les modèles CNN ont été entraînés et testés à l'aide d'un ensemble de données de référence pour établir des métriques de performance de base. Par la suite, une approche utilisant la technologie de suivi des mains MediaPipe a été développée pour générer des échantillons étiquetés, et l'impact de l'incorporation de ces échantillons aux côtés des données de référence sur la performance du modèle a été évalué. De plus, l'étude a exploré les avantages potentiels de l'application des méthodes d'augmentation de données existantes et des algorithmes de débruitage Non-Local Means (NLM) pour améliorer l'ensemble de données combiné.

Cette thèse apporte trois contributions principales à la littérature : (1) Elle identifie un modèle CNN qui fonctionne mieux que les modèles existants pour la reconnaissance de l'ASL. (2) Elle montre comment les échantillons étiquetés peuvent être générés pour entraîner le modèle en utilisant MediaPipe. (3) Elle identifie une méthode d'augmentation de données qui améliore encore la performance du modèle. Le modèle CNN le plus performant a atteint une précision parfaite de 100 % lorsqu'il a été entraîné sur l'ensemble de données de base. Lorsqu'il a été entraîné sur l'ensemble de données amélioré, il a maintenu une précision élevée de 99,92 %.

Details

Title

Enhancing Sign Language Recognition and Hand Gesture Detection Using Convolutional Neural Networks and Data Augmentation Techniques

Author

Luke, Oladayo Ayokunle

Publication year

2024

Publisher

ProQuest Dissertations & Theses

ISBN

9798382596259

Source type

Dissertation or Thesis

Language of publication

English

ProQuest document ID

3054372234

Database copyright ProQuest LLC; ProQuest does not claim copyright in the individual underlying works.

Enhancing Sign Language Recognition and Hand Gesture Detection Using Convolutional Neural Networks and Data Augmentation Techniques

Jump to:

Abstract

Details

Suggested sources