Resumen: Twitter es una red social y un canal de información importante en donde se puede obtener y procesar opiniones (tweets) en tiempo real que se puede explorar, analizar y organizar para tomar mejores decisiones. La minería de opiniones es una tarea del procesamiento de lenguaje natural que identifica las opiniones de los usuarios como positivas, negativas o neutrales. La COVID-19 es una enfermedad infecciosa causada por el coronavirus que apareció en diciembre de 2019 en China y provocó de inmediato un gran número de opiniones. Para permitir que las organizaciones de salud panameñas detecten oportunidades para mejorar la calidad de atención médica proponemos para clasificar los tweets el análisis de dos enfoques: deep learning y machine learning para apreciar cual es más preciso. Obtuvimos resultados alentadores con una precisión promedio del 95,6%.
Palabras-clave: Red social; Twitter; PLN; Deep learning; machine learning.
Abstract: Twitter is an important social network and information channel where opinions (tweets) can be obtained and processed in real time that can be explored, analyzed and organized to make better decisions. Opinion mining is a natural language processing task that identifies user opinions as positive, negative, or neutral. COVID-19 is an infectious disease caused by the coronavirus that appeared in December 2019 in China and immediately provoked a large number of opinions. To allow Panamanian health organizations to detect opportunities to improve the quality of medical care, we propose to classify the tweets the analysis of two approaches: deep learning and machine learning for to appreciate which is more precise. We obtained encouraging results with a precision of 95.6%.
Keywords: Social media; Twitter; NLP; deep learning; machine learning.
1.Introducción
Las redes sociales tienen una inmensa popularidad entre todos los usuarios. El acelerado y rápido crecimiento del contenido generado por los usuarios por ejemplo de Twitter, Facebook o Instagram es valioso y en gran medida este contenido está cargado de opiniones de diversas índoles que logran generar un sentimiento en las personas (Pires et al., 2020) . Esta tendencia, combinada con la rápida difusión del contenido en línea, ha convertido las opiniones online de los usuarios en un activo muy valioso. La investigación del análisis de opiniones inició a principios del año 2000 (Haddi et al., 2013). Grandes y pequeñas compañías como: Microsoft, Google, Hewlett-Packard y Adobe tienen sus propuestas para el análisis de opiniones sobre sus productos y servicios, en nuestro país ya podemos ver esta tendencia en establecimientos comerciales.
El análisis o minería de opiniones es una tarea de procesamiento del lenguaje natural (PLN) y la lingüística computacional que se encargan del tratamiento de opiniones, sentimientos y expresiones subjetivas (Pang & Lee, 2008). Lo que busca es conocer cuál es la polaridad de una opinión muchas veces categorizando dicha polaridad en positiva, negativa o neutral (Araque et al., 2015). El estudio de las opiniones en español está despertando el interés en los investigadores y desde hace años se hacen trabajos amparados tanto en aspecto semántico, así como con machine learning (ML) y el deep learning (DL). Conocer y recolectar la opinión pública está ganando impulso, particularmente en términos de toma de decisiones financieras, campañas de marketing, gustos de los clientes, preferencias de productos, movimientos políticos y estrategias de gobiernos para sus ciudadanos.
La inteligencia artificial (IA), en especial ML y DL nos permite crear modelos que pueden convertirse en referentes de a informática en la actualidad (Emanet et al., 2014). Uno de los grandes retos de la investigación panameña se centra en realizar modelos predictivos útiles que ayuden a las autoridades de salud en la toma de decisiones (Moreno & Lombardo, 2018). Poder medir o evaluar las opiniones de los panameños sobre una determinada enfermedad puede lograr que los encargados de la salud en Panamá preparen estrategias en beneficio de la población y realicen proyecciones futuras en caso de que esta enfermedad se prolongue.
Según la organización mundial de la salud (OMS) la COVID-19 es la enfermedad infecciosa causada por el coronavirus que se ha descubierto más recientemente, tanto el nuevo virus como la enfermedad eran desconocidos antes de que estallara el brote en Wuhan (China) en diciembre de 2019. En Panamá, el Ministerio de Salud (MINSA) comunicó el 9 de marzo 2020 que efectivamente una vez realizadas todas las pruebas en el Instituto Conmemorativo Gorgas se daba el primer caso de COVID-19 en nuestro país (Velavan & Meyer, 2020).
Desde ese este momento las redes sociales explotan de opiniones y mensajes sobre la COVID-19 y la red social Twitter es una de las más completas con datos e información relevante, logrando un incremento en sus usuarios. En nuestro país las opiniones en los diferentes generadores de contenido no se hicieron esperar, plataformas como Twitter, Facebook o Instagram ofrecieron sus portales para que el mundo esparciera sus ideas y comentarios. Es importante medir la respuesta pública a la pandemia de la COVID-19 y la red Twitter es una fuente de datos más importante para los estudios de infodemiología que involucran el monitoreo de la respuesta pública (Roy & Ojha, 2020). Realizar esta investigación nos ha dado conocimiento a través de los enfoques presentados y es posible tomar acciones por ejemplo para garantizar una mejor atención a los pacientes, monitorear la salud pública o mejorar el control de epidemias.
El objetivo de nuestro estudio es examinar las opiniones, discusiones, preocupaciones y sentimientos relacionados con la COVID-19 utilizando tweets y clasificarlos automáticamente a través de enfoques de ML y DL para detectar cual es el más preciso y permitir de esta forma que las organizaciones de salud panameñas detecten oportunidades para mejorar la calidad de atención médica.
El resto del documento se compone de las siguientes secciones: 2 marco teórico, 3 metodología, 4 resultados y 5 conclusiones.
2.Marco Teórico
Existe un gran interés en saber la opinión de las personas, en especial Twitter. Para los gobiernos, empresas y organizaciones esta opinión es de gran ayuda para establecer estrategias de mejoras en los servicios, productos y prestaciones. En la literatura, los autores han propuesto varios enfoques para el análisis de opiniones. Estos trabajos han utilizado dos principales técnicas, orientación semántica y aprendizaje automático. Con respecto a la primera técnica los trabajos utilizan diccionarios léxicos, es decir buscan cada palabra en el diccionario y asignan un valor que puede ser positivo, negativo o neutro. SentiWordNet (B. & M., 2016) y ML-Senticon (Priego Sánchez & Pinto, 2018) son algunos de los diccionarios más utilizados por los investigadores. Con este enfoque se han obtenido buenos resultados, la desventaja de este enfoque radica en el sentido diferente que puede tener una misma palabra ya sea positiva o negativa. Se han hecho propuestas como léxicos dependientes del dominio.
Con respecto al enfoque de aprendizaje automático, los autores utilizan algoritmos de clasificación como máquina de soporte vectorial (SVM) (Zainuddin & Selamat, 2014), Redes Bayesianas (Almarabeh, 2017) y árboles de decisión (Tanuja et al., 2011), entre otros. Para esta técnica, se necesitan dos conjuntos de datos, un conjunto de entrenamiento y un conjunto de evaluación. El conjunto de entrenamiento se utiliza para que el algoritmo aprenda de características del dominio. Mientras tanto, el conjunto de evaluación es utilizado para validar el modelo construido a partir del conjunto de entrenamiento. El rendimiento de la técnica de aprendizaje automático depende de la efectividad del método seleccionado para la extracción de características. Entre los métodos más utilizados se encuentran la bolsa de palabras (Korhonen et al., 2009), frecuencia de término y la frecuencia inversa del documento (TF IDF) (Erra et al., 2015), n-grams (Inniss et al., 2006) entre otros. Sin embargo, los trabajos más recientes para el análisis de opiniones se basan en técnicas de aprendizaje profundo.
Sin embargo en (Hu et al., 2015) se propone un marco de trabajo basado en redes neuronales para el análisis de sentimientos. Este marco se compone de dos fases principales. En primer lugar, los vectores de características se obtienen a través del conocimiento lingüístico y de dominio. En segundo lugar, se diseña una red neuronal profunda. Obteniendo buenos resultados. En su estudio (Islam & Zhang, 2016) proponen un marco de trabajo usando una red neuronal convolucional (CNN) para el análisis de sentimiento visual que busca predecir el sentimiento del contenido visual. La red se implementó usando Caffe y Python en una máquina Linux. Los resultados mostrados en el sistema propuesto logran alto rendimiento. En (Dos Santos & Gatti, 2014) proponen un enfoque para el análisis de sentimientos de textos breves. El enfoque se basa en una CNN (Yin et al., 2017), que se aplica en dos corpus: reseñas de películas y mensajes de Twitter. Los autores (Araque et al., 2017) definieron un enfoque basado en DL para la clasificación de sentimientos, utilizaron un modelo de inserción de palabras y un algoritmo de aprendizaje automático. Para evaluar el desempeño del enfoque propuesto, los autores utilizaron seis corpus disponibles públicamente en Twitter y reseñas de películas.
Finalmente (Ouyang et al., 2015), han representado un marco de trabajo de siete capas para analizar los sentimientos de las oraciones. Este marco de trabajo depende de una CNN y Word2vec para calcular la representación vectorial. El marco se verificó con un corpus de extractos de reseñas de películas.
Nuestro estudio propone la utilización de un corpus en español extraído de Twitter para la minería de opiniones donde se compara el enfoque ML y DL orientado al dominio de la salud y saber cuál es el más efectivo. Específicamente tweets sobre la COVID-19 en una región de la república de Panamá desde los primeros casos, para así conocer las opiniones, discusiones, preocupaciones y sentimientos de las personas sobre la enfermedad.
3.Metodología
La metodología aplicada en este estudio es mixta, en el aspecto cuantitativo, se hizo una extracción de opiniones desde la plataforma Twitter, teniendo un total de 50,000 publicaciones acerca de la pandemia de la COVID-19. Luego se realizaron dos fases, una para medir la efectividad de los algoritmos de ML y otra para medir la efectividad del DL de esta manera poder determinar cuál de los dos enfoques es el más preciso y que aportes le puede dar dicho estudio a las organizaciones de salud panameñas.
3.1.Aproximación a la polaridad del sentimiento
El método de detección de la polaridad se divide en tres pasos principales: (1) preprocesamiento del texto, (2) entrenamiento del algoritmo de aprendizaje automático/ entrenamiento de la red neuronal (3) detección de la polaridad del texto. La figura 1 muestra el diagrama de nuestro enfoque de detección.
El primer paso involucra preprocesar el texto del conjunto de datos o corpus para limpiarlo y corregirlo. Todos aquellos elementos sobrantes son eliminados para reducir el ruido en el conjunto de datos. Aquí se hacen tareas para cada tweet como: eliminar respuestas a los tweets de otros usuarios que se representan mediante cadenas empezando con @; eliminar las URL, es decir, las cadenas que comienzan con http: //; eliminar el carácter "#" de todos los hashtags porque, a menudo, solo el resto de la cadena forma una palabra legible que contribuye a una mejor comprensión del tweet. El segundo paso consiste en entrenar los algoritmos de clasificación de ML y DL. El tercer paso es detectar la polaridad y validar la precisión de los modelos.
3.2.Caso de estudio
Para el presente estudio llevamos a cabo una serie de experimentos con el fin de medir la efectividad de los métodos (ML y DL) en lo que respecta a la identificación de polaridad de características. A continuación, se proporciona una descripción detallada de estos experimentos.
3.2.i. Conjunto de datos
Los experimentos realizados en este trabajo implicaron el uso de un conjunto de tweets en español de la población panameña sobre la enfermedad de COVID-19. El corpus contiene 50,000 tweets, que fueron recopilados utilizando Twitter4J, una biblioteca de Java que facilita el uso de Twitter API (Bracha, 2004). Los tweets del conjunto de datos fueron etiquetados manualmente, para así poder evaluar nuestro modelo propuesto. Esta tarea implica leer cada tweet e identificar su polaridad. La figura 2 muestra un extracto del conjunto de datos utilizados.
3.2.2.Clasificación con ML
Para probar el modelo con el enfoque ML utilizamos los algoritmos de máquina de soporte vectorial (SVM) (Khairnar & Kinikar, 2013), las redes bayesianas (Nakra et al., 2019), los árboles de decisión (Yang et al., 2020) entre ellos el Random Forest (RF) que son los algoritmos de aprendizaje supervisado más utilizados para la tarea clasificación de opiniones.
El clasificador Naive Bayes (NB) es uno de los más representativos de las redes bayesianas usa el teorema de Bayes. En términos simples, un clasificador Bayesiano asume que la presencia de una característica particular en una clase no está relacionada con la presencia de cualquier otra característica. SVM es un algoritmo de aprendizaje automático supervisado que se puede utilizar tanto para tareas de clasificación como de regresión. SVM realiza la clasificación al encontrar el hiper plano que diferencia las clases que trazamos en el espacio n-dimensional (Mun et al., 2017). Los RF (Nguyen et al., 2013) son algoritmos que mezclan una combinación de árboles predictores tal que cada árbol depende de los valores de un vector aleatorio probado independientemente y con la misma distribución para cada uno de estos.
Se ha decidido trabajar con la herramienta de programación Python (Ren, 2021) que ofrece muchos beneficios para los que desean integrarse en el contexto de IA, pues posee una enorme cantidad de librerías que facilitan las tareas, entre ellas tenemos: Sklearn, NumPy y Pandas (Varoquaux et al., 2015). Hemos recurrido a un vector de características para realizar la tarea de clasificación, usamos la técnica de vectorización o bolsa de palabras. En este paso se convertimos el texto en una matriz en la que cada palabra es una columna cuyo valor es el número de veces que dicha palabra aparece en el texto. Antes de entrenar el modelo tenemos que dividir el conjunto de datos en conjunto de datos utilizado en entrenamiento y prueba, esta tarea la realizamos utilizando el módulo de Sklearn train_test_split. Entrenamos el algoritmo de clasificación a través de los vectores de características. Aplicamos los algoritmos NB, SVM y también RF.
3.2.3.Clasificación con DL
DL fue propuesto por primera vez por Hinton en 2006 (Widiastuti, 2018) es parte del ML y se refiere a la utilización de una red neuronal profunda (DNN). La red neuronal artificial (ANN) son modelos de aprendizaje inspirados en las funciones de las redes neuronales biológicas del cerebro humano y dependen de una gran cantidad de entradas (características o representación de datos), poseen capas ocultas entre las capas de entrada y salida. Por lo tanto, a partir de una entrada determinada, pueden aprender características (capas ocultas) y dar una clasificación. Estos enfoques han tenido mucho éxito en PLN para etiquetado, fragmentación, reconocimiento de entidades con nombre y etiquetado de roles semánticos (Collobert et al., 2011). DL incluye muchos tipos de redes como CNN (Redes neuronales convolucionales), RNN (Redes neuronales recurrentes Redes), DBN (Deep Belief Networks) y muchos más.
ANN son muy beneficiosas en generación de texto, representación de vectores, representación de palabras estimación, clasificación de oraciones, modelado de oraciones y presentación de características, es un área emergente del aprendizaje automático que ofrece métodos para aprender la representación de características de forma supervisada dentro de una jerarquía. Por lo tanto, las capas altas en la jerarquía tendrán una representación más abstracta que las capas inferiores. Las capas altas evolucionan durante el entrenamiento para explotar funciones complejas de composición no lineal de las capas (Rojas-Barahona, 2016).
En nuestro estudio usamos la librería sentiment-spanish de Python con Keras que utiliza CNN para predecir el sentimiento de las oraciones en español. Keras, nos permitió definir un modelo de entrada múltiple, definimos este modelo con tres canales de entrada para procesar n-grams de texto de tweets. De los tres canales se obtiene una salida que se concatenan en un vector, lo que nos va a permitir obtener los resultados y la precisión del modelo.
Nuestra red neuronal está compuesta por pequeñas unidades de procesamiento o neuronas, que se conectan entre sí por conexiones ponderadas. Así, una neurona se activa cuando recibe una señal, luego, extiende la activación a todas las neuronas conectadas a ella. Este método tiene la característica de que debemos asignar variables para que almacene el tweet para luego analizar el sentimiento, teniendo en cuenta: al acercase a cero se considera una frase neutra, al ser menos que cero una frase negativa y si es mayor a cero una frase positiva. En la figura 3 podemos ver un extracto al analizar la frase contenida en una variable el sentimiento se acerca a cero por lo que la está clasificando como neutra.
En la librería Sciklearn de Python podemos encontrar métodos para realizar las métricas y poder evaluar los modelos así que para nuestro estudio hemos usado la herramienta accuracy_score, para calcular la precisión del clasificador entrenado. A continuación, les mostramos los resultados encontrados.
4.Resultados
En general los resultados encontrados son prometedores y confirman la eficacia de nuestro método para identificar la polaridad de sentimientos dentro de los tweets referentes a la enfermedad de COVID-19 en la población panameña. Como podemos observar la tabla 1 se muestran los resultados de la precisión de los clasificadores.
La figura 4 muestra una representación grafica de los resultados de la evaluación.
Después de realizar los experimentos sobre el conjunto de datos en donde aplicamos distintos algoritmos de aprendizaje automático (ML y DL) para la tarea de clasificación de mensajes el rendimiento global obtenido es positivo, ya que cada algoritmo mostró métricas superiores al 93% en exactitud. Aplicamos distintos enfoques para clasificación automática de ML y DL, en conjunto los dos enfoques obtuvieron buenos resultados sin embargo para nuestro experimento nos resultó mejor el clasificador Random Forest, lo que marca un precedente para otros trabajos similares.
La precisión es un tema importante en el análisis de sentimientos. La precisión aún puede mejorarse, consideramos haciendo una selección más cuidadosa del conjunto de datos y el etiquetado de polaridad, puesto que en el corpus utilizado muy bien se ven textos valorados como positivos y que pudiesen ser lo contrario, mucho de esto por la manera de expresarse en distintos sitios del país. En cuanto a la red neuronal puede mejorarse si tenemos más capas. Por lo tanto, este tipo de desafíos se pueden resolver utilizando enfoques innovadores.
Las contribuciones de este artículo son varias: Primero, desarrollamos un modelo para el análisis de sentimientos basado en dos enfoques ML y DL utilizando varios clasificadores supervisados como: SVM, RF, NB y una red neuronal tipo CNN. En segundo lugar, llevamos a cabo varios experimentos para comparar el rendimiento de estos modelos. Para ello, utilizamos un conjunto de datos públicos que fueron extraídos de la red social Twitter. Tercero, este clasificador sirve como base para comparar trabajos futuros en el país.
5.Conclusiones
Sabemos que en la actualidad existen varias herramientas capaces de realizar procesamiento de texto en forma de análisis de sentimiento. Sin embargo, nuestro objetivo fue detallar dos métodos precisos de la utilización de esta técnica y poder demostrar cuál de las dos es más efectiva a manera de que puedan ser consideradas en sistemas expertos que buscan saber la opinión de las personas de una manera fácil, rápida y precisa. En este caso se observó que la población panameña tiene una opinión negativa en cuanto a la pandemia de la COVID-19, motivo por el cual las autoridades de salud deberían establecer más mecanismos de información de la enfermedad para tener informada a la ciudadanía sobre los aspectos mas relevantes de esta enfermedad.
Como trabajo futuro consideramos ampliar el rango de tweets por ejemplo efectuar un análisis completo de la región centroamericana y aplicar otros algoritmos de clasificación para medir su rendimiento y eficiencia.
Agradecimientos
Agradecimientos a la Secretaría Nacional de Ciencia, Tecnología e Innovación (SENACYT, Panamá). Como también al Sistema Nacional de Investigación SNI-SENACYT del cual, dos de los autores son miembros. Asimismo, al Centro Regional de Panamá Oeste de la Universidad Tecnológica de Panamá (CRPO-UTP).
Contribución de los Autores
Conceptualización, DCM, MV.; Metodología, DCM, MV, NN; análisis formal, DCM, NN; investigación, DCM, MV, NN; escritura-original DCM, MV; escritura-revisión y edición, DCM, MV; autor de correspondencia, MV.
Referencias
Almarabeh, H. (2017). Analysis of Students' Performance by Using Different Data Mining Classifiers. International Journal of Modern Education and Computer Science, 9(8), 9-15. https://doi.org/10.5815/ijmecs.2017.08.02
Araque, O., Corcuera-Platas, I., Sánchez-Rada, J. F., & Iglesias, C. A. (2017). Enhancing deep learning sentiment analysis with ensemble techniques in social applications. Expert Systems with Applications, 77, 236-246. https://doi.org/10.1016/j. eswa.2017.02.002
Araque, O., Corcuera, I., Román, C., Iglesisas, C. A., & Sánchez-Rada, J. F. (2015). Aspect based Sentiment Analysis of Spanish Tweets. Tass 2015, 29-34.
B., V., & M., B. (2016). Analysis of Various Sentiment Classification Techniques. International Journal of Computer Applications, 140(3), 22-27. https://doi. org/10.5120/ijca2016909259
Bracha, G. (2004). Generics in the Java programming language. Tutorial, Sun Microsystems, Mar, atjava, suncom/j2se/15/pdf/generics-tutorialpdf. http://www.cmi.ac.in/~madhavan/courses/pl2005/reference/generics-tutorial. pdf%5Cnhttp://www.cmi.ac.in/%7B~%7Dmadhavan/courses/pl2005/reference/ generics-tutorial.pdf
Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., & Kuksa, P. (2011). Natural language processing (almost) from scratch. Journal of Machine Learning Research, 12, 2493-2537.
Deng, S., Sinha, A. P., & Zhao, H. (2017). Adapting sentiment lexicons to domain-specific social media texts. Decision Support Systems, 94, 65-76. https://doi.0rg/10.1016/j. dss.2016.11.001
Dos Santos, C. N., & Gatti, M. (2014). Deep convolutional neural networks for sentiment analysis of short texts. COLING 2014 - 25th International Conference on Computational Linguistics, Proceedings of COLING 2014: Technical Papers, 69-78.
Dubiau, L., & Ale, J. M. (2013). Análisis de Sentimientos sobre un Corpus en Español: Experimentación con un Caso de Estudio. 14th Argentine Symposium on Artificial Intelligence, ASAI 2013, 36-47. https://doi.org/1850-2784
Emanet, N., Öz, H. R., Bayram, N., & Delen, D. (2014). A comparative analysis of machine learning methods for classification type decision problems in healthcare. 1-20.
Erra, U., Senatore, S., Minnella, F., & Caggianese, G. (2015). Approximate TF-IDF based on topic extraction from massive message stream using the GPU. Information Sciences, 292, 143-161. https://doi.org/10.1016/j.ins.2014.08.062
Haddi, E., Liu, X., & Shi, Y. (2013). The role of text pre-processing in sentiment analysis. Procedia Computer Science, 17, 26-32. https://doi.org/10.1016/j. procs.2013.05.005
Hu, Z., Hu, J., Ding, W., & Zheng, X. (2015). Review Sentiment Analysis Based on Deep Learning. Proceedings - 12th IEEE International Conference on E-Business Engineering, ICEBE 2015, 87-94. https://doi.org/10.1109/ICEBE.2015.24
Inniss, T. R., Lee, J. R., Light, M., Grassi, M. a., Thomas, G., & Williams, A. B. (2006). Towards applying text mining and natural language processing for biomedical ontology acquisition. Proceedings of the 1st International Workshop on Text Mining in Bioinformatics - TMBIO '06, 7. https://doi.org/10.1145/1183535.1183539
Islam, J., & Zhang, Y. (2016). Visual sentiment analysis for social images using transfer learning approach. Proceedings - 2016 IEEE International Conferences on Big Data and Cloud Computing, BDCloud 2016, Social Computing and Networking, SocialCom 2016 and Sustainable Computing and Communications, SustainCom 2016, 124-130. https://doi.org/10.1109/BDCloud-SocialComSustainCom.2016.29
Kant, S., Menez, S. P., Hanouneh, M., Fine, D. M., Crews, D. C., Brennan, D. C., Sperati, C. J., & Jaar, B. G. (2020). The COVID-19 nephrology compendium: AKI, CKD, ESKD and transplantation. BMC Nephrology, 21(1), 1-13. https://doi.org/10.1186/ s12882-020-02112-0
Khairnar, J., & Kinikar, M. (2013). Machine Learning Algorithms for Opinion Mining and Sentiment Classification. International Journal of Scientific and Research Publications, 3(6), 1-6. www.ijsrp.org
Kontopoulos, E., Berberidis, C., Dergiades, T. & Bassiliades, N. (2013). Ontology-based sentiment analysis of twitter posts. Expert Systems with Applications, 40, 4065- 4074.
Korhonen, A., Silins, I., Sun, L., & Stenius, U. (2009). The first step in the development of Text Mining technology for Cancer Risk Assessment: identifying and organizing scientific evidence in risk assessment literature. BMC Bioinformatics, 10, 303. https://doi.org/10.1186/1471-2105-10-303
Moreno, D. C., & Lombardo, M. V. (2018). Ontología y Procesamiento de Lenguaje Natural. KnE Engineering, 3(1), 492. https://doi.org/10.18502/keg.v3i1.1453
Mun, S., Park, S., Han, D. K., & Ko, H. (2017). Generative adversarial network based acoustic scene training set augmentation and selection using SVM hyper plane. Workshop on Detection and Classification of Acoustic Scenes and Events, November.
Nakra, A., & Duhan, M. (2019). Comparative Analysis of Bayes Net Classifier, Naive Bayes Classifier and Combination of both Classifiers using WEKA. International Journal of Information Technology and Computer Science, 11(3), 38-45. https://doi.org/10.5815/ijitcs.2019.03.04
Nguyen, C., Wang, Y., & Nguyen, H. N. (2013). Random forest classifier combined with feature selection for breast cancer diagnosis and prognostic. Journal of Biomedical Science and Engineering, 06(05), 551-560. https://doi.org/10.4236/ jbise.2013.65070
Ouyang, X., Zhou, P., Li, C. H., & Liu, L. (2015). Sentiment analysis using convolutional neural network. Proceedings - 15th IEEE International Conference on Computer and Information Technology, CIT 2015, 14th IEEE International Conference on Ubiquitous Computing and Communications, IUCC 2015, 13th IEEE International Conference on Dependable, Autonomic and Se, 2359-2364. https://doi.org/10.1109/CIT/IUCc/DASC/PICOM.2015.349
Pang, B., & Lee, L. (2008). LR..references..Opinion Mining and Sentiment Analysis. In Foundations and Trends® in Information Retrieval (Vol. 2, Issues 1-2). https://doi.org/10.1561/1500000011
Pires, I. M., Marques, G., Garcia, N. M., Flórez-revuelta, F., Ponciano, V., & Oniani, S. (2020). A research on the classification and applicability of the mobile health applications. Journal of Personalized Medicine, 10(1). https://doi.org/10.3390/ jpm10010011
Priego Sánchez, B., & Pinto, D. (2018). Idiom polarity identification using contextual information. Computacion y Sistemas, 22(1), 27-33. https://doi.org/10.13053/ CyS-22-1-2791
Ren, Y. (2021). Python Machine Learning:Machine Learning and Deep Learning With Python. International Journal of Knowledge-Based Organizations, 11(1), 67-70.
Rojas-Barahona, L. M. (2016). Deep learning for sentiment analysis. Language and Linguistics Compass, 10(12), 701-719. https://doi.org/10.1111/lnc3.12228
Roy, A., & Ojha, M. (2020). Twitter sentiment analysis using deep learning models. 2020 IEEE 17th India Council International Conference, INDICON 2020. https://doi.org/10.1109/INDICON49873.2020.9342279
Sasikala, P., & Sheela, L. M. I. (2017). Comparative Study of Sentiment Analysis Techniques in Web. 8(5), 125-129.
Shen, Y., Li, S., Zheng, L., Ren, X., & Cheng, X. (2009). Emotion mining research on micro-blog. Proceedings - 2009 ist IEEE Symposium on Web Society, SWS 2009, 71-75. https://doi.org/10.1109/SWS.2009.5271711
Tanuja, S., Acharya, D., & Shailesh, K. R. (2011). Comparison of different data mining techniques to predict hospital length of stay. Journal of Pharmaceutical and Biomedical Sciences, 07(07).
Trstenjak, B., Mikac, S., & Donko, D. (2014). KNN with TF-IDF based framework for text categorization. Procedia Engineering, 69, 1356-1364. https://doi.org/10.1016/j. proeng.2014.03.129
Varoquaux, G., Buitinck, L., Louppe, G., Grisel, O., Pedregosa, F., & Mueller, A. (2015). Scikit-Learn: Machine Learning Without Learning the Machinery. GetMobile: Mobile Computing and Communications, 19(1), 29-33.
Velavan, T. P., & Meyer, C. G. (2020). The COVID-19 epidemic. Tropical Medicine and International Health, 25(3), 278-280. https://doi.org/10.1111/tmi.13383
Villena-román, J., & García-morera, J. (2013). TASS 2013 - Workshop on Sentiment Analysis at SEPLN 2013 : An overview TASS 2013 - Taller de Análisis de Sentimientos en la SEPLN 2013 : Introducción.
Widiastuti, N. I. (2018). Deep Learning - Now and Next in Text Mining and Natural Language Processing. IOP Conference Series: Materials Science and Engineering, 407(1). https://doi.org/10.1088/1757-899X/407Z1/012114
Yang, Q., Zhang, Y., Dai, W., & Pan, S. J. (2020). Transfer Learning in Natural Language Processing. Transfer Learning, 2010, 234-256. https://doi. org/10.1017/9781139061773.020
Yanmei, L., & Yuda, C. (2016). Research on Chinese Micro-Blog Sentiment Analysis Based on Deep Learning. Proceedings - 2015 8th International Symposium on Computational Intelligence and Design, ISCID 2015, 1, 358-361. https://doi.org/10.1109/ISCID.2015.217
Yin, W., Kann, K., Yu, M., & Schütze, H. (2017). Comparative Study of CNN and RNN for Natural Language Processing. http://arxiv.org/abs/1702.01923
Zainuddin, N., & Selamat, A. (2014). Sentiment analysis using Support Vector Machine. I4CT 2014 - 1st International Conference on Computer, Communications, and Control Technology, Proceedings, May 2016, 333-337. https://doi.org/10.1109/ I4CT.2014.6914200
You have requested "on-the-fly" machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Show full disclaimer
Neither ProQuest nor its licensors make any representations or warranties with respect to the translations. The translations are automatically generated "AS IS" and "AS AVAILABLE" and are not retained in our systems. PROQUEST AND ITS LICENSORS SPECIFICALLY DISCLAIM ANY AND ALL EXPRESS OR IMPLIED WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES FOR AVAILABILITY, ACCURACY, TIMELINESS, COMPLETENESS, NON-INFRINGMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Your use of the translations is subject to all use restrictions contained in your Electronic Products License Agreement and by using the translation functionality you agree to forgo any and all claims against ProQuest or its licensors for your use of the translation functionality and any output derived there from. Hide full disclaimer
© 2021. This work is published under https://creativecommons.org/licenses/by-nc-nd/4.0/ (the “License”). Notwithstanding the ProQuest Terms and Conditions, you may use this content in accordance with the terms of the License.
Abstract
Abstract: Twitter is an important social network and information channel where opinions (tweets) can be obtained and processed in real time that can be explored, analyzed and organized to make better decisions. Opinion mining is a natural language processing task that identifies user opinions as positive, negative, or neutral. To allow Panamanian health organizations to detect opportunities to improve the quality of medical care, we propose to classify the tweets the analysis of two approaches: deep learning and machine learning for to appreciate which is more precise. En su estudio (Islam & Zhang, 2016) proponen un marco de trabajo usando una red neuronal convolucional (CNN) para el análisis de sentimiento visual que busca predecir el sentimiento del contenido visual.
You have requested "on-the-fly" machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Show full disclaimer
Neither ProQuest nor its licensors make any representations or warranties with respect to the translations. The translations are automatically generated "AS IS" and "AS AVAILABLE" and are not retained in our systems. PROQUEST AND ITS LICENSORS SPECIFICALLY DISCLAIM ANY AND ALL EXPRESS OR IMPLIED WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES FOR AVAILABILITY, ACCURACY, TIMELINESS, COMPLETENESS, NON-INFRINGMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Your use of the translations is subject to all use restrictions contained in your Electronic Products License Agreement and by using the translation functionality you agree to forgo any and all claims against ProQuest or its licensors for your use of the translation functionality and any output derived there from. Hide full disclaimer
Details
1 Grupo de Investigación en Salud Electrónica y Supercomputación, Universidad Tecnológica de Panamá, Panamá
2 Facultad de Ingeniería de Sistemas Computacionales, Universidad Tecnológica de Panamá, Panamá





