Identificación de comentarios sexistas en textos en español utilizando un modelo pre-entrenado Transformer para Procesamiento de Lenguaje Natural

César Espín Riofrio; Joshua Ávila Vacas; María Pérez Pilco; Tania Peralta Guaraca

Autores/as

César Espín Riofrio Universidad de Guayaquil https://orcid.org/0000-0001-8864-756X
Joshua Ávila Vacas Universidad de Guayaquil https://orcid.org/0009-0001-6742-8058
María Pérez Pilco Universidad de Guayaquil https://orcid.org/0009-0005-7144-608X
Tania Peralta Guaraca Universidad de Guayaquil https://orcid.org/0000-0002-4879-6824

Palabras clave:

Sexismo, Procesamiento de Lenguaje Natural, Modelo Transformer

Resumen

En la época de la tecnología en la que nos encontramos, las redes sociales en línea han permitido que las personas expresen sus opiniones y se comuniquen entre sí pero, también han aumentado los comentarios y actitudes sexistas, lo cual es perjudicial para las personas, especialmente para las mujeres. Detectar manualmente el sexismo en línea es difícil debido a la gran cantidad de comentarios que se publican. Por esta razón, este artículo propone utilizar un modelo existente de aprendizaje automático para identificar comentarios sexistas en español, utilizamos el modelo pre-entrenado Transformer Pysentimiento, que clasifica y analiza el sexismo en textos en español. Los resultados se presentan en una interfaz web que muestra la predicción y la probabilidad de que cada comentario sea "Sexista" o "No sexista", utilizamos también mensajes extraídos de Twitter para realizar pruebas con el modelo. Demostramos así que es posible crear sistemas o servicios para la detección de sexismo utilizando un modelo Transformer pre-entrenado para ello. Esta tecnología puede ser valiosa para empresas, organizaciones e investigadores que deseen monitorear y prevenir el discurso sexista en línea.

Biografía del autor/a

César Espín Riofrio , Universidad de Guayaquil

Magister en Sistemas de Información Gerencial

Tania Peralta Guaraca , Universidad de Guayaquil

Magister en Ingeniería de Software y Sistemas Informáticos

Citas

Abburi, H., Parikh, P., Chhaya, N., & Varma, V. (2021). Fine-Grained Multi-label Sexism Classification Using a Semi-Supervised Multi-level Neural Approach. Data Science and Engineering, 6(4), 359–379. https://doi.org/10.1007/s41019-021-00168-y

Espin, C., Guamán, K. V., & García, R. Y. (2022). Classification and labeling of tweets from Ecuador to determine what topic they. 7(3), 1282–1295. https://doi.org/10.23857/pc.v7i3.3791

Jha, A., & Mamidi, R. (2017). W17-2902. 7–16.

Kalra, A., & Zubiaga, A. (2020). Sexism Identification in Tweets and Gabs using Deep Neural Networks. 1–10. https://itu.foleon.com/itu/measuring-digital-development/gender-gap/

Lampert Grassi, M. (2018). Definición del concepto de “sexismo”: influencia en el lenguaje, la educación y la violencia de género. Biblioteca del Congreso Nacional de Chile, 11. https://obtienearchivo.bcn.cl/obtienearchivo?id=repositorio/10221/26147/1/BCN_definicion_sexismo_FINAL.pdf

pysentimiento/robertuito-base-cased · Hugging Face. (s/f). Recuperado el 28 de enero de 2023, de https://huggingface.co/pysentimiento/robertuito-base-cased

Rodriguez-Sanchez, F., Carrillo-de-Albornoz, J., & Plaza, L. (2020). Automatic classification of sexism in social networks: an empirical study on Twitter data. IEEE Access, 219563–219576. https://doi.org/10.1109/ACCESS.2020.3042604

Shimi, G., Mahibha, J., & Thenmozhi, D. (2022). Sexism Identification In Social Media Using Deep Learning Models. CEUR Workshop Proceedings, 3202.

Ta, H. T., Rahman, A. B. S., Najjar, L., & Gelbukh, A. (2022). (2022). Transfer Learning from Multilingual DeBERTa for Sexism Identification. CEUR Workshop Proceedings, 3202.

Identificación de comentarios sexistas en textos en español utilizando un modelo pre-entrenado Transformer para Procesamiento de Lenguaje Natural

Autores/as

Palabras clave:

Resumen

Biografía del autor/a

César Espín Riofrio , Universidad de Guayaquil

Tania Peralta Guaraca , Universidad de Guayaquil

Citas

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Indice

Información

Palabras clave