Anólisis de métodos de clasificación y frecuencia de palabras para la autorí­a de textos en español

Autores/as

  • César Espín Riofrio Universidad de Guayaquil.
  • Alexis Proaño Indacochea Universidad de Guayaquil.
  • Christian Castro Martínez Universidad de Guayaquil.
  • Tania Peralta Guaraca Universidad de Guayaquil.

DOI:

https://doi.org/10.23857/dc.v8i4.3051

Palabras clave:

Atribución de autoría, Estilometría, Procesamiento de Lenguaje Natural, Machine Learning.

Resumen

El uso de machine learning de la mano con la estilometrí­a es de mucha importancia para la determinación de autorí­a de textos en español. Mediante una investigación exhaustiva de artí­culos relevantes y el establecimiento del estado del arte de lo que es la estilometrí­a y los métodos de clasificación para machine learning hasta la actualidad, se pretende establecer las técnicas y caracterí­sticas que mós nos beneficien para la atribución de autorí­a y por consiguiente entrenar y evaluar los métodos de clasificación utilizados. Se experimenta con librerí­as que contienen una biblioteca de estilometrí­a, de la cual, se obtienen los métodos para extraer las caracterí­sticas de tipo fraseológico. Se utiliza el dataset de las campañas PAN 2015 el cual otorga un corpus en español para varios autores. También se usa el corpus validado por la Real Academia Española de la Lengua llamado CREA con las palabras de uso mós frecuente en el idioma español, con esto se alimenta los clasificadores para machine learning y mediante el uso de validación cruzada y las métricas de evaluación se obtiene qué método presenta mejores resultados en la fase de entrenamiento.

Biografía del autor/a

César Espín Riofrio, Universidad de Guayaquil.

Magíster en Sistemas de Información Gerencial, Universidad de Guayaquil, Guayaquil, Ecuador.

Alexis Proaño Indacochea, Universidad de Guayaquil.

Universidad de Guayaquil, Guayaquil, Ecuador.

Christian Castro Martínez, Universidad de Guayaquil.

Universidad de Guayaquil, Guayaquil, Ecuador.

Tania Peralta Guaraca, Universidad de Guayaquil.

Magíster en Ingeniería de Software y Sistemas Informáticos Universidad de Guayaquil, Guayaquil, Ecuador.

Citas

Adebayo, G. O., & Yampolskiy, R. v. (2022). Estimating Intelligence Quotient Using Stylometry and Machine Learning Techniques: A Review. Big Data Mining and Analytics, 5(3), 163– 191. https://doi.org/10.26599/bdma.2022.9020002

Akcapinar Sezer, E., Sever, H., & Canbay, P. (2020). Deep Combination of Stylometry Features in Forensic Authorship Analysis. International Journal of Information Security Science, 9(3), 154–163. https://www.researchgate.net/publication/344408746

Bayes, T. (1763). Thomas bayes, an essay towards solving a problem in the doctrine of chances (1764). 199–207. https://doi.org/10.1016/B978-044450871-3/50096-6

Burrows, J. (2002). ‘Delta’: A Measure of Stylistic Difference and a Guide to Likely Authorship.

Literary and Linguistic Computing, 17(3), 267–287. https://doi.org/10.1093/llc/17.3.267

Charbuty, B., & Abdulazeez, A. (2021). Classification Based on Decision Tree Algorithm for Machine Learning. Journal of Applied Science and Technology Trends, 2(01), 20–28.

https://doi.org/10.38094/jastt20165

Chen, X., & Ishwaran, H. (2012). Random forests for genomic data analysis. Genomics, 99(6), 323–329. https://doi.org/10.1016/j.ygeno.2012.04.003

Cortes, C., & Vapnik, V. (1995). Support-Vector Networks. 20, 273–297.

Cover, T. M., & Hart, P. E. (1967). Nearest Neighbor Pattern Classfication. I, 1–28.

FredeRick, M., & David., W. (1964). Inference in an Authorship Problem. Journal of the American Statistical Association, 274(6), 509. https://doi.org/10.1001/jama.1995.03530060085046

GitHub - jpotts18/stylometry: A Stylometry Library for Python. (n.d.). Retrieved August 23, 2022, from https://github.com/jpotts18/stylometry

Juola, P., Sofko, J., & Brennan, P. (2006). A prototype for authorship attribution studies. Literary and Linguistic Computing, 21(2), 169–178. https://doi.org/10.1093/llc/fql019

Lutoslawski, W. (1898). Principes de stylomí©trie appliquí©s í la chronologie des Å“uvres de Platon.

Revue Des Études Grecques, 11(41), 61–81. https://doi.org/10.3406/reg.1898.5847

Maurya, R. K., Saxena, M. R., & Akhil, N. (2016). Intelligent Systems Technologies and Applications. Advances in Intelligent Systems and Computing, 384, 247–257. https://doi.org/10.1007/978-3-319-23036-8

Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65(6), 386–408. https://doi.org/10.1037/h0042519

Rumelhart, D. E., Hintont, G. E., & Williams, R. J. (1986). Learning Representations by Back- Propagating Errors. Cognitive Modeling, 2, 3–6. https://doi.org/10.7551/mitpress/1888.003.0013

Stoean, R., Preuss, M., Stoean, C., El-Darzi, E., & Dumitrescu, D. (2008). Support vector machine learning with an evolutionary engine. Journal of the Operational Research Society, 60(8), 1116–1122. https://doi.org/10.1057/jors.2008.124

Tweedie, F. J., Singh, S., & Holmes, D. I. (1996). Neural network applications in stylometry: The federalist papers. Language Resources and Evaluation, 30(1), 1–10. https://doi.org/10.1007/BF00054024

Publicado

2022-11-08

Cómo citar

Espín Riofrio, C., Proaño Indacochea, A., Castro Martínez, C., & Peralta Guaraca, T. (2022). Anólisis de métodos de clasificación y frecuencia de palabras para la autorí­a de textos en español. Dominio De Las Ciencias, 8(4), 476–489. https://doi.org/10.23857/dc.v8i4.3051

Número

Sección

Artí­culos Cientí­ficos

Artículos similares

También puede {advancedSearchLink} para este artículo.