Anólisis de métodos de clasificación y frecuencia de palabras para la autoría de textos en español
DOI:
https://doi.org/10.23857/dc.v8i4.3051Palabras clave:
Atribución de autorÃa, EstilometrÃa, Procesamiento de Lenguaje Natural, Machine Learning.Resumen
El uso de machine learning de la mano con la estilometría es de mucha importancia para la determinación de autoría de textos en español. Mediante una investigación exhaustiva de artículos relevantes y el establecimiento del estado del arte de lo que es la estilometría y los métodos de clasificación para machine learning hasta la actualidad, se pretende establecer las técnicas y características que mós nos beneficien para la atribución de autoría y por consiguiente entrenar y evaluar los métodos de clasificación utilizados. Se experimenta con librerías que contienen una biblioteca de estilometría, de la cual, se obtienen los métodos para extraer las características de tipo fraseológico. Se utiliza el dataset de las campañas PAN 2015 el cual otorga un corpus en español para varios autores. También se usa el corpus validado por la Real Academia Española de la Lengua llamado CREA con las palabras de uso mós frecuente en el idioma español, con esto se alimenta los clasificadores para machine learning y mediante el uso de validación cruzada y las métricas de evaluación se obtiene qué método presenta mejores resultados en la fase de entrenamiento.
Citas
Adebayo, G. O., & Yampolskiy, R. v. (2022). Estimating Intelligence Quotient Using Stylometry and Machine Learning Techniques: A Review. Big Data Mining and Analytics, 5(3), 163– 191. https://doi.org/10.26599/bdma.2022.9020002
Akcapinar Sezer, E., Sever, H., & Canbay, P. (2020). Deep Combination of Stylometry Features in Forensic Authorship Analysis. International Journal of Information Security Science, 9(3), 154–163. https://www.researchgate.net/publication/344408746
Bayes, T. (1763). Thomas bayes, an essay towards solving a problem in the doctrine of chances (1764). 199–207. https://doi.org/10.1016/B978-044450871-3/50096-6
Burrows, J. (2002). ‘Delta’: A Measure of Stylistic Difference and a Guide to Likely Authorship.
Literary and Linguistic Computing, 17(3), 267–287. https://doi.org/10.1093/llc/17.3.267
Charbuty, B., & Abdulazeez, A. (2021). Classification Based on Decision Tree Algorithm for Machine Learning. Journal of Applied Science and Technology Trends, 2(01), 20–28.
https://doi.org/10.38094/jastt20165
Chen, X., & Ishwaran, H. (2012). Random forests for genomic data analysis. Genomics, 99(6), 323–329. https://doi.org/10.1016/j.ygeno.2012.04.003
Cortes, C., & Vapnik, V. (1995). Support-Vector Networks. 20, 273–297.
Cover, T. M., & Hart, P. E. (1967). Nearest Neighbor Pattern Classfication. I, 1–28.
FredeRick, M., & David., W. (1964). Inference in an Authorship Problem. Journal of the American Statistical Association, 274(6), 509. https://doi.org/10.1001/jama.1995.03530060085046
GitHub - jpotts18/stylometry: A Stylometry Library for Python. (n.d.). Retrieved August 23, 2022, from https://github.com/jpotts18/stylometry
Juola, P., Sofko, J., & Brennan, P. (2006). A prototype for authorship attribution studies. Literary and Linguistic Computing, 21(2), 169–178. https://doi.org/10.1093/llc/fql019
Lutoslawski, W. (1898). Principes de stylomí©trie appliquí©s í la chronologie des Å“uvres de Platon.
Revue Des Études Grecques, 11(41), 61–81. https://doi.org/10.3406/reg.1898.5847
Maurya, R. K., Saxena, M. R., & Akhil, N. (2016). Intelligent Systems Technologies and Applications. Advances in Intelligent Systems and Computing, 384, 247–257. https://doi.org/10.1007/978-3-319-23036-8
Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65(6), 386–408. https://doi.org/10.1037/h0042519
Rumelhart, D. E., Hintont, G. E., & Williams, R. J. (1986). Learning Representations by Back- Propagating Errors. Cognitive Modeling, 2, 3–6. https://doi.org/10.7551/mitpress/1888.003.0013
Stoean, R., Preuss, M., Stoean, C., El-Darzi, E., & Dumitrescu, D. (2008). Support vector machine learning with an evolutionary engine. Journal of the Operational Research Society, 60(8), 1116–1122. https://doi.org/10.1057/jors.2008.124
Tweedie, F. J., Singh, S., & Holmes, D. I. (1996). Neural network applications in stylometry: The federalist papers. Language Resources and Evaluation, 30(1), 1–10. https://doi.org/10.1007/BF00054024
Publicado
Cómo citar
Número
Sección
Licencia
Authors retain copyright and guarantee the Journal the right to be the first publication of the work. These are covered by a Creative Commons (CC BY-NC-ND 4.0) license that allows others to share the work with an acknowledgment of the work authorship and the initial publication in this journal.