Herramienta para la extracción y análisis de información obtenida de la red social Twitter, como apoyo a los procedimientos: nuevo registro calificado y renovación de registros
INVENTUM
Corporación Universitaria Minuto de Dios, Colombia
ISSN: 1909-2520
ISSN-e: 2590-8219
Periodicidad: Semestral
vol. 15, núm. 28, 2020
Recepción: 10 Enero 2020
Aprobación: 20 Marzo 2020
Publicación: 30 Mayo 2020
Resumen: El presente artículo se deriva del proyecto de investigación que se viene desarrollando en la ciudad de Popayán, Colombia, al interior del programa de Ingeniería de Sistemas de la Universidad Nacional Abierta y a Distancia (UNAD), el cual describe los avances preliminares del desarrollo de la herramienta de software denominada ARS-SIAVA, que permite la extracción de datos de las redes sociales, para identificar de una manera oportuna las tendencias tecnológicas en la formación académica, comportamientos del mercado laboral en las áreas de las tecnologías de la información (TI), tanto en contextos regionales, nacionales e internacionales, mediante la recolección y el análisis de información obtenida de la red social Twitter. Este insumo se convierte en una base para los procesos de autoevaluación en la renovación y obtención de nuevos registros calificados por parte del Ministerio de Educación Nacional, especialmente como apoyo a la justificación de los programas que corresponden a la condición 2 de los criterios de calidad establecidos por el Ministerio de Educación en la obtención de registros calificados. En el desarrollo de la investigación se contemplaron dos aspectos: una primera parte donde se realiza minería de textos, de la cual se obtienen datos mediante una API, que se recopilan en forma de tweets, importados a formato CSV, que es entendible para el lenguaje de programación R, y que previamente pasa por un proceso de depuración y adecuación de acuerdo con los requerimientos de este lenguaje. La segunda parte corresponde al análisis de sentimientos, para lo cual se dispone de un algoritmo que mediante un entrenamiento manual que por medio de Machine Learning, aprende y es capaz de predecir tendencias, las cuales se proyectan en gráficos, nubes de palabras además de tablas de frecuencias y visualización de datos estadísticos que pueden aportar en la toma de decisiones.
Palabras clave: abstracción, análisis de redes sociales, herramientas de visualización, redes sociales.
Abstract: This article is derived from the research project that is being developed within the systems engineering program of the National Open and Distance University UNAD, which describes the preliminary advances in the development of the software tool called ARS-SIAVA, which allow the extraction of data from social networks, to identify in a timely manner the technological trends in academic training, behaviors of the labor market in the areas of IT information technologies both in regional, national and international contexts; by collecting and analyzing information obtained from the Twitter social network. Allowing this input to be a basis for the self-assessment processes in the renewal and obtaining of new qualified records by the Ministry of National Education, especially in support of the justification of the programs that correspond to condition 2 of the established quality criteria by the Ministry of Education in obtaining qualified records. In the development of the research two aspects were considered: A first part where text mining is carried out, which obtains data through an API, data that is collected in the form of tweets, imported into CSV format which is understandable for the R programming language, which previously goes through a debugging and adaptation process according to the requirements of this language. The second part corresponds to the analysis of feelings, for which there is an algorithm to which a manual training is carried out that through Machine Learning learns and finally is capable of predicting trends, which are projected in graphics, word clouds as well of frequency tables and visualization of statistical data that can contribute to decision-making.
Keywords: abstraction, social network analysis, visualization tools, social networks.
Resumo: Este artigo é derivado do projeto de pesquisa que vem se desenvolvendo na cidade de Popayán, Colômbia, no Programa de Engenharia de Sistemas da National Open University y a Distancia (UNAD), que descreve o progresso preliminar do desenvolvimento da ferramenta de software chamada ARS-SIA- VA, que permite a extração de dados das redes sociais, para identificar em tempo hábil tendências tecnológicas em treinamento acadêmico, compor- tamento do mercado de trabalho nas áreas de tecnologia da informação (TI), ambos em contextos regionais, nacional e internacional, coletando e analisando informações obtidas na rede social Twitter. Esta entrada torna-se com base em processos de autoavaliação em renovação e obtenção de novos registros qualificados pelo Ministério de Educação Nacional, especialmente para apoiar a justificativa da programas que correspondem à condição 2 dos critérios de qualidade estabelecido pelo Ministério da Educação na ob- tenção de registros qualificado. No desenvolvimento da investigação, dois aspectos: uma primeira parte onde é realizada a mineração de texto, a par- tir do cujos dados são obtidos por meio de uma API, que é coletada na forma de tweets, importados para o formato CSV, o que é compreensível para o Programação R, e que anteriormente passa por um processo de depuração e adequação de acordo com os requisitos desta linguagem. o A segunda parte corresponde à análise de sentimentos, para a qual tem um algoritmo que por meio de treinamento manual que por meio de aprendizado de máquina, aprende e é capaz de prever tendências, que são projetados em gráficos, nuvens de palavras, além de tabelas frequências e visualização de dados estatísticos que podem contribuir na tomada de decisões.
Palavras-chave: abstração, análise de redes sociais, ferramentas de visualização, redes sociais.
Herramienta para la extracción y análisis de información obtenida de la red social Twitter, como apoyo a los procedimientos: nuevo registro calificado y renovación de registros
Resumen
El presente artículo se deriva del proyecto de investigación que se viene desarrollando en la ciudad de Popayán, Colombia, al interior del programa de Ingeniería de Sistemas de la Universidad Nacional Abierta y a Distancia (UNAD), el cual describe los avances preliminares del desarrollo de la herramienta de software denominada ARS-SIAVA, que permite la extracción de datos de las redes sociales, para identificar de una manera oportuna las tendencias tecnológicas en la formación académica, comportamientos del mercado laboral en las áreas de las tecnologías de la información (TI), tanto en contextos regionales, nacionales e internacionales, mediante la recolección y el análisis de información obtenida de la red social Twitter. Este insumo se convierte en una base para los procesos de autoevaluación en la renovación y obtención de nuevos registros calificados por parte del Ministerio de Educación Nacional, especialmente como apoyo a la justificación de los programas que corresponden a la condición 2 de los criterios de calidad establecidos por el Ministerio de Educación en la obtención de registros calificados. En el desarrollo de la investigación se contemplaron dos aspectos: una primera parte donde se realiza minería de textos, de la cual se obtienen datos mediante una API, que se recopilan en forma de tweets, importados a formato CSV, que es entendible para el lenguaje de programación R, y que previamente pasa por un proceso de depuración y adecuación de acuerdo con los requerimientos de este lenguaje. La segunda parte corresponde al análisis de sentimientos, para lo cual se dispone de un algoritmo que mediante un entrenamiento manual que por medio de Machine Learning, aprende y es capaz de predecir tendencias, las cuales se proyectan en gráficos, nubes de palabras además de tablas de frecuencias y visualización de datos estadísticos que pueden aportar en la toma de decisiones.
Palabras clave: abstracción, análisis de redes sociales, herramientas de visualización, redes sociales.
I. INTRODUCCIÓN
En los últimos años, las redes sociales han experimentado un crecimiento continuo y se han con- vertido en uno de los principales canales, si no el principal, para las marcas que disponen de una infinidad de plataformas, como Facebook, Twitter, y otras de nuevo nicho. El potencial del social media se hace evidente para muchas empresas, pero también complejo para otras. La situación actual en el sector del marketing y la comunicación presenta un desafío para los profesionales [1], sin embargo, y de acuerdo con las apreciaciones de Marian- ne Tournery, directora de proyectos de marketing de Kantar Media, “la vigilancia no es suficiente, es necesario saber interpretar los datos que tienes, por ello las herramientas de evaluación se vuelven esenciales. Cuando se gestiona bien, el seguimiento y el análisis de redes sociales son una herramienta excepcionalmente poderosa para mejorar la reputación de la marca, así como todas las actividades del negocio”.
Partiendo de lo antes mencionado y teniendo en cuenta que “en los procesos de solicitud, renovación y/o modificación de registro calificado de pro- gramas académicos, las instituciones de educación superior deben presentar un documento maestro con la información que permita verificar el cumplimiento de cada una de las 15 condiciones de calidad establecidas en el Artículo 2.5.3.2.2.1. “Evaluación de las condiciones de calidad de los programas, del Decreto 1075 de 2015”. Es menester que las instituciones realicen un verdadero análisis de todas sus condiciones, y este proyecto aportará información actualizada para la construcción de la condición 2, al obtener un análisis de las necesidades (actuales y futuras) de la población, de la región y de los sectores productivos afines al ámbito de formación del programa. Así mismo permite identificar la oferta regional actual de formación (en especial en el nivel de formación del programa en evaluación) y establece una propuesta académica teniendo en cuenta las tendencias nacionales e internacionales de formación en el campo.
De acuerdo con lo anterior se propone como objetivo, “aplicar técnicas de recolección y análisis de información de la red social Twitter, para identificar tendencias, necesidades, comportamientos y requerimientos de formación de los programas académicos” y esto conlleva a diseñar una herramienta que permite la recolección y análisis de información generada por la red social Twitter, a partir de ahí generar guías y herramientas de evaluación garantes, que brinden apoyo en la consecución,
verificación y visualización de información, asimismo instruir y dar las pautas necesarias para una buena captura de información desde la red social Twitter. Estos datos le permitirán a la Institución identificar las tendencias y necesidades del sector en cuanto a requerimiento de profesionales, capacitación en competencias, y planes de mejora, que permitan ser partícipes en la formación de las nuevas generaciones y aportar herramientas a los profesionales, para enfrentar los nuevos retos del entorno laboral y social.
II. METODOLOGÍA
El proyecto se desarrolló a partir de un enfoque mixto como lo indica [2], además se involucraron estudios cualitativos–cuantitativo de tipo descriptivo e interpretativo.
Para el logro de los resultados esperados en la investigación desde el contexto de las redes socia- les, se hace uso de: análisis ARS (Análisis de Redes Sociales), “un avance teórico y metodológico que investiga relaciones, enlaces, contactos, pautas relacionales y estructuras, es decir, redes. Las redes están compuestas de nodos (actores) y líneas (enlaces), y la finalidad es analizar todo este con- junto de nodos y líneas: la cohesión, los subgrupos, la centralidad de los nodos, la composición de los nodos y su relevancia en la creación de enlaces, y muchos otros procedimientos.” [3]
Se enmarca en lo cuantitativo dado que el ARS impone la medición tanto del número de posibles relacio nes existentes entre los involucrados, como también la dirección y profundidad de la red existente, para lo cual se utilizarán instrumentos de medición y visualización existentes en el software seleccionado.
En lo cualitativo, dado que se tendrán en cuenta las particularidades presentes en cada uno de los grupos objeto de estudio, en el proceso de la investigación se realizarán las indagaciones e interpretaciones de la información que se determina- rán y recopilarán desde el contexto descriptivo e interpretativo.
A. Procedimiento
El desarrollo de la investigación contempló 5 fases descritas a continuación con sus resultados.
Fase 1. Consulta de información relacionada con ARSV: para el desarrollo del proyecto se
consultaron diversos estudios, algunos de ellos aparecen en [4]. Uno de ellos es El caso de los representantes sectoriales en el Consejo Territorial de Planeación del Municipio de Arauca (2012–2015) [5], donde se identifica que “las universidades españolas se encuentran en un momento en el que han superado su adaptación al uso de las Tecnologías de la Información y de la Comunicación (TIC), no solo en su faceta más académica y de gestión, sino también en su uso como herramienta de comunicación y marketing” [6], en su texto Las redes sociales digitales en la gestión y las políticas públicas. Avances y desafíos para un gobierno abierto, un caso particular es el estudio de Análisis de redes sociales aplicado a redes de investigación en ciencia y tecnología, realizado en la Universidad de Valdivia, Chile, el cual “expone un sistema que toma los currículos de investigadores en ciencia
y tecnología de la plataforma SICTI para generar archivos de redes sociales, que sirven como entrada para software de análisis y visualización de redes sociales”. [7], [8] presentan el estudio Flujo documental entre áreas administrativas de una entidad bancaria: una aproximación desde el análisis de redes sociales (ARS) [9], en el que hacen una recopilación de 30 herramientas de análisis y visualización de las redes sociales. A continuación, se muestra una adaptación de algunas que se consideran pueden ser de utilidad para la investigación propuesta con lo que se da paso a la siguiente fase de la investigación.
Fase 2. Identificar una herramienta informática para captura de información: en la tabla 1 se presenta un resumen de algunas de las herramientas consultadas y analizadas.
A partir del análisis, revisión y comportamiento de las herramientas se decide construir una herramienta adecuada a los objetivos del proyecto, la cual se di- seña teniendo como lenguaje de programación R, en- tre sus ventajas se encuentra, que es un lenguaje de distribución gratuita bajo los términos de la General Public Licence (GNU), además contiene los archivos necesarios para instalar R, ya sea desde las fuentes o binarios pre compilados, los cuales se distribuyen desde una gran comunidad almacenada en el sitio de
Internet Comprehensive R Archive Network (CRAN), junto con las instrucciones de instalación.
Fase 3. Captura de información: a partir de lo an- terior se desarrolla una aplicación web interactiva, la cual se estructura bajo el lenguaje de programa- ción R, utilizado como entorno de desarrollo inte- grado (IDE) a RStudio versión 1.2.1335 o superior (Figura 1), interfaz que permite acceder de mane- ra sencilla a toda la potencia de R.
La aplicación web se ejecuta en cuatro pasos fun- damentales descritos así:
• Paso 1. Recolección de datos: se realiza través de API de Twitter y algoritmo en R.
• Paso 2. Pre-procesamiento de datos: se realiza “limpieza” de datos y transformación al forma- to deseado.
• Paso 3. Análisis de sentimiento: entrenar un clasificador (modelo) de tweets. Por ejemplo, positivo o negativo.
• Paso 4. Predicción: utilizar estadísticas de las etiquetas de los tweets para medir el senti- miento positivo o negativo.
La herramienta en desarrollo contiene un módulo para realizar recopilación de datos desde Twitter, su funcionamiento se establece mediante un clic desde un menú principal a la pestaña recopilar da- tos (Figura 2). La interfaz gráfica (Figura 4) está desarrollada por medio de una aplicación web, la cual se establece con una aplicación Shiny, que es una herramienta para crear aplicaciones web inte- ractivas, programada en lenguaje R.
Una de las funciones es establecer conexión con Twitter a través de la API (Interfaz de programación de aplicaciones), y realizar búsquedas de palabras clave, para lo cual también se diseñó una interfaz sencilla como se indica en la figura 3.
Con la información básica suministrada y validada, se continúa con el proceso de codificación y para- metrización, que se realiza a través de un script en R, y se establece la conexión y búsqueda en la base de datos de la plataforma de la red social.
alidación del script: para la construcción del módulo validar se construyó una interfaz gráfica
haciendo uso de la librería Shiny, con la que se lo gra el resultado que se indica en la figura 4.
Para caso práctico y ejemplo se realizó la búsqueda con la palabra clave “Empleo Ingeniero de sistemas” y finalizada la consulta el sistema imprime una tabla en pantalla y genera un archivo CSV con los twetts recopilados desde Twitter, este último se guarda en carpeta.
Fase 4. Preparación de información: este pro- ceso corresponde a la etapa previa a la importación de datos para realización de análisis de
sentimientos, la cual requiere el desarrollo de los siguientes pasos:
• Clasificación de los tweets.
• Limpieza de datos.
Una vez se ha realizado el proceso de organización, clasificación y depuración de los datos se procede a la carga y transformación de la información, como se indica en la figura 5.
Para el proceso de la minería de texto se constru yó un segundo módulo de análisis desde el menú principal de la herramienta desarrollada indicada en la figura 6.
Fase 5. Análisis de resultados: una vez se han lleva- do a cabo los procedimientos de limpieza de datos y estos son consistentes, resulta necesario realizar un análisis por medio de distintas pruebas estadísticas y gráficos que permitan describir las variables con
las que se trabaja y determinar las posibles relaciones entre ellas. La calidad del conjunto de datos finalmente obtenido determinará la robustez y fiabilidad de los resultados del proyecto [10].
Estos resultados son producto del análisis de sentimientos, para lo cual se debe haber realizado una clasificación manual del sentimiento antes de entrenar el modelo debido. El algoritmo debe aprender las reglas para clasificar los tweets, debe comprender por medio de la enseñanza de una persona, cuales tweets están asociados a sentimientos positivos o negativos, cuales combinaciones se de- ben relacionar como tweets positivos.
Obtención de reportes y gráficas: quizá después de todo el trabajo la parte importante es poder tener los datos interpretados de la siguiente manera:
Nube de palabras: ahora se va a crear una nube con las palabras más repetidas con la base de datos de tweets positivos. Para ello es necesario tener las pa labras agrupadas por frecuencias, para lograr esto es importante que el algoritmo pueda agrupar las pala bras por frecuencias, como se indica en la figura 7.
Es así como se obtiene la imagen de la nube de palabras con los tweets positivos, como se ve en la figura 8.
Histogramas y tablas de análisis: son otro tipo de datos como reportes que genera la aplicación, que
permiten una visualización de los resultados como se indica en la figura 9 y la tabla 2.
Como resultado del caso práctico de ejemplo, se puede evidenciar en la nube de palabras de la figu-ra 10 que hay una serie de palabras que se encuentran en el centro de la nube con un mayor tamaño de fuente, significa que son las palabras que más se repiten, entre otras, palabras como “Empleo”, “Machine” “Learning”, “Analyst”, “Dat”, “TIC”, “Senior” “Program”, son las palabras más usadas, y representan más del 69% del total de usos de las palabras en el Corpus
III. CONCLUSIONES: El uso apropiado de la herramienta de software ARS-SIAVA permite llevar a cabo la recopilación de información de la red social Twitter, clave para realizar análisis exitoso del caso de estudio en cuanto a tendencias tecnológicas, necesidades de formación en el sector de TI y en el entorno laboral, toda vez que ahorra recursos y permite obtener de primera mano datos estadísticos al respecto.El uso del lenguaje de programación R como interfaz de recopilación de datos brinda la posibilidad de realizar análisis de la información con un en-foque estadístico, información obtenida de la red social Twitter, la cual permite hacer predicciones, proyecciones, cálculos estadísticos y una gama amplia de formas de presentar la información.
El análisis de la información recolectada a través de la aplicación ARS-SIAVA dispone de un algoritmo al que se realiza un entrenamiento manual utilizando técnicas de Machine Learning, que es una derivación de inteligencia artificial, que crea sistemas capaces de aprender de forma automatizada, genera informes de tendencias, las cuales se proyectan en gráficos, nubes de palabras, tablas de frecuencias como visualización de datos estadísticos que pueden aportar para la toma de decisiones.
REFERENCIAS
[1] A. Orbani y C. Chacon. (2016). Guía de análi- sis y seguimiento de redes sociales «amic.me- dia». [En línea]. Disponible en: https://www. amic.media/media/files/file_352_815.pdf
[2] Z. Pereira. (2011). “Los diseños de método mixto en la investigación en educación: Una experiencia concreta”, Revista Electrónica Educare. Vol. XV, n°. 1, pp. 15-29, [En línea]. Disponible en: https://www.redalyc.org/ pdf/1941/194118804003.pdf
3] J. Cárdenas. (2016). Análisis de redes socia- les. «Networks provide happiness». [En línea]. Disponible en: http://networksprovidehappi- ness.com/analisis-de-redes-sociales-es/
[4] H. Alcántara. (2013). Análisis egocéntrico de redes sociales: El caso de los representantes sectoriales en el consejo territorial de planea- ción del municipio de Arauca (2012 – 2015). [En línea]. Disponible en: https://reposito- rio.unal.edu.co/handle/unal/20245
[5] A. Rodríguez y P. Santamaría. (2012). Análisis del uso de las redes sociales en Internet Facebook y Twitter en las Universidades Españolas «researchgate». [En línea]. Disponible en: https://www.researchgate. net/publication/277264445_Analisis_del_ uso_de_las_redes_sociales_en_Internet_ Facebook_y_Twitter_en_las_Universidades_ espanolas.
[6] M. Criado, Ramilo y D. Mercedes. (2012). Las Redes Sociales Digitales en la Gestión y las Políticas Públicas. Avances y Desafíos para un Gobierno Abierto, «Ucatalunya,». [En lí- nea]. Disponible en: https://www.academia. edu/27641025/Las_Redes_Sociales_Digita- les_en_la_Gesti%C3%B3n_y_las_Pol%C3%ADti- cas_P%C3%BAblicas._Avances_y_Desaf%C3%A- Dos_para_un_Gobierno_Abierto
[7] L. Navarro y J. Salazar. (2007). “Análisis de re- des sociales aplicado a redes de investigación en ciencia y tecnología”, Síntesis tecnológica. Vol. 3, n° 2. [En línea]. Disponible en: http:// revistas.uach.cl/pdf/sintec/v3n2/art03.pdf
[8] J. B. Montoya y T. C. Carvalho. (2016). “Flu- jo documental entre áreas administrativas de una entidad bancaria: una aproximación desde el análisis de redes sociales (ARS).” Biblios. n°. 62. [En línea]. Disponible en:
[9] D. Desale. (2016). “Análisis de Redes So- ciales”. [En línea]. Disponible en: http:// ars-uns.blogspot.com/2016/06/30-paque- tes-de-software-de-ars.html
[10] A. Arcón. (2017). “5 librerías de R para la limpieza y exploración de datos, «Universo Machine Learning”. [En línea]. Disponible en: https://conocemachinelearning.wordpress. com/2017/06/23/5-librerias-de-r-para-la- limpieza-y-exploracion-de-datos/