Recursos regionalizados para el procesamiento automático de datos de redes sociales (Twitter)


Modelos regionalizados para variantes del español basado en Twitter

Enero 2023

Eric S. Téllez -- CONACyT - CICESE - INFOTEC
Este es un trabajo en conjunto con Daniela Moctezuma, Sabino Miranda, Mario Graff, y Guillermo Ruiz

Sobre esta charla

En esta charla se muestran esfuerzos para medir la similitud entre variaciones del lenguaje en la red social Twitter, así como una serie de recursos regionalizados. Se espera sean de utilidad para la creación de modelos de clasificación de texto para tareas cuyo enfoque sea regional.

Mas información

@misc{https://doi.org/10.48550/arxiv.2110.06128,
  doi = {10.48550/ARXIV.2110.06128},
  url = {https://arxiv.org/abs/2110.06128},
  author = {Tellez, Eric S. and Moctezuma, Daniela and Miranda, Sabino and Graff, Mario and Ruiz, Guillermo},
  keywords = {Computation and Language (cs.CL), Computers and Society (cs.CY), Social and Information Networks (cs.SI), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {Regionalized models for Spanish language variations based on Twitter},
  publisher = {arXiv},
  year = {2021},
  copyright = {Creative Commons Attribution 4.0 International}
}

¡Acaba de aceptarse en la revista Linguistic resources and evaluation de Springer!.

Problema 1

Entender el lenguaje y los mensajes escritos en redes sociales.

  • Minería de opinión (análisis de sentimiento)

    • positivo :)

    • neutro :)

    • negativo :(

  • Análisis de tópicos

  • Carga emotiva de un mensaje: enojo, anticipación, disgusto, miedo, gozo, tristeza, sorpresa, confianza.

  • Identificación de humor

  • Identificación de lenguaje de odio

  • Etc.

Problema 2

Perfilado de usuarios por medio de sus mensajes escritos

  • Predicción indicadores socio-demográficos de los usuarios: edad, sexo, lugar de procedencia, ocupación, ...

  • Identificación de autoría: ¿quiénes escriben?, ¿cómo escriben?, ¿sobre qué escriben?

  • Entender como se comportan usuarios, ¿qué desean?, ¿por qué?

  • Medición de violencia en redes sociales: discurso de odio, xenofobia, racismo, misoginia, agresividad, cyberbulling...

  • Identificación de posibles trastornos mentales: ansiedad, depresión, adicciones, ...

  • Aplicaciones a seguridad, salud, políticas públicas, economía y finanzas, ...

Retos

  • Escritos informales: muchos errores, onomatopeya, importación de términos, variaciones regionales, emojis, entre muchos otros.

  • Contextos cortos, conocimiento del mundo.

  • Negación, sarcasmo, ironía, humor.

  • Semántica.

  • Recursos lingüísticos reducidos para lenguajes diferentes del inglés.

  • Multimedios.


Todo lo anterior puede regionalizarse, ya que un mismo lenguaje puede usarse de manera diferente en diferentes regiones.

La mayoría de los recursos se encuentran para el inglés. Los recursos en español suelen encontrarse en una forma aglutinada. Nuestra hipótesis es que para tareas dónde haya una fuerte carga cultura o de idiosincrasia el uso de recursos regionalizados es provechoso.

Entender las variaciones del lenguaje en las redes sociales es primordial ya que los mensajes suelen ser informales, y es común que los usuarios solo quieran ser leídos por su círculo de personas cercanas.

¿Cómo se ven los mensajes en diferentes regiones?

España

  • me dais ascooooikiiikioooooooooooooooooooooooooo

  • kina ñefla

  • ns cmo s exribe

  • o indeciso, nse ya x dnde cogerte colega

  • q os follennjajabya quisieran

  • en el metro q voy esta potando uno

  • _USR 😂😭💔☹️😰 pero por qué churra

Argentina

  • pofr suerxte m8ís amigo mo son psicópatassa

  • pal pinnngooo

  • _USR estos rompen todo! y la esposa del chorro me tiró en la cara q era planera, 5 hijos tiene. me grita: vos seguí alquilando! decí q no la agarro de los pelos x mi hijo q no le gusta el bardo.

  • y dsp se comió un asado, moooy booeno👌👌🤣😂

  • mi hno se pone re denso no lo banco

México

  • _USR ahora si! #achingarasumadre nefasto, corrupto y ratero, por mucho eres el peor alcalde que ha tenido _USR

  • ya me ando echando la primera ca** del año

  • _USR acá ya andaban con "la chica que soñé"

  • _USR ¿no se te olvidó ponerte calzones rojos hoy, verdad?

  • un minuto de silencio por los que se estan reventando los dedos y las manos con los cohetes !!!

Introducción - Corpus - Recursos léxicos - Word embeddings - Modelos de lenguaje - Conclusiones
CC BY-SA 4.0 Eric S. Tellez . Last modified: January 26, 2023. Website built with Franklin.jl and the Julia programming language.