Base de datos y recursos


Recursos regionalizados usando Twitter

Tuits por región (es)
Usuarios por región (es)

Corpus

Se colectaron mensajes georeferenciados de 2016 a 2019 usando el API de stream público de Twitter.
countrycodenumber of usersnumber of tweetsnumber of tokens
ArgentinaAR1,376K234.22M2,887.92M
BoliviaBO36K1.15M20.99M
ChileCL415K45.29M719.24M
ColombiaCO701K61.54M918.51M
Costa RicaCR79K7.51M101.67M
CubaCU32K0.37M6.30M
Dominican RepublicDO112K7.65M122.06M
EcuadorEC207K13.76M226.03M
El SalvadorSV49K2.71M44.46M
Equatorial GuineaGQ1K8.93K0.14M
GuatemalaGT74K5.22M75.79M
HondurasHN35K2.14M31.26M
MexicoMX1,517K115.53M1,635.69M
NicaraguaNI35K3.34M42.47M
PanamaPA83K6.62M108.74M
ParaguayPY106K10.28M141.75M
PeruPE271K15.38M241.60M
Puerto RicoPR18K0.58M7.64M
SpainES1,278K121.42M1,908.07M
UruguayUY157K30.83M351.81M
VenezuelaVE421K35.48M556.12M
-----
BrazilBR1,604K27.20M142.22M
CanadaCA149K1.55M21.58M
FranceFR292K2.43M27.73M
Great BritainGB380K2.68M34.62M
United States of AmericaUS2,652K40.83M501.86M
Total12M795.74M10,876.25M

Preprocesamiento

Solo se considera Twitter como fuente de datos. Los mensajes con URLs se descartan, lo mismo se hace con retweets y mensajes generados por aplicaciones (e.g., fourth square). Mensajes muy cortos también se descartan.

Los mensajes restantes se procesan como sigue:

  • minúsculas

  • se remueven las marcas de diacríticos

  • se agrupan hashtags, usuarios y números

    • números del 191-9 se mantienen, el resto se representa como 00

  • se normalizan repeticiones de símbolos (max. 2)

  • las risas se normalizan (4 letras)

  • las cadenas de puntuaciones se cortan a 3 símbolos

Los tokens pueden ser palabras, puntuaciones o emojis.

Ley de Zipf

Ley de Zipf para diferentes regiones (Twitter)

Ley de Heaps

Ley de Heaps para diferentes regiones (Twitter)
Introducción - Corpus - Recursos léxicos - Word embeddings - Modelos de lenguaje - Conclusiones
CC BY-SA 4.0 Eric S. Tellez . Last modified: January 24, 2023. Website built with Franklin.jl and the Julia programming language.