Los modelos de lenguaje, Language Models (LM), son más sofisticados que los word-embeddings ya que para determinar el vector de una palabra considera el contexto de la misma, y muchos modelos también son capaces de generar apartir de lo aprendido.
Los modelos de lenguaje requieren una gran cantidad de datos, solo generamos recursos con MLM sobre AR, CL, CO, MX, ES, UY, VE, y US, i.e., los más grandes.
Todos los modelos tienen series de dos encoders con cuatro cabezas de atención cada una y una salida de 512 dimensiones por embedding
Corresponde al small-size del BERT original, y es lo que actualmente podemos con los recursos que contamos en un tiempo pagable (usamos una estanción de trabajo con dos NVIDIA TITAN RTX con 24 GB cada una).
Nombramos a nuestro modelo BILMA por Bert In Latin America.
Usamos un learning rate de con el optimizador Adam (usamos tensorflow 2 y Keras).
Los modelos para CL, UY, VE, y US se entrenaron con 3 epocas y AR, CO, MX, y ES con solo una, dado los tamaños de los corpus.
Se tuneó el modelo BILMA para predecir emoticones añadiendo dos capas lineales a los embeddings de inicio, por lo que se puede ver que se predice independiente de la posición.
Tuneado con 90%-10% del training set de la región hasta que el accuracy converge.
Se evaluó con test regional.
Observe que es una matriz de modelos pre-entrenados y tuneos.
Los resultados en general son muy similares a los modelos de fastText, pero, los modelos BILMA pueden hacer más cosas...