Andrea Freire, estudiante de postgrado del Departamento de Informática de la USM, destaca que este estudio se puede aplicar en la selección de profesionales, a fin de que hombres y mujeres tengan las mismas oportunidades.
Valparaíso, 12 de Noviembre de 2024.- Reducir el sesgo de género en vectores de palabras y contextos que son generados por modelos de lenguaje, es el objetivo de la investigación que realiza Andrea Freire, estudiante del Doctorado en Ingeniería en Informática de la Universidad Técnica Federico Santa María.
Para comprender de mejor forma esta iniciativa es importante destacar que los vectores de palabras, en términos simples, son representaciones numéricas de estas, lo que permite que los computadores puedan procesarlos y analizarlos de manera efectiva. “Para los vectores de palabras estoy trabajando con el modelo GloVe, mientras que el modelo de lenguaje es RoBERTa», explica Freire, destacando también que «hay que entender que el modelo de lenguaje es el cerebro de las aplicaciones, el cual se puede entrenar”.
“Reducción del sesgo de género en profesiones con perspectiva de género en vectores de palabras y vectores contextuales” es el nombre específico de esta investigación, que cuenta con la guía del Dr. Claudio Torres, académico del Departamento de Informática de la USM, y se concentra en la mitigación del sesgo en las profesiones. Lo anterior, destaca, porque básicamente “lo más importante es tener equidad, que todos tengamos las mismas oportunidades. Minimizar el sesgo es buscar igualdad, no es feminismo, busca la neutralidad, que hombres y mujeres sean visto como iguales por las capacidades que tienen y que no sea el género algo que los distingue”.
Modificaciones
Al consultarle de qué manera concreta se reduce el sesgo en el modelo, Andrea Freire precisa que “en la actualidad no existe un corpus (conjunto organizado de datos para hacer análisis o alimentar modelos de aprendizaje) que no tenga sesgo. Es muy costoso construirlo y por eso hay que hacerle cambios a medida que se va entrenando, los que se realizan a través de un balance de los datos por medio de inclusión de más información de mujeres y a veces duplicando la misma”.
Así, agrega, “el trabajo se hace con modificaciones en el corpus, en el conjunto de datos que entrena el modelo, haciéndose ahí los cambios para que se generen vectores sin sesgo, para que luego pasen a tareas de machine learning que son clasificaciones, por ejemplo”.
En concreto, Andrea Freire dice que lo anterior se podría aplicar a la selección de profesionales, donde “existen tomadores de decisiones que van a una plataforma como Linkedin, que es uno de los portales de trabajo más conocidos, y buscan mejores calificados en una posición que, generalmente muestra más hombres que mujeres porque tiene sesgo y eso es lo que precisamente se intenta evitar”.
Asimismo, la investigadora sostiene que “el sesgo de género es un tema social y que se pasa en los datos, entendiendo así que los datos son los que tienen el sesgo y lo que se dice es que el modelo amplifica el sesgo que encuentra los patrones”.
Por ejemplo, en biografías de personas en STEM, siempre hay más presencia masculina y ocurre lo mismo con artistas. “En general existen en estas áreas más presencia de hombres que mujeres, asociándose mucho a estas últimas con ser dueñas de casa y los hombres con temas más técnicos, y eso es precisamente lo que se intenta reducir. Además, la investigación podría extenderse a otros temas, no sólo las profesiones”, explica.
Buscando lo neutro
Por otro lado, la investigación de Andrea Freire también se ampliará al término no binario, ya que según detalla la profesional “la forma de incluir a todos es que sea algo neutral, en la actualidad no existe esto, por lo que la idea es ir analizando de qué manera incluirlo”.