Investigadores de la UPV desarrollan sistemas que procesan el euskara hablado
Un grupo investigador de la UPV ha ideado sistemas que procesan y entienden la lengua hablada, especialmente en euskara, y obtienen automáticamente información de las radios y televisiones vascas.
GARA |
El Departamento de Ingeniería de Sistemas y Automática de la Escuela Universitaria Politécnica y de la Facultad de Informática de Donostia, dirigido por la profesora Miren Karmele López de Ipiña, ha desarrollado un tipo especial de búsqueda de información. A diferencia del resto de buscadores, recoge lo hablado en los archivos de audio, a menos que éstos ya lleven una explicación escrita de lo mencionado.
Reconocer el lenguaje del habla y convertirlo en texto «no es tarea fácil», según explicaron ayer los participantes del estudio. En este sentido, añadieron que existen varios obstáculos, como que en ocasiones las palabras no se distinguen adecuadamente unas de otras. Las señales físicas ocasionan ruido y se debe tener en cuenta la entonación. Por ello, existe un gran mercado de sistemas que procesan y entienden la lengua hablada; es decir, mecanismos que convierten el habla en texto escrito. Dichos sistemas se integran en servicios telefónicos, tales como cita previa, solicitud de productos y reservas de espectáculos.
También existen otros dispositivos; por ejemplo, el dictado automático, que se trata de un tipo de sistema que convierte al momento lo oral en escrito, como es el caso del proyecto de este estudio.
Para el procesamiento del habla, el sistema tiene que recibir un entrenamiento de algún tipo, conocido como máquina-estudio. Para ello, en primer lugar, se necesitan ficheros o archivos de audio de televisión o radio.
En segundo lugar, es necesario tener ciertos textos de referencia de lo dicho en esos medios de comunicación. Este grupo de investigación de la UPV, por ejemplo, ha utilizado ficheros de los informativos de ETB «Gaur Egun» y «Teleberri» para adiestrar al sistema.
Una vez finalizado el proceso de aprendizaje, el mecanismo deberá ser capaz de entender lo escuchado en cualquiera de esos informativos diarios. Aunque el proceso de aprendizaje es lento, una vez que el sistema interioriza las reglas o la información el resultado se obtiene rápidamente.
En realidad, la mayoría de las aplicaciones de este tipo que existen en el mercado tienen como objetivo las «lenguas grandes» como el inglés, y suelen tener una cantidad de datos im- presionante. En este caso los investigadores han trabajado con el euskara. También han utilizado el castellano y el francés. Así, en un futuro pretenden desarrollar un sistema capaz de comprender los tres idiomas.
Para el procesamiento del habla, el sistema tiene que recibir un entrenamiento con ficheros o archivos de audio de televisión o radio. También es necesario tener ciertos textos de referencia.