Estudiantes y profesores de la UAH participan en la elaboración del Corpus del Español del Siglo XXI


Un equipo de la UAH, capitaneado por la profesora Ana María Cestero y el profesor Francisco Moreno Fernández, participa en la elaboración de este CORPES, que se prolongará hasta 2018 gracias a un convenio con el Banco Santander.

Los estudiantes de Estudios Hispánicos de la UAH tienen la oportunidad única de formar parte de esta labor, promovida por la RAE.

Ana María Cestero.


-Profesora, para empezar, ¿qué es un Corpus y para qué se utiliza?
-Un Corpus es un conjunto detextos escritos y orales procedentes distintas fuentes: novelas, obras de teatro, guiones de cine, noticias de prensa, ensayos, transcripciones de noticiarios radiofónicos o televisivos, transcripciones de conversaciones… En nuestro caso, recoge textos orales y escritos procedentes de España, América, Filipinas y Guinea Ecuatorial, digitalizados. Comenzamos a colaborar con la RAE en su construcción en el año 2005, y en la actualidad están disponibles más de 170 millones de formas. En aquel primer momento, las únicas universidades colaboradoras éramos la Universidad Autónoma de Barcelona y la Universidad de Alcalá.
Ahora, se ha firmado un convenio hasta el año 2018 y el objetivo es que el conjunto textual en esta fecha sea de unos 400 millones de formas de la lengua común que hablan casi 500 millones de hablantes.
Por otra parte, el CORPES XXI es una herramienta esencial para el estudio de la lengua: de léxico, de gramática, de discurso... y es muy útil para cualquier investigador. Las entradas están codificadas en base a la zona geográfica de la que proceden sus autores, se recogen todas las variedades del español y clasificadas por temas.

-Una de las características principales de este proyecto en la UAH es que se hace gracias a la colaboración de los estudiantes
-Sí, formamos a nuestros estudiantes y son ellos los que se ocupan de etiquetar y digitalizar todas las entradas. Para nosotros, como profesores, es un privilegio que esta Universidad pueda formar a sus alumnos y ofrecerles esta oportunidad que no tienen en otros centros universitarios con Estudios Hispánicos. Reciben un certificado de la RAE y para su currículum es muy interesante.

-El CORPES es accesible vía Internet…

-Sí, se puede consultar mediante una aplicación informática que permite recuperar palabras o expresiones contextualizadas.

-La UAH es una universidad de referencia en este tipo de bases de datos relacionadas con el español
-Nuestra Universidad siempre ha sido una referencia en corpus. Tenemos corpus de conversaciones, los corpus sociolingüísticos del habla de Castilla-La Mancha –en colaboración con el CSIC- y coordinamos el proyecto PRESEEA, cuya función inicial es crear un macro corpus del español utilizado en núcleos urbanos.
Por tanto, contamos con una experiencia previa y eso se valoró al elegirnos para participar en el CORPES desde sus comienzos.

-El objetivo de esta nueva fase, hasta el año 2018, es registrar textos orales
-Seguiremos con textos escritos, pero está previsto que esta fase esté dedicada, de manera especial, a los textos orales. Intentamos que haya variedad temática y en los últimos tiempos han proliferado mucho este tipo de textos, que transcribimos y digitalizamos para ponerlos a disposición de todo el que esté interesado.

-Estamos en un momento en el que la evolución de la lengua, que es continua, se está acelerando. Al menos esa es la impresión tras la irrupción de los medios digitales…
-No sabemos si la evolución es más intensa, pero es cierto que el acceso a las fuentes, a los medios de comunicación, es mucho mayor a través de Internet, y las formas de comunicarse en determinados medios también están cambiando. Pero la evolución de una lengua no se puede percibir en una década o en dos décadas. Hay que hacer estudios en profundidad, a partir de este tipo de Corpus, para detectar los cambios.