Descargas


Es posible descargar el corpus en dos formatos: TXT (las transcripciones en la versión accesible a través de la Consulta básica) y XML (las transcripciones con las etiquetas morfosintáticas disponibles a través de la Consulta avanzada).

Descargar el corpus en TXT

Esta versión permite descargar la versión actualizada del corpus disponible a través de la Consulta básica en tiempo real. Debe citarse:

 

Fernández-Ordóñez, Inés (dir.): Corpus oral y sonoro del español rural [fecha de la descarga].

Descargar el corpus etiquetado

Esta versión pone a disposición de los investigadores las diferentes versiones etiquetadas del corpus realizadas por F. Javier Pueyo Mena, mediante el paquete de librerías Freeling. Debe citarse:

 

Versión 3.0 (Mayo 2022) - Pueyo Mena, F. Javier: Corpus oral y sonoro del español rural etiquetado. Versión 3.0 [mayo 2022].

Versión 2.0 (Diciembre 2020): - Pueyo Mena, F. Javier: Corpus oral y sonoro del español rural etiquetado. Versión 2.0 [diciembre 2020].

 

1) Etiquetas XML utilizadas y sus atributos:

 

<turno>		id, mp3
<inf>
<HS>		id
<HCRUZ>	id
<NP>		id
<emisiones>	id
<VS>		id
<tempo>	id
<pron>		id
<pausas>	id
<lit>		id
<intel>		id
<gestos>	id
<interr>		id
<punct>		id, lemma, pos
<w>		id, lemma, pos

 

2) En el contenido textual de la marca <w> (palabra), la desambiguación de formas dialectales mediante la forma estándar se indica con el símbolo "=" (igual):

 

		<w id="8178" lemma="cada" pos="DI0CS0">ca=cada</w>

		<w id="11255" lemma="casa" pos="NCFS000">ca=casa</w>

		<w id="5132" lemma="cal" pos="NCFS000">ca=cal</w>

 

3) El contenido textual de la etiqueta <punct> lleva siempre el símbolo "~", antes o después del signo de puntuación, indicando que el signo es o bien de apertura:

 

		<punct id="9359" lemma="«" pos="Fra">«~</punct>

 

o bien de cierre:

 

		<punct id="9363" lemma="»" pos="Frc">~»</punct>

 

En algunas ocasiones será un símbolo redundante ya que el atributo "pos" de algunos signos de puntuación, ya indica este hecho: « (Fra), » (Frc), etc.

 

4) El atributo "id" del elemento <punct> es el mismo de la palabra (<w>) a la que o bien antecede:

 

		<w id="364" lemma="yo" pos="PP1CSN00">yo</w>
		<punct id="364" lemma="." pos="Fp">~.</punct>

 

o bien sigue:

 

		<punct id="345" lemma="¿" pos="Fia">¿~</punct>
		<w id="345" lemma="y" pos="CC">Y</w>

 

5) Los nombres propios que podían revelar la identidad de los entrevistados han sido anonimizados:

 

		<w id="2716" lemma="Anonimizado" pos="NP00000">Anonimizado</w>

 

Otros nombres propios de persona o de lugar se mantienen:

 

		<w id="5" lemma="dulantzi" pos="NP00000">Dulantzi</w>

 

6) El atributo "pos" contiene el análisis morfosintáctico de cada palabra mediante el conjunto de etiquetas EAGLES, siguiendo el formato desarrollado para el español en el paquete de librerías FreeLing. Dichas etiquetas han sido levemente adaptadas. Por ejemplo, los términos etiquetados por Freeling como "pronombres" posesivos (el tuyo) o indefinidos (artículo + uno, otro, más, poco, mucho) se han categorizado como adjetivos posesivos o cuantificativos, respectivamente. Los "determinantes indefinidos" se han agrupado como cuantificadores (un, algún, ningún, otro, mucho, poco, tanto, todo, cada, más, menos).