CELEN: Corpus de ELE en JapóN


Acceso abierto a la aplicación de consulta

https://ske.li/qqr

Descripción

El Corpus de ELE en Japón (CELEN) es un corpus de aprendices de español cuya primera lengua es el japonés. Los datos que lo forman proceden de diversos contextos: el ámbito universitario, donde el español puede estudiarse como asignatura de lengua extranjera o como carrera, y contextos de aprendizaje informal en Internet como blogs electrónicos y foros.


La versión 1.2, de abril de 2023, está compuesta por 6.196 textos escritos por 1.035  aprendices, con un total de 658.467 palabras (790.086 tokens). El número de textos y de tokens queda distribuido tal como muestran los siguientes gráficos (los colores representan categorías distintas en cada uno). Para más detalles, vea el apartado Estadísticas.

Porcentaje de textos

Porcentaje de tokens

Subcorpus

1. Universidad: español como carrera. Unas 228.000 palabras, 2.062 textos, 681 aprendices.

2. Universidad: español como asignatura de lengua extranjera. Universidad de Kioto: unas 144.000 palabras, 2.111 textos, 278 aprendices. Estudiantes de diversas facultades que toman el español como una asignatura anual de lengua extranjera. En el corpus se les asigna el nivel A1. Se incluyen todos los textos que escribieron como tarea en las clases impartidas por profesores nativos durante el año académico 2017 (hasta 8 textos). Para ello los estudiantes usaron varias herramientas de ayuda (corrector ortográfico, diccionario, Internet, etc.). Los datos han sido cedidos por el profesor Nobuyuki Tukahara, coordinador de las clases de español.

3. Internet: blogs electrónicos. Unas 268.000 palabras, 1.803 textos, 68 aprendices. Niveles A, B y C. Se ha seleccionado una muestra de hasta 5.000 palabras por autor (unos 27 textos de media), en blogs publicados en internet (en Blogspot, WordPress y Lang-8) entre 2004 y 2022. El periodo de seguimiento de estos aprendices es variable, desde un mes hasta más de 10 años. El proceso de recogida de los datos se describe en parte en Valverde (2016 y 2018). Parte de los datos proceden del corpus NAIST Lang-8, cuyas características se describen en Mizumoto et al. (2011).  

4. Internet: foro de WordReference. Unas 19.000 palabras, 220 textos, 8 autores. Nivel C2. Se incluye una muestra de hasta 5.000 palabras por autor (unos 28 mensajes por autor), de intervenciones en el foro "Sólo español" de WordReference, por parte de participantes cuya primera lengua es el japonés. Las intervenciones fueron escritas entre 2008 y 2019, y el periodo de seguimiento de cada autor es variable: desde 0 meses, si solo publican una intervención, hasta 9 años desde la primera hasta la última. Los datos proceden del corpus WordReference, descrito con más detalle en Berdicevskis (2020).  

Aprendices

Aprendices_tabla

Destinatarios

CELEN nació con una vocación pedagógica: el objetivo principal es facilitar el uso de los corpus a los profesores de español, con vistas a su aplicación en la formación de profesores, el diseño de materiales, la planificación curricular o la investigación.

Se trata de un corpus abierto, pues esperamos que el corpus se amplíe y que otros investigadores puedan albergar sus textos en él para ofrecer a la comunidad científica una amplia muestra de aprendices japoneses de español.

Anotación

Cada documento lleva asociados varios metadatos sobre el aprendiz y sobre las características del texto: edad, conocimientos de español, estancias en países hispanos, tema del texto, fecha, número de palabras requerido, situación, etc. La base de datos contiene 39 campos en total pero la cantidad de información disponible varía según el subcorpus

Los textos han sido anotados automáticamente con el lema, la categoría gramatical y las propiedades morfosintácticas de cada palabra, mediante el etiquetador Freeling

Para una descripción más detallada, véase el apartado Anotación.

Consulta

Puede ser consultado en línea de forma gratuita en la aplicación Sketch Engine, en su versión de acceso abierto: https://ske.li/qqr

Desde el menú principal se pueden consultar y descargar concordancias, listas, colocaciones, palabras semejantes, etc. En esta guía se ilustran algunas de sus funciones básicas con ejemplos prácticos. 

Algunas partes del corpus también puede ser descargadas íntegramente y manipuladas con fines de investigación bajo una licencia Creative Commons: Atribución – NoComercial 4.0 Internacional (CC BY-NC 4.0).

Más información

Otras publicaciones: https://www.researchgate.net/profile/Pilar-Valverde

Para consultas, rellene el formulario de contacto.