top of page

Los corpus lingüísticos

Domingo, 18 de diciembre del 2022. 23:10 hrs, hora de París. Recibo la captura de pantalla del primer dossier oficial de Máster 1 entregado para evaluación. Veo la página de presentación del trabajo en donde figura el logo de la universidad y debajo mi nombre acompañado del de mis dos (fantásticas) compañeras de equipo. Quiero enmarcarlo, quiero llorar, quiero gritar de alegría y orgullo y cansancio después de un día largo.


Una vez repuesto de la catarsis emocional, viene una ola de tranquilidad placentera que me permite mirar en retrospectiva lo que aprendí en esta asignatura: "Corpus et phraséologie". Fue ahí en donde me di cuenta de que antes del mes de septiembre no tenía una idea clara de lo que era un corpus (y mucho menos de cómo podía utilizarlo en el aprendizaje de idiomas). Recordaba un verano de investigación en la Universidad Nacional Autónoma de México, en el cual, la doctora Iria da Cunha de la Universidad Pompeu Fabra, nos presentaba su investigación basada en el análisis de corpus y la teoría de la estructura retórica para detectar el plagio en los textos escritos. Me pareció fascinante, me pareció muy profesional y cuando vi este curso (Corpus) entre mis materias optativas, no dudé un segundo y me apunté.


Cuatro meses más tarde, estoy en mi habitación con una sonrisa en la cara y contento de haber elegido la materia porque creo que aprendí bastantes cosas que me parecen útiles. En esta entrada del blog quiero compartirte un poquito del maravilloso mundo de los corpus lingüísticos.


¿Qué es un corpus?


Un corpus es una colección grande de textos completos (literarios, académicos, de prensa, etc.), que son seleccionados, almacenados en una base de datos y clasificados según diversos criterios lingüísticos con el objetivo de poder extraer muestras estadísticas significativas de una lengua, para poder hacer después un análisis confiable de ella. Los corpus nos permiten trabajar con datos auténticos, ya que están construidos a partir de textos reales del idioma en cuestión y entonces es posible observar cómo se comporta "en su hábitat -contexto- natural" y en diferentes géneros y estilos discursivos.


Algunos ejemplos de corpus lingüísticos son:


Google Ngram Viewer, que recopila obras literarias desde el año 1800 hasta el año 2019. En este corpus es posible extraer gráficas que muestran el comportamiento de una frase o palabra a lo largo del tiempo o en un periodo específico (muy útil para investigaciones diacrónicas o sincrónicas de algún fenómeno lingüístico).

Búsqueda de los elementos "con base a" y "con base en". Gracias a esta gráfica de frecuencias es posible observar rápidamente cuál es la combinación sintáctica pertinente. Consultado el 18 de diciembre del 2022. Google Books Ngram Viewer: https://books.google.com/ngrams/graph?content=con+base+a%2C+con+base+en&year_start=1800&year_end=2019&corpus=32&smoothing=3


Lexicoscope, dedicado especialmente a la exploración de perfiles combinatorios de palabras o expresiones de la lengua francesa, basándose en las dependencias sintácticas que existen en las frases (palabras que frecuentemente aparecen juntas). Contiene distintos sub-corpus que separan los textos por géneros o temáticas. (Université Grenoble Alpes, 2022).

Búsqueda del elemento "langue de bois". Gracias a estas barras podemos trazar el momento en el que esta expresión comenzó a utilizarse en la lengua francesa, (mediados del siglo XX). Consultado el 18 de diciembre del 2022. Lexicoscope, corpus d'articles du Monde: http://phraseotext.univ-grenoble-alpes.fr/lexicoscope_2.0/analytics?session_id=20221223102012am90%2Fquery_3&generalize=false


¿Cómo se construye un corpus?


La creación de un corpus, hablando propiamente de la herramienta, corresponde al campo de la informática, más específicamente, al tratamiento automático de lenguas. Los datos de un corpus son clasificados y ordenados según diferentes etiquetas / objetivos de análisis lingüístico. En nuestro caso particular, como lingüistas, profesores o estudiantes de idiomas, vamos a hacer uso de la herramienta ya creada para extraer información y analizarla, es decir, nosotros no nos metemos en la construcción de la herramienta ya que ello implicaría tener conocimientos informáticos y de programación específicos.


De manera general, la construcción-uso de un corpus consiste en tres etapas:


1. Recopilación de todo tipo de documentos enteros: artículos de prensa, artículos científicos, obras literarias, entrevistas... (lo hace un informático).

2. Clasificación de los documentos según su tipología, género o tema: política, economía, cultura, novelas... (lo hace un informático).

3. Búsqueda y extracción de los datos/elementos fraseológicos para su análisis (lo hacemos nosotros).


Las concordancias y otros gráficos muy cool


Las hojas de concordancia son un documento muy valioso que podemos extraer de un corpus lingüístico. Este documento, que se genera a partir de la búsqueda de elementos lingüísticos o palabras, nos permite ordenar rápidamente todas las palabras de un texto para situar el elemento buscado en su contexto y ver las ocurrencias que tiene a lo largo de toda la base de datos. En estas hojas de concordancia se muestran los elementos de izquierda y de derecha que aparecen junto al elemento que nos interesa, así como la posibilidad de verlo en su contexto expandido.

Búsqueda del elemento "nez". Gracias a la hoja de concordancias podemos observar diversos fenómenos que ocurren alrededor del elemento buscado (en francés), por ejemplo: una persona de nivel A1 podría darse cuenta que es un sustantivo masculino, ya que casi siempre va precedido del artículo determinado "le" o de otras palabras de connotación masculina en francés, muy útil para los hispanohablantes porque en español el sustantivo equivalente es femenino (la nariz); es posible observar un nombre que se repite: Cyrano. Lo anterior es culturalmente relevante porque hace alusión al personaje de una obra teatral icónica de la literatura francesa y que es caracterizado con una nariz prominente y deforme; es posible también observar los adjetivos que sirven para describir una nariz: crochu (torcida), petit (pequeña), fin et régulier (fina y promedio), etc. Consultado el 8 de enero del 2023. Centre Nationale de Ressources Textuelles et Lexicales (CNTRL), hoja de concordancias: https://www.cnrtl.fr/concordance/nez


La proxémica de una palabra

La proxémica estudia la relación "espacial" que existe entre dos elementos. En los corpus, es posible encontrar un gráfico que condensa el universo de palabras que orbitan alrededor del elemento que buscamos, estos datos se obtienen estadísticamente, por la cantidad de veces que aparecen juntos en la base de datos. Las líneas que unen los nodos son más gruesas cuando la relación es más frecuente y, lógicamente, son más delgadas cuando la relación es menor (aunque aún significativa). De este modo, podemos observar, por ejemplo, qué verbos se usan frecuentemente con algún sustantivo o que otros sustantivos están asociados al elemento.

Búsqueda del elemento "nez". Gracias a estas barras podemos trazar el momento en el que esta expresión comenzó a utilizarse en la lengua francesa, (mediados del siglo XX). Consultado el 8 de enero del 2023. Corpora Collection Leipzig, corpus de la universidad de Leipzig: https://corpora.uni-leipzig.de/fr/res?corpusId=fra_mixed_2012&word=nez


Las palabras y la adquisición de idiomas


Memorizar listas de palabras aisladas es ineficaz por varios motivos, cuando nos empeñamos en hacer esto para memorizar vocabulario nuevo, vamos en contra de la manera en la que funciona nuestro cerebro.


En primer lugar, conocer muchas palabras aisladas es insuficiente para comunicarse bien (Verlinde y Binon 2003), la naturaleza de las palabras es funcionar dentro de redes combinatorias que dependen de un contexto sintáctico, discursivo y social. En segundo lugar, es importante dejar claro, de una vez y por todas, que el cerebro memoriza mejor bloques de palabras o "chunks" (Meara 1996 ; Lewis 2000) y que estos bloques se integran mejor a nuestro léxico activo cuando comprendemos bien su significado y podemos establecer lazos con conocimientos previos. En tercer lugar, el proceso de inferir cómo funcionan los elementos léxicos dentro de una frase (en oposición a simplemente buscar el significado en un diccionario, por ejemplo), es un proceso de aprendizaje significativo que favorece la adquisición de idiomas. Por último, exponernos a input auténtico en donde sea posible observar las realidades lingüísticas del uso de una palabra en su contexto es una prioridad que ya todos conocemos.


"... you shall know a word from the company it keeps". Principio de Firth (1957)

Los corpus parecen ser una herramienta que responde bien a las demandas de adquisición de vocabulario expuestas aquí arriba. Por un lado, muestran las palabras dentro del contexto en el que son usadas, así que es posible analizar las redes combinatorias e inferir su uso y, por otro lado, representan una muestra auténtica del lenguaje (sin mencionar lo rápido y práctico que se vuelve encontrar muchos ejemplos de un sólo término en un solo lugar).


En conclusión


Los corpus son una base de datos que contiene textos enteros (orales o escritos) clasificados según diversos criterios lingüísticos. Esta base de datos nos permite buscar elementos léxicos y fraseológicos para extraer muestras y entonces poder realizar un análisis del uso de dicho elemento. En el aprendizaje de idiomas, esta herramienta se vuelve preciosa al permitirnos encontrar en un sólo lugar muestras auténticas del idioma que favorecen de diversas maneras la adquisición de vocabulario. Los corpus reemplazan con precisión (estadísticamente) la intuición de un nativo y pueden usarse, por ejemplo, para desarrollar nuestra autonomía en el aprendizaje de idiomas.


Recuerda que puedes suscribirte para que recibas una notificación cuando se publiquen nuevos artículos de este estilo, prometo no llenarte de spam. Ayúdame a llegar a más lingüistas, políglotas, profes de idiomas o gente a la que le gusta aprender lenguas. Puedes enviarme mensajes por Instagram. Gracias por leer.


Referencias bibliográficas (en orden de aparición)


Google Books Ngram Viewer. Con base a, con base en. Consultado el 18 de diciembre del 2022, de https://books.google.com/ngrams/graph?content=con+base+a%2C+con+base+en&year_start=1800&year_end=2019&corpus=32&smoothing=3


Université Grenoble Alpes. (2016). Langue de bois. Consultado el 18 de diciembre del 2022, de http://phraseotext.univ-grenoble-alpes.fr/lexicoscope_2.0/analytics?session_id=20221223102012am90%2Fquery_3&generalize=false


Université Grenoble Alpes. (2016). Lexicoscope. Consultado el 18 de diciembre del 2022, de http://phraseotext.univ-grenoble-alpes.fr/lexicoscope_2.0/


CNRTL. (2012). Nez. Consultado el 8 de enero del 2022, de https://www.cnrtl.fr/concordance/nez


Deutscher Wortschatz. (1998). Nez. Consultado el 8 de enero del 2022, de https://corpora.uni-leipzig.de/fr/res?corpusId=fra_mixed_2012&word=nez


Binon, J. & Verlinde, S. (2003). Les collocations : clef de voûte de l'enseignement et de l'apprentissage du vocabulaire d'une langue étrangère ou seconde. La lettre de l'AIRDF, 33, 31-36. https://www.persee.fr/doc/airdf_1776-7784_2003_num_33_2_1577


Meara, P. (1996). The classical research in L2 vocabulary acquisition. In G. M. Anderman & M. A. Rogers (Eds.), Words Words Words: The Translator and the Language Learner (pp. 27-40). Cleveland: Multilingual Matters. // Lewis, M. (dir.) (2000). Teaching collocation : Further developments in the lexical approach. Hove: Language teaching publications LTP.


Firth, J.R. (1957). Papers in Linguistics 1934-1951. Oxford (Oxford University Press).


Nota:

La información que se contiene en este artículo es el resultado de la reconstitución de las notas y las reflexiones obtenidas dentro del curso "Corpus et phraséologie" impartido por la Dra. Cristelle Cavalla en el otoño del 2022. Para leer obras sobre el tema publicadas por la profesora, referirse a su CV en línea: https://cv.hal.science/cristelle-cavalla


bottom of page