viernes, 8 de agosto de 2014

Hacia superdialectos globales en Twitter

La lingüística computacional de Twitter revela la existencia de superdialectos globales 
El primer estudio de los dialectos en Twitter revela patrones globales que nunca se han observado antes.
MIT Technology Review




Un dialecto es una forma particular de lenguaje limitado a una región específica o a un grupo social. Los lingüistas están fascinados por los dialectos porque revelan las clases sociales, los patrones de inmigración y cómo los grupos han influenciado mutuamente en el pasado.

Pero el estudio de los dialectos es un trabajo duro. Tradicionalmente, los lingüistas hacen por entrevistar a un número relativamente pequeño de personas, por lo general unos pocos cientos, y pedirles que llenaran cuestionarios. Luego, los investigadores utilizan los resultados para crear los atlas lingüísticos, pero estos son, naturalmente, limitadas por la elección de los lugares y personas que han sido estudiados.

Hoy, Bruno Gonçalves en la Universidad de Toulon en Francia y David Sánchez en el Instituto de Física Interdisciplinar y Sistemas Complejos de la isla de Mallorca, España, dicen que han encontrado una nueva manera de estudiar los dialectos a escala mundial utilizando mensajes publicados en Twitter. Los resultados revelan una sorpresa importante sobre la forma en que los dialectos se distribuyen en todo el mundo y ofrecen una fascinante instantánea de cómo están evolucionando bajo varias nuevas presiones, como los mecanismos globales de comunicación como Twitter.

Gonçalves y Sánchez comienzan tomando muestras de todos los tuits escritos en español de más de dos años y que también contienen información de geolocalización. Eso les dio una base de datos de 50 millones de tweets geolocalizados, con la mayor parte de España, la América española, y los Estados Unidos.

Entonces buscaron estos tuits para variaciones de palabras que son indicativos de dialectos específicos. Por ejemplo, la palabra para coche en español puede ser auto, automovil, carro, hire, concho, o movi, con cada uno que es más común en los diferentes dialectos. Diferentes palabras para el sujetador incluyen ajustador, ajustadores, brasiel, sujetador, corpiño, portaseno, sostén, soutien, sutién, sujetador, y tallador mientras que las variaciones en el equipo incluyen computador, Computadora, microcomputador, microcomputadora, Ordenador, PC, y así sucesivamente.

Ellos representan a continuación en qué lugar del mundo se estaban utilizando estas palabras diferentes, produciendo un mapa de su distribución. Este mapa muestra claramente cómo diferentes palabras son de uso común en ciertas partes del mundo.

Sin embargo, también observaron los entornos en los que se utilizaron las palabras, ya sea en grandes ciudades o en zonas rurales. Y que reveló una gran sorpresa.

Resulta que los dialectos del español se divide en dos grandes grupos que superdialects llamadas Gonçalves y Sánchez. La primera de ellas se utiliza más o menos exclusivamente en las principales ciudades españolas y americanas. Esta es una variedad internacional de español que es similar en todos los continentes. Gonçalves y Sánchez especulan que esto es el resultado de una homogeneización creciente de la lengua causada por los sistemas globales de comunicación como Twitter.

El segundo superdialect se utiliza casi exclusivamente en las zonas rurales. Gonçalves y Sánchez utilizaron un algoritmo de aprendizaje automático para encontrar subclusters dentro de este grupo y descubrieron tres variaciones diferentes. Estos corresponden a un dialecto utilizado en España, un dialecto del Caribe y de América Latina y otra variante utilizada exclusivamente en América del Sur.

Los investigadores dicen que estas regiones reflejan los patrones de asentamiento de inmigrantes españoles que datan de muchos siglos atrás. "Los conquistadores y los colonos ocuparon primero los territorios de México, Perú y el Caribe, y sólo mucho más tarde los colonos establecieron residencia permanente en [América del Sur], que se mantuvo alejada de las normas lingüísticas de prestigio", dicen.

El hecho de que los patrones de lenguaje han conservado esta historia es fascinante. "Esta fuerte herencia cultural que aún se puede observar, siglos más tarde, en nuestras bases de datos merece ser analizado con más detalle en futuros trabajos", dicen Gonçalves y Sánchez.

Es un trabajo importante que revela la existencia de superdialects a escala global por primera vez. También demuestra el poder de la lingüística computacional y la forma en que se puede aplicar a las formas modernas de comunicación como Twitter para revelar patrones en una escala sin precedentes.

Es evidente que hay un montón de fruta madura en esta área aunque Gonçalves y Sánchez advierten que algunos idiomas seguirán siendo difíciles de estudiar en esta forma, por ejemplo, porque los hablantes de mandarín no tienen fácil acceso a Twitter.

No obstante, se espera ver mucho más de este tipo de técnicas lingüísticas computacionales en un futuro no muy lejano.

No hay comentarios:

Publicar un comentario