miércoles, 11 de marzo de 2015

Leyendo e interpretando redes

Aprender a leer e interpretar las visualizaciones de datos de grafos de red 
Nodus Labs




   

Los grafos de red se utilizan a menudo en varios artículos de visualización de datos: desde análisis de redes sociales a los estudios de Twitter sentimiento. Las imágenes se ven muy bonitos y tienen una gran cantidad de ideas interesantes, pero rara vez es lo que incluyen explicaciones de cómo se hacían esas deducciones interesantes en el primer lugar.

A fin de aprovechar todo el potencial de los gráficos de la red, es importante conocer la metodología básica para leerlos. Como esto va a llegar mucho más allá del impacto visual inicial y también servirán como poderosas herramientas de creación de ideas. Aprender a pocos conceptos básicos acerca de los grafos puede ayudar a uno obtener rápidamente una visión general de toda la multiplicidad, obtener ideas sobre las comunidades, encontrar los nodos más influyentes, y detectar las lagunas en los datos existentes.


Paso 1: Bases de conectividad de un grafo

El primer paso es decidir la base es la conectividad. Una red es un gráfico de nodos y sus relaciones. Por eso es importante para decidir qué puede ser la base para esas relaciones. Por ejemplo, cuando la visualización de una red social se puede decidir que un nodo es un usuario y las relaciones entre ellos son los enlaces a "seguir" entre los usuarios. Sin embargo, también podría ser interacciones o el hecho de que visitaron el mismo evento.

Esta base será la perspectiva desde la cual se estudiará la multiplicidad, lo que es importante para decidir el uno (o varios más) que proporcionará información interesante. Está bien si es algo subjetivo, siempre y cuando está claro que es sólo una perspectiva de partida para un estudio adicional.

Para nuestro ejemplo vamos a utilizar un gráfico de la red de texto de los resultados de búsqueda de Google para la consulta "visualización de datos". En este gráfico los nodos son las palabras y sus conexiones son co-ocurrencias de las palabras cerca uno del otro. Si las palabras son uno junto al otro están conectados con un peso más fuerte. Si las palabras aparecen en el mismo fragmento de texto a partir de resultados de búsqueda, pero separados por una o dos palabras también serán conectados, pero la conexión es más débil. Si las palabras son más allá de 3 palabras de uno al otro, no están conectados. (Lea más sobre esta base la conectividad en nuestro trabajo en el análisis de redes de texto)



El gráfico de arriba es una captura de pantalla de los nodos y sus conexiones alineado al azar. Este tipo de visualización en realidad no ofrecen demasiada información útil. Así que el segundo paso consiste en aplicar un diseño que hará que los datos del gráfico legible.

Paso 2: Diseño de Grafo de Force Atlas y Comunidades

Con el fin de hacer que el gráfico legible, los nodos tienen que ser alineados en una forma ordenada. Lo que esta orden puede ser depende de los objetivos del estudio. Normalmente, nos interesa conocer la estructura de la multiplicidad - ya sea compuesta de muchos elementos inconexos o si todos los elementos están conectados entre sí (es decir, pertenezcan al componente gigante). Otra idea importante que el diseño gráfico proporcionará es la estructura de la comunidad de la gráfica: ¿cuáles son los nodos que están conectados más densamente entre sí que con el resto de la red. Estructura de la comunidad de Graph ofrecerá una buena idea de si la multiplicidad es homogénea o heterogénea (que consta de multiplicidades distintas que interactúan entre sí).

Hay muchos diferentes diseños para los gráficos: Yifan Hu, clockwise layout, Force Atlas. En este ejemplo se usará el Force Atlas layout algorithm utilizado en Gephi graph visualization suite y también implementado en Sigma.Js javascript graph visualization library.
El principio básico de diseño gráfico Fuerza Atlas es que empuja los nodos más conectados a la periferia de la gráfica, la alineación de los nodos conectados a ellos en torno a esos nodos más conectados.



Mirando este gráfico ya podemos ver la estructura básica de la comunidad. Los nodos que están más estrechamente conectados entre sí que con el resto de la red pertenecen a la misma "comunidad" y podemos ver que hay alrededor de 3 comunidades diferentes en el gráfico anterior.

Para interpretar estos datos: este gráfico de los resultados de búsqueda de Google para la petición de "visualización de datos" muestra que hay cerca de 3 diferentes grupos distintos de palabras que tienden a coexistir junto a la otra. Así que las personas que usan esta consulta de búsqueda se presentarán con 3 tipos diferentes de material en Google.

El siguiente paso es acercar y analizar los nodos reales en el gráfico.

Paso 3: Ranqueando los nodos en el grafo

En este momento todos los nodos en el gráfico son del mismo tamaño, así que todos tienen el mismo aspecto. Es posible ver que los nodos tienen más conexiones que otros, pero no es muy fácil de distinguir en el gráfico. Así que puede ser útil para variar el tamaño de los nodos por el número de conexiones que tiene: el más grande de los nodos, más conexiones que tienen. También vamos a fije etiquetas a los nodos, por lo que la imagen resultante es mucho más informativo.



Se puede observar que los nodos que van por el número de conexiones que tienen muestra los nodos más conectados en la gráfica, o - en este ejemplo - las palabras más importantes en los resultados de búsqueda. A diferencia de las nubes de etiquetas vemos esas palabras en su contexto - al lado de las otras palabras que se utilizan con, aumentando enormemente el valor informativo de la gráfica.

La comunidad más conectada en la parte superior se compone de esas palabras, que aparecen junto con más frecuencia que otros en los resultados de búsqueda de Google para "la visualización de datos":
información (también: formato, aprender)
técnica (también: método, visual)
interactivo (también: herramienta, crear)

Los nodos más conectados en la segunda comunidad son:
html (también: css, javascript)
comprensión (también: negocios)
visualizar

Y en la tercera comunidad:
visualización
competencia

Lo que esta información nos dice es que cuando la gente busca "visualización de datos" en Google lo más probable es encontrar artículos sobre diversas herramientas y técnicas para crear visualizaciones interactivas y aprender algo de la información que tienen.

Otro tema importante en los resultados de búsqueda de Google para "la visualización de datos" son las bibliotecas de javascript que trabajan con HTML y CSS para visualizar los datos.

Como se puede ver, se trata de un análisis muy útil de los resultados de búsqueda de Google que puede ser utilizado para fines de SEO o incluso para escribir este mismo artículo (a saber lo que la gente está buscando y lo que encuentran).

(Los términos de búsqueda reales, "datos" y "visualización" fueron excluidos de la gráfica, ya que se pueden conectar a casi todos los nodos que reduce el valor informativo de esta imagen. "Visualización", el deletreo británico de "visualización", hospedado en la periferia de la gráfica.)

Paso 4: Identificar las brechas

Ahora que los temas más destacados se identifican en el texto, también podemos ver lo que falta en los datos que hemos obtenido. Para hacer eso tenemos que buscar entre las comunidades y los nodos, en los huecos. Nos muestran lo que falta, en este caso - de los resultados de búsqueda de Google para "la visualización de datos".



Los vacíos estructurales son los espacios vacíos entre los grupos de nodos interconectados en la gráfica. Su interpretación depende de la conectividad de la base utilizada en el gráfico. Por ejemplo, en las redes sociales brechas estructurales indican áreas de potencial de arbitraje entre las diferentes comunidades. En esta red de texto de los resultados de búsqueda de Google de brechas estructurales indican que hay una falta de artículos que hablan tanto sobre técnicas de visualización, así como varias bibliotecas específicas que podrían usarse para hacer esas visualizaciones. Tratamos de cumplir con esta brecha mencionando Gephi y Sigma utilizada en este estudio de caso. Sin embargo, hay muchas buenas bibliotecas más, como D3.js biblioteca JavaScript para visualizar los documentos basados ​​en datos y una suite Node.XL para la visualización de gráficos de redes.

Si estás interesado en trabajar con datos red social, puede utilizar la aplicación netvizz que importa Facebook gráfico social o Twecoll importar conexiones de Twitter.
Si usted está interesado en trabajar con visualizaciones de red de texto, puede utilizar InfraNodus (para importar fragmentos de datos como la búsqueda de Google o notas de Evernote) o Textexture (para textos largos) y entonces el resto de los datos exportados en Gephi o Node.XL .

No hay comentarios:

Publicar un comentario