sábado, 29 de marzo de 2014

¿Pueden predecirse las cascadas en Facebook?

La naturaleza curiosa de las cascadas de compartir en Facebook
La mayoría del contenido en Facebook se comparte un par de veces, pero algunos pueden ser millones de veces compartida. Ahora científicos de la computación están empezando a comprender la diferencia.




Una de las características definitorias de contenido social es la forma en imágenes, vídeo y texto es compartida entre muchos usuarios. Inevitablemente, parte del contenido se hace más popular que otros y esto lleva a las cascadas en el que el número de publicaciones compartidas puede ser enorme. Aunque la mayoría de las piezas de los medios de comunicación tienen sólo unas pocas acciones, algunas se ha compartido muchos millones de veces.

Así que hay mucho interés en saber cómo predecir algo que es probable que sea muy popular en comparación con algo que no es. En la cara de ella, es fácil pensar que la predicción de la popularidad de los contenidos es casi imposible. Eso es porque depende de muchos factores que son difíciles de medir, como la naturaleza de los contenidos y la conectividad de las personas que lo ven.

Sin embargo, varios equipos han afirmado haber encontrado la manera de predecir de un puesto eventual de popularidad mediante el análisis de su popularidad poco después de su publicación. Sin embargo, dada la ausencia de una manera confiable de hacer esto en la web, se puede juzgar por sí mismo lo bien que estos mecanismos deben trabajar.

Hoy en día, tenemos una opinión diferente sobre el tema de la previsibilidad gracias al trabajo de Justin Cheng de la Universidad de Stanford en California, así como un par de amigos en Facebook y la Universidad de Cornell. Estos chicos muestran por qué su popularidad es tan difícil de predecir en el abordaje convencional de estudiar las primeras etapas de la popularidad.

Pero al mismo tiempo, que muestran que diversas características de una cascada se pueden predecir con exactitud notable y que esto se puede utilizar para hacer juicios exitosos sobre el comportamiento futuro de cascadas, una vez que han comenzado. El resultado es una visión mucho más profunda de la naturaleza de las cascadas de lo que podría pensarse inicialmente posible.

Cheng y colegas llegan a sus conclusiones mediante el análisis de la forma en que las fotografías fueron compartidos en Facebook durante un período de 28 días después de su carga inicial en junio de 2013. Los miró por encima de 150 000 fotos que fueron juntos ha compartido más de 9 millones de veces. Los datos les dijeron que las personas (nodos) volvió a compartir cada fotografía y en qué momento y esto les permitió reconstruir exactamente las redes por las que se produjeron las publicaciones compartidas.

En el pasado, los investigadores han observado cómo comienzan las grandes cascadas y luego trató de utilizar esa información para detectar grandes cascadas en el futuro, con resultados mixtos.

Cheng y colegas adoptan un enfoque diferente. Comienzan con una foto que se ha vuelto a compartir un cierto número de veces, digamos k. A continuación, determinar la probabilidad de que esta foto será compartida dos veces tantas veces. En otras palabras, su tarea consiste en predecir si la cascada se duplicará en tamaño.

Eso es una buena opción de la pregunta porque la distribución de tamaño de la cascada sigue un cierto tipo de ley de energía. Esta ley asegura que para cascadas de un dado tamaño, la mitad será más del doble en tamaño, mientras que la otra mitad no. Así que para decidir si una cascada dado se duplicará, una estimación aleatoria recibirá la respuesta correcta alrededor de la mitad de las veces.

La pregunta es si es posible distinguir características del conjunto de datos que permiten un algoritmo de aprendizaje de máquina para hacer algo mejor que esto. Así Cheng y sus amigos usan una porción de sus datos para entrenar a un algoritmo de aprendizaje automático para buscar características de cascadas que hacen predecible.

Estas características incluyen el tipo de imagen, ya sea un primer plano o al aire libre o tener un título y así sucesivamente, el número de seguidores del cartel original tiene, la forma de la cascada que se forma, ya sea un gráfico simple estrella o estructuras más complejas ; y, finalmente, la rapidez con la cascada tiene lugar, su velocidad.

Después de haber entrenado su algoritmo, la usaban para ver si se podía hacer predicciones sobre otras cascadas. Comenzaron con imágenes que habían sido compartidos sólo cinco veces, así que la pregunta era si finalmente se compartirían más de 10 veces.

Resulta que este es sorprendentemente predecible. " Para esta tarea, adivinar al azar obtendría un rendimiento de 0,5, mientras que nuestro método logra un rendimiento sorprendentemente fuerte : la precisión de clasificación de 0.795 ", dicen.

Y algunas de las características de la cascada de unos mucho mejores predictores y otros. De hecho, el rendimiento temporal de la cascada, la rapidez con que se propaga, es el mejor indicador de todos. Así que algo se propaga rápidamente, para empezar, es probable que se propague más.

Otro factor importante son los temas mencionados en el título asociado con una imagen, por ejemplo si el interés periodístico o asociado con un meme actual.

Cheng y coautores también dicen que es más fácil hacer una predicción que el número de re-acciones aumenta." Esto demuestra que más información es siempre mejor : cuanto mayor es el número de publicaciones compartidas observadas, mejor es la predicción ", dicen.

Y es por eso que los esfuerzos anteriores han fracasado - que en gran parte siempre comienzan con muy poca información.

Existen limitaciones para el trabajo, por supuesto. La más obvia es que se hizo sólo con las fotos compartidas en su totalidad dentro de Facebook. Puede ser que compartidas en Facebook son algo diferentes de los que ocurren en otros lugares en la web y que las fotos son tratados de manera diferente de los enlaces de la historia, por ejemplo.

Pero Cheng y coautores confían en que gran parte de lo que encontraron serán útiles en otros lugares. "A pesar de estas limitaciones, creemos que los resultados dan ideas generales que serán de utilidad en otros ámbitos ", dicen.

Y deja mucho de interés para otros investigadores a seguir. Cheng y colegas han tropezado con una rica veta de información sobre la naturaleza de las cascadas en las redes sociales. Y hay más oro que las colinas de Thar.

Ref : arxiv.org/abs/1403.4608 : ¿Puede predecirse las Cascadas?

MIT Technology Review


No hay comentarios:

Publicar un comentario