Técnicas de muestreo para el análisis de contenido en Redes Sociales

No hace falta estudiar todas y cada una de las partes de un conjunto para obtener información representativa de todo el conjunto. Este es uno de los fundamentos de la investigación en Ciencias Sociales gracias al muestreo estadístico. Es el mismo principio que se aplica en encuestas y trabajos demoscópicos y que puede trasladarse al estudio de mensajes de medios de masas y, también, de medios sociales.

¿Cuál es el mejor método para seleccionar nuestra muestra de modo que sea representativa del universo que estudiamos? Sin afán de hacer una revisión de todas las estrategias que existen, aquí hablaré de dos de los más usados: la “semana construida” y el aleatorio simple. Y tras explicar en qué consisten y cómo se aplican, revisaremos (breve y superficialmente) cuál es el más adecuado en cada caso.

Muestreo aleatorio simple

Esta modalidad de muestreo escoge un conjunto de unidades puramente al azar. Gracias a esta aleatoriedad la selección analizada reúne características propias de todo el universo estudiado.

¿Qué tamaño ha de tener una muestra? Aquí entraríamos en aspectos estadísticos en los que no profundizaré por no aburrir (y porque no soy estadístico y cuanto más profundice más meteré la pata 🙂 ), pero depende básicamente del tamaño del universo que estemos estudiando así como del nivel de confianza y del margen de error que queramos obtener. Un estándar habitual mínimo en sociología se sitúa en un 95% de confianza y un 5% de margen de error.

Existen diversas aplicaciones online que permiten calcular automáticamente una muestra en función de esas variables que acabamos de presentar.

Calculadora de tamaño de muestra de Survey Monkey

Así, por ejemplo, si queremos analizar todos los tuits del presidente Trump (unos 39.000), introducimos esa cifra en “Tamaño de la población” y especificamos el nivel de confianza y el margen de error que deseamos. Si nos quedamos en lo estándar necesitaríamos estudiar 381 mensajes. Si queremos obtener resultados más fiables podemos subir al 99% de confianza y reducir el margen de error al 2%. En ese caso la muestra ascendería a 3.760 mensajes.

Hay que tener en cuenta que el margen de error implica, explicado con brocha gorda, que todas las diferencias inferiores a ese % no son fiables. Es decir que si manejamos un margen de error del 5% y nuestro análisis de contenido arroja que el presidente Trump usa la expresión ‘fake news’ en el 52% de sus mensajes y no lo usa en el 48% (4% de diferencia), nuestro resultado no será concluyente.

Desde un punto de vista táctico el margen de error y el nivel de confianza dependerán, sobre todo, de los recursos que tengamos para la investigación, especialmente del tiempo y personas con los que contemos para trabajar y obtener resultados.

Pero basta de estadística, que veaproximo peligrosamente al límite de mi conocimiento 🙂  De manera práctica ¿cómo selecciono aleatoriamente esa muestra? Yo suelo utilizar random.org un generador gratuito de secuencias aleatorias. En las opciones que ofrece su página principal, escojo la opción “Random Integer Set Generator”

Random.org

Allí ya nos aparece la página en la que podremos elegir los valores que necesitemos. De acuerdo con el ejemplo que teníamos (los 39.000 mensajes del presidente Trump, 95% de confianza y 5% de margen de error) necesitaríamos una lista de 381 mensajes.

Para ello en el primer paso tendríamos que indicar “Generate 1 set” para obtener solo una lista y “with 381 unique random integer(s) in each” para que la lista incluya los 381 números que necesitamos.

A continuación deberíamos indicar el número de elementos que componen nuestro universo de estudio. Como dijimos que Trump ha publicado 39.000 tuits, nuestro universo tendrá una n igual 39.000, lo que implica que tendremos que indicar que “Each integer should have a value between 1 and 39000. El primer valor en la opción indica el valor inicial y el segundo, el número final del universo.

Los pasos 2 y 3 están relacionados con el modo en que se presentan los resultados y pueden dejarse tal y como están por defecto. Ya solo nos quedaría darle al botón “Get sets”, que nos devolvería la lista que necesitamos.

Tendríamos que tener una lista numerada con todos los tuits y escoger aquellos que nos han salido gracias a Random.org. Por ejemplo si la lista generada empieza con el 12, 98 y 123, tendríamos que escoger el 12º, 98º y 123º mensaje de la lista de nuestros tuits. Y así, sucesivamente

Estratificación temporal

Aparte del muestreo aleatorio simple también existe el muestreo estratificado. En este, se “corrige” la aleatoriedad al considerar distintos “subgrupos” o “estratos” que existen en el universo de estudio. Por ejemplo, una encuesta puede ajustar la selección de participantes de modo que su muestra respete los mismos porcentajes que el universo de estudio en base a  criterios sociodemográficos (edad, género, niveles de ingreso). Es decir, si en el universo de estudio hay un 65% de hombres y un 35% de mujeres, la muestra deberá respetar esa misma proporción.

En el caso de análisis de contenidos de la comunicación de masa y especialmente en periodismo se suele aplicar un tipo de estratificación temporal, que podríamos denominar como “periodo construido”

Partamos de la idea de que un periódico no publica el mismo tipo de noticias todos los días de la semana. Por ejemplo un lunes se publicarán más noticias de deportes (por las competiciones del fin de semana), el viernes tendrá mayor peso la política por la reunión del Consejo de Ministros y tradicionalmente el fin de semana se dedica a noticias con una mayor carga de ocio y cultura. Del mismo modo, cada mes trae noticias distintas. No es lo mismo la agenda informativa de marzo que la de agosto, por poner solo dos casos.

Por ello, para analizar la prensa diaria, se puede recurrir a la técnica de construir semanas artificiales que incluyan todos los días de la semana pero repartidos a lo largo de todo un año y seleccionados de manera aleatoria.

Pongamos que necesitamos “construir” 5 semanas. Volvemos a Random.org y  seleccionamos la opción “Random Integer Set Generator”. En el primer bloque de opciones elegimos 7 “sets” de 5 unidades cada uno, con valores de entre 1 y 52 cada bloque.

Necesitaremos 7 sets (uno por cada día de la semana) y tantos números por set como semanas vayamos a necesitar. E indicamos que cada número debe estar entre el 1 y el 52 porque la media de semanas en un año es de 52.

Tras darle al botón “Generate Random Set” hemos obtenido este resultado

  • Set 1: 14, 27, 38, 42, 44
  • Set 2: 7, 12, 20, 23, 38
  • Set 3: 3, 8, 24, 28, 35
  • Set 4: 6, 13, 17, 25, 35
  • Set 5: 3, 12, 28, 34, 51
  • Set 6: 23, 30, 33, 36, 41
  • Set 7: 9, 10, 20, 24, 32

El set 1 indicaría el orden de los lunes que tenemos que incluir, el 2, el de los martes y así sucesivamente por día de la semana hasta llegar al set 7, que serían los domingos. En este ejemplo tendríamos que incluir el 14º, el 37º, el 38º, el 42º y el 44º lunes del año. Ya solo nos queda ir a un calendario a identificar qué día concreto corresponde. Para ello podemos contar manualmente los días y numerar las semanas en un calendario, o directamente preguntar a Google por “decimocuarto lunes del 2019”, y sucesivamente 🙂

¿Cuántas semanas hay que escoger? Depende del periodo de tiempo que vamos a estudiar (un año, dos, tres…), de las variables que se van a incluir en el análisis de contenido, de si se van a seleccionar solo una categoría de noticias… En el ámbito de noticias online se señala que de dos a cinco suele ser suficiente  aunque no es habitual encontrar trabajos que emplean hasta 10 semanas aleatorias.

¿Cuál es el muestreo más adecuado para analizar el contenido en redes sociales?

Depende del tipo de cuentas que queramos estudiar. Según el artículo “Evaluating Sampling Methods for Content Analysis on Social Media” si queremos estudiar mensajes publicados por cuentas periodísticas (por ejemplo, el perfil en Twitter de los periódicos nacionales), podemos recurrir a la técnica de la semana construida. Pero, si por el contrario queremos analizar mensajes de ciudadanos o de organizaciones alejadas de las rutinas y lógicas mediáticas lo más eficaz es acudir a la muestra aleatoria pura.

Para saber más:

Esta entrada fue publicada en Redes sociales y etiquetada , , , . Guarda el enlace permanente.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s