Análisis de contenido en línea - Online content analysis

El análisis de contenido en línea o el análisis de texto en línea se refiere a una colección de técnicas de investigación que se utilizan para describir y hacer inferencias sobre el material en línea mediante la codificación e interpretación sistemáticas. El análisis de contenido en línea es una forma de análisis de contenido para el análisis de la comunicación basada en Internet.

Historia y definición

El análisis de contenido como examen e interpretación sistemáticos de la comunicación se remonta al menos al siglo XVII. Sin embargo, no fue hasta el auge del periódico a principios del siglo XX que la producción masiva de material impreso creó una demanda de análisis cuantitativo de palabras impresas.

La definición de Berelson (1952) proporciona una base subyacente para el análisis textual como una "técnica de investigación para la descripción objetiva, sistemática y cuantitativa del contenido manifiesto de la comunicación". El análisis de contenido consiste en categorizar unidades de textos (es decir, oraciones, cuasi-oraciones, párrafos, documentos, páginas web, etc.) de acuerdo con sus características sustantivas para construir un conjunto de datos que le permita al analista interpretar textos y hacer inferencias. Si bien el análisis de contenido suele ser cuantitativo , los investigadores conceptualizan la técnica como métodos intrínsecamente mixtos porque la codificación textual requiere un alto grado de interpretación cualitativa . Los científicos sociales han utilizado esta técnica para investigar cuestiones de investigación relacionadas con los medios de comunicación , los efectos de los medios y el establecimiento de la agenda .

Con el auge de la comunicación en línea, las técnicas de análisis de contenido se han adaptado y aplicado a la investigación en Internet . Al igual que con el auge de los periódicos, la proliferación de contenido en línea brinda una oportunidad más amplia para los investigadores interesados ​​en el análisis de contenido. Si bien el uso de fuentes en línea presenta nuevos problemas y oportunidades de investigación, el procedimiento de investigación básico del análisis de contenido en línea descrito por McMillan (2000) es prácticamente indistinguible del análisis de contenido que utiliza fuentes fuera de línea:

  1. Formule una pregunta de investigación con un enfoque en la identificación de hipótesis comprobables que puedan conducir a avances teóricos.
  2. Defina un marco de muestreo del que se extraerá una muestra y construya una muestra (a menudo denominada "corpus") de contenido para analizar.
  3. Desarrolle e implemente un esquema de codificación que pueda usarse para categorizar contenido a fin de responder a la pregunta identificada en el paso 1. Esto requiere especificar un período de tiempo, una unidad de contexto en la que se inserta el contenido y una unidad de codificación que categoriza el contenido.
  4. Capacite a los codificadores para que implementen sistemáticamente el esquema de codificación y verifiquen la confiabilidad entre los codificadores. Este es un paso clave para garantizar la replicabilidad del análisis.
  5. Analizar e interpretar los datos. Pruebe las hipótesis avanzadas en el paso 1 y saque conclusiones sobre el contenido representado en el conjunto de datos.

Análisis de contenido en la investigación en Internet

Desde el auge de la comunicación en línea, los académicos han discutido cómo adaptar las técnicas de análisis textual para estudiar el contenido basado en la web. La naturaleza de las fuentes en línea requiere un cuidado especial en muchos de los pasos de un análisis de contenido en comparación con las fuentes fuera de línea.

Si bien el contenido fuera de línea, como el texto impreso, permanece estático una vez producido, el contenido en línea puede cambiar con frecuencia. La naturaleza dinámica del material en línea combinada con el gran y creciente volumen de contenido en línea puede dificultar la construcción de un marco de muestreo del cual extraer una muestra aleatoria. El contenido de un sitio también puede diferir entre usuarios, lo que requiere una especificación cuidadosa del marco de muestreo. Algunos investigadores han utilizado motores de búsqueda para construir marcos de muestreo. Esta técnica tiene desventajas porque los resultados de los motores de búsqueda no son sistemáticos ni aleatorios, lo que los hace poco fiables para obtener una muestra imparcial. El problema del marco de muestreo se puede eludir mediante el uso de toda una población de interés, como los tweets de usuarios particulares de Twitter o el contenido archivado en línea de ciertos periódicos como marco de muestreo. Los cambios en el material en línea pueden hacer que la categorización del contenido (paso 3) sea más desafiante. Debido a que el contenido en línea puede cambiar con frecuencia, es particularmente importante tener en cuenta el período de tiempo durante el cual se recopila la muestra. Un paso útil es archivar el contenido de muestra para evitar que se realicen cambios.

El contenido en línea tampoco es lineal. El texto impreso tiene límites claramente delineados que pueden usarse para identificar unidades de contexto (por ejemplo, un artículo de periódico). Los límites del contenido en línea que se utilizará en una muestra son menos fáciles de definir. Los primeros analistas de contenido en línea a menudo especificaban un 'sitio web' como una unidad de contexto, sin una definición clara de lo que querían decir. Los investigadores recomiendan definir de forma clara y coherente en qué consiste una "página web" o reducir el tamaño de la unidad de contexto a una característica de un sitio web. Los investigadores también han hecho uso de unidades más discretas de comunicación en línea, como comentarios web o tweets.

King (2008) utilizó una ontología de términos entrenados a partir de muchos miles de documentos preclasificados para analizar el tema de varios motores de búsqueda.

Análisis de contenido automático

El aumento del contenido en línea ha aumentado drásticamente la cantidad de texto digital que se puede utilizar en la investigación. La cantidad de texto disponible ha motivado innovaciones metodológicas para dar sentido a conjuntos de datos textuales que son demasiado grandes para ser codificados prácticamente a mano como había sido la práctica metodológica convencional. Los avances en la metodología, junto con la capacidad cada vez mayor y el gasto decreciente de la computación, han permitido a los investigadores utilizar técnicas que antes no estaban disponibles para analizar grandes conjuntos de contenido textual.

El análisis de contenido automático representa una ligera desviación del procedimiento de análisis de contenido en línea de McMillan en el sentido de que los codificadores humanos se complementan con un método computacional, y algunos de estos métodos no requieren que las categorías se definan de forma avanzada. Modelos de análisis textual cuantitativos a menudo 'emplean bolsa de palabras ' métodos esa palabra de eliminación de pedidos, las palabras de borrado que son muy comunes y muy poco común, y las palabras Simplificar través de lematización o derivados que reduce la dimensionalidad del texto mediante la reducción de las palabras complejas de la palabra de raíz. Si bien estos métodos son fundamentalmente reduccionistas en la forma en que interpretan el texto, pueden ser muy útiles si se aplican y validan correctamente.

Grimmer y Stewart (2013) identifican dos categorías principales de análisis textual automático: métodos supervisados y no supervisados . Los métodos supervisados implican la creación de un esquema de codificación y la codificación manual de una submuestra de los documentos que el investigador desea analizar. Idealmente, la submuestra, denominada "conjunto de formación", es representativa de la muestra en su conjunto. El conjunto de entrenamiento codificado se utiliza para "enseñar" a un algoritmo cómo las palabras de los documentos corresponden a cada categoría de codificación. El algoritmo se puede aplicar para analizar automáticamente el resto de los documentos en el corpus.

  • Métodos de diccionario: el investigador preselecciona un conjunto de palabras clave ( n-gram ) para cada categoría. Luego, la máquina usa estas palabras clave para clasificar cada unidad de texto en una categoría.
  • Métodos individuales: el investigador etiqueta previamente una muestra de textos y entrena un algoritmo de aprendizaje automático (es decir, el algoritmo SVM ) utilizando esas etiquetas. La máquina etiqueta el resto de las observaciones extrapolando información del conjunto de entrenamiento.
  • Métodos de conjunto: en lugar de usar solo un algoritmo de aprendizaje automático, el investigador entrena un conjunto de ellos y usa las múltiples etiquetas resultantes para etiquetar el resto de las observaciones (consulte Collingwood y Wiklerson 2011 para obtener más detalles).
  • La escala ideológica supervisada (es decir, puntuaciones de palabras) se utiliza para colocar diferentes unidades de texto a lo largo de un continuo ideológico. El investigador selecciona dos conjuntos de textos que representan cada extremo ideológico, que el algoritmo puede utilizar para identificar palabras que pertenecen a cada punto extremo. El resto de los textos del corpus se escalan según la cantidad de palabras de cada referencia extrema que contengan.

Se pueden utilizar métodos no supervisados cuando un conjunto de categorías para la codificación no se puede definir bien antes del análisis. A diferencia de los métodos supervisados, los codificadores humanos no están obligados a entrenar el algoritmo. Una opción clave para los investigadores al aplicar métodos no supervisados ​​es seleccionar el número de categorías en las que clasificar los documentos en lugar de definir de antemano cuáles son las categorías.

  • Modelos de membresía única: estos modelos agrupan automáticamente los textos en diferentes categorías que son mutuamente excluyentes, y los documentos se codifican en una y solo una categoría. Como señalan Grimmer y Stewart (16), "cada algoritmo tiene tres componentes: (1) una definición de similitud o distancia del documento; (2) una función objetiva que operacionaliza y agrupamiento ideal; y (3) un algoritmo de optimización".
  • Modelos de membresía mixta: De acuerdo también con Grimmer y Stewart (17), los modelos de membresía mixta "mejoran el resultado de los modelos de membresía única al incluir una estructura adicional y específica del problema". Los modelos FAC de membresía mixta clasifican palabras individuales dentro de cada documento en categorías, lo que permite que el documento en su conjunto sea parte de varias categorías simultáneamente. Los modelos temáticos representan un ejemplo de FAC de membresía mixta que se puede utilizar para analizar cambios en el enfoque de actores políticos o artículos de periódicos. Una de las técnicas de modelado de temas más utilizadas es LDA .
  • Escala ideológica no supervisada (es decir, peces de palabras): algoritmos que asignan unidades de texto en un continuo ideológico en función del contenido gramatical compartido. A diferencia de los métodos de escalado supervisados, como los puntajes de palabras, los métodos como el pez de palabras no requieren que el investigador proporcione muestras de textos ideológicos extremos.

Validación

Los resultados de los métodos supervisados ​​se pueden validar extrayendo una submuestra distinta del corpus, denominada "conjunto de validación". Los documentos del conjunto de validación se pueden codificar a mano y comparar con la salida de codificación automática para evaluar qué tan bien el algoritmo replica la codificación humana. Esta comparación puede tomar la forma de puntajes de confiabilidad entre codificadores como los que se utilizan para validar la consistencia de los codificadores humanos en el análisis textual tradicional.

La validación de métodos no supervisados ​​se puede realizar de varias formas.

  • La validez semántica (o interna ) representa qué tan bien los documentos en cada grupo identificado representan una unidad categórica distinta. En un modelo de tema, esta sería la medida en que los documentos de cada grupo representan el mismo tema. Esto se puede probar creando un conjunto de validación que los codificadores humanos usan para validar manualmente la elección del tema o la relación de los documentos dentro del clúster en comparación con los documentos de diferentes clústeres.
  • La validez predictiva (o externa ) es la medida en que los cambios en la frecuencia de cada grupo pueden explicarse por eventos externos. Si los grupos de temas son válidos, los temas más destacados deben responder a lo largo del tiempo de una manera predecible como resultado de eventos externos que ocurran.

Desafíos en el análisis textual en línea

A pesar de la continua evolución del análisis de textos en las ciencias sociales, todavía quedan algunas preocupaciones metodológicas sin resolver. Esta es una lista (no exclusiva) con algunas de estas inquietudes:

  • ¿Cuándo deberían los investigadores definir sus categorías? ¿Ex ante , ida y vuelta o ad-hoc ? Algunos científicos sociales argumentan que los investigadores deberían construir su teoría, expectativas y métodos (en este caso, categorías específicas que usarán para clasificar diferentes unidades de texto) antes de comenzar a recopilar y estudiar los datos, mientras que otros apoyan que definir un conjunto de categorías es una cuestión de fondo. proceso de ida y vuelta.
  • Validación. Aunque la mayoría de los investigadores informan las mediciones de validación de sus métodos (es decir, fiabilidad entre codificadores, estimaciones de precisión y recuperación, matrices de confusión, etc.), algunos otros no lo hacen. En particular, a un mayor número de académicos les preocupa cómo algunas técnicas de modelado de temas difícilmente pueden validarse.
  • Muestras aleatorias. Por un lado, es extremadamente difícil saber cuántas unidades de un tipo de texto (por ejemplo, entradas de blog) hay en Internet en un tiempo determinado. Por lo tanto, dado que la mayor parte del tiempo se desconoce el universo, ¿cómo puede el investigador seleccionar una muestra aleatoria? Si en algunos casos es casi imposible obtener una muestra aleatoria, ¿deberían los investigadores trabajar con muestras o deberían intentar recopilar todas las unidades de texto que observan? Y, por otro lado, a veces los investigadores tienen que trabajar con muestras que les proporcionan algunos motores de búsqueda (por ejemplo, Google) y empresas en línea (por ejemplo, Twitter), pero la investigación no tiene acceso a cómo se han generado estas muestras y si son aleatorios o no. ¿Deberían las investigaciones utilizar tales muestras?

Ver también

Referencias