Calidad de los datos - Data quality

La calidad de los datos se refiere al estado de la información cualitativa o cuantitativa . Hay muchas definiciones de calidad de datos, pero los datos generalmente se consideran de alta calidad si son "aptos para [sus] usos previstos en operaciones , toma de decisiones y planificación ". Además, los datos se consideran de alta calidad si representan correctamente el constructo del mundo real al que se refieren. Además, aparte de estas definiciones, a medida que aumenta el número de fuentes de datos, la cuestión de la coherencia de los datos internosse vuelve significativo, independientemente de la idoneidad para su uso para cualquier propósito externo en particular. Las opiniones de las personas sobre la calidad de los datos a menudo pueden estar en desacuerdo, incluso cuando se discute el mismo conjunto de datos utilizados para el mismo propósito. Cuando este es el caso, la gobernanza de datos se utiliza para formar definiciones y estándares acordados para la calidad de los datos. En tales casos, la limpieza de datos , incluida la estandarización, puede ser necesaria para garantizar la calidad de los datos.

Definiciones

Definir la calidad de los datos en una oración es difícil debido a los muchos contextos en los que se utilizan los datos, así como a las diferentes perspectivas entre los usuarios finales, los productores y los custodios de los datos.

Desde la perspectiva del consumidor, la calidad de los datos es:

  • "datos aptos para el uso de los consumidores de datos"
  • datos "que cumplen o superan las expectativas del consumidor"
  • datos que "satisfagan los requisitos de su uso previsto"

Desde una perspectiva empresarial, la calidad de los datos es:

  • datos que son "'aptos para su uso' en sus funciones operativas, de toma de decisiones y de otro tipo" o que exhiben "conformidad con los estándares 'que se han establecido, de modo que se logre la aptitud para el uso"
  • datos que "son aptos para los usos previstos en las operaciones, la toma de decisiones y la planificación"
  • "la capacidad de los datos para satisfacer los requisitos comerciales, del sistema y técnicos establecidos de una empresa"

Desde una perspectiva basada en estándares, la calidad de los datos es:

  • el "grado en el que un conjunto de características inherentes (dimensiones de calidad) de un objeto (datos) cumple los requisitos"
  • "la utilidad, exactitud y corrección de los datos para su aplicación"

Podría decirse que, en todos estos casos, la "calidad de los datos" es una comparación del estado real de un conjunto particular de datos con un estado deseado, y el estado deseado se denomina típicamente "apto para su uso", "según la especificación", " cumpliendo con las expectativas del consumidor "," libre de defectos "o" cumpliendo con los requisitos ". Estas expectativas, especificaciones y requisitos suelen ser definidos por uno o más individuos o grupos, organizaciones de estándares, leyes y regulaciones, políticas comerciales o políticas de desarrollo de software. Profundizando más, esas expectativas, especificaciones y requisitos se expresan en términos de características o dimensiones de los datos, tales como:

  • accesibilidad o disponibilidad
  • exactitud o corrección
  • comparabilidad
  • integridad o exhaustividad
  • consistencia, coherencia o claridad
  • credibilidad, confiabilidad o reputación
  • flexibilidad
  • plausibilidad
  • relevancia, pertinencia o utilidad
  • puntualidad o latencia
  • unicidad
  • validez o razonabilidad

Una revisión sistemática del alcance de la literatura sugiere que las dimensiones de la calidad de los datos y los métodos con datos del mundo real no son consistentes en la literatura y, como resultado, las evaluaciones de la calidad son un desafío debido a la naturaleza compleja y heterogénea de estos datos.

En 2021, el grupo de trabajo Data Quality de DAMA Netherlands ha llevado a cabo una investigación sobre las definiciones de las dimensiones de la calidad de los datos. Ha recopilado definiciones de diversas fuentes y las ha comparado entre sí. El grupo de trabajo también probó las definiciones con criterios derivados de una norma para conceptos y definiciones: ISO 704 . Los resultados son una lista de 60 dimensiones de la calidad de los datos y sus definiciones.

Historia

Antes del auge del almacenamiento de datos informáticos de bajo costo , se usaban computadoras centrales masivas para mantener los datos de nombres y direcciones para los servicios de entrega. Esto fue para que el correo se pudiera enrutar correctamente a su destino. Los mainframes utilizaban reglas comerciales para corregir errores ortográficos y tipográficos comunes en los datos de nombre y dirección, así como para rastrear a los clientes que se habían mudado, muerto, ido a prisión, casado, divorciado o experimentado otros eventos que cambiaron la vida. Las agencias gubernamentales comenzaron a poner los datos postales a disposición de algunas empresas de servicios para hacer una referencia cruzada de los datos de los clientes con el registro nacional de cambio de dirección (NCOA) . Esta tecnología ahorró a las grandes empresas millones de dólares en comparación con la corrección manual de los datos de los clientes. Las grandes empresas ahorraron en gastos de envío, ya que las facturas y los materiales de marketing directo llegaron al cliente previsto con mayor precisión. Inicialmente vendido como un servicio, la calidad de los datos se trasladó dentro de las paredes de las corporaciones, a medida que se hizo disponible una poderosa tecnología de servidor de bajo costo.

Las empresas con énfasis en el marketing a menudo centraron sus esfuerzos de calidad en la información del nombre y la dirección, pero la calidad de los datos se reconoce como una propiedad importante de todo tipo de datos. Los principios de la calidad de los datos se pueden aplicar a los datos de la cadena de suministro, los datos transaccionales y casi todas las demás categorías de datos que se encuentren. Por ejemplo, hacer que los datos de la cadena de suministro se ajusten a un cierto estándar tiene valor para una organización al: 1) evitar el exceso de existencias de existencias similares pero ligeramente diferentes; 2) evitar falsos desabastecimientos; 3) mejorar la comprensión de las compras de los proveedores para negociar descuentos por volumen; y 4) evitar los costos de logística en el almacenamiento y envío de piezas en una gran organización.

Para las empresas con importantes esfuerzos de investigación, la calidad de los datos puede incluir el desarrollo de protocolos para métodos de investigación, la reducción de errores de medición , la verificación de límites de datos, la tabulación cruzada , el modelado y la detección de valores atípicos, la verificación de la integridad de los datos , etc.

Visión general

Hay varios marcos teóricos para comprender la calidad de los datos. Un enfoque teórico de sistemas influenciado por el pragmatismo estadounidense amplía la definición de calidad de datos para incluir la calidad de la información y enfatiza la inclusión de las dimensiones fundamentales de exactitud y precisión sobre la base de la teoría de la ciencia (Ivanov, 1972). Un marco, denominado "Datos con cero defectos" (Hansen, 1991) adapta los principios del control de procesos estadísticos a la calidad de los datos. Otro marco busca integrar la perspectiva del producto (conformidad con las especificaciones) y la perspectiva del servicio (satisfacer las expectativas de los consumidores) (Kahn et al. 2002). Otro marco se basa en la semiótica para evaluar la calidad de la forma, significado y uso de los datos (Price y Shanks, 2004). Un enfoque altamente teórico analiza la naturaleza ontológica de los sistemas de información para definir la calidad de los datos de manera rigurosa (Wand y Wang, 1996).

Una cantidad considerable de investigación sobre la calidad de los datos implica investigar y describir varias categorías de atributos (o dimensiones) deseables de los datos. Se han identificado casi 200 de estos términos y hay poco acuerdo sobre su naturaleza (¿son estos conceptos, objetivos o criterios?), Sus definiciones o medidas (Wang et al., 1993). Los ingenieros de software pueden reconocer esto como un problema similar a las " ilidades ".

El MIT cuenta con un Programa de Calidad de la Información (MITIQ), dirigido por el profesor Richard Wang, que produce un gran número de publicaciones y alberga una importante conferencia internacional en este campo (International Conference on Information Quality, ICIQ). Este programa surgió del trabajo realizado por Hansen en el marco de "Datos de cero defectos" (Hansen, 1991).

En la práctica, la calidad de los datos es una preocupación para los profesionales involucrados con una amplia gama de sistemas de información, que van desde el almacenamiento de datos y la inteligencia empresarial hasta la gestión de las relaciones con los clientes y la gestión de la cadena de suministro . Un estudio de la industria calculó el costo total para la economía estadounidense de los problemas de calidad de los datos en más de 600 mil millones de dólares por año (Eckerson, 2002). Los datos incorrectos, que incluyen información no válida y desactualizada, pueden provenir de diferentes fuentes de datos, a través de la entrada de datos o proyectos de conversión y migración de datos .

En 2002, USPS y PricewaterhouseCoopers publicaron un informe que indica que el 23,6 por ciento de todo el correo enviado en los Estados Unidos tiene una dirección incorrecta.

Una de las razones por las que los datos de contacto se vuelven obsoletos muy rápidamente en la base de datos promedio es que más de 45 millones de estadounidenses cambian su dirección cada año.

De hecho, el problema es tan preocupante que las empresas están comenzando a establecer un equipo de gobierno de datos cuya única función en la corporación es ser responsable de la calidad de los datos. En algunas organizaciones, esta función de gobernanza de datos se ha establecido como parte de una función de cumplimiento normativo más amplia: un reconocimiento de la importancia de la calidad de los datos / información para las organizaciones.

Los problemas con la calidad de los datos no solo surgen de datos incorrectos ; Los datos inconsistentes también son un problema. Eliminar los sistemas de sombra de datos y centralizar los datos en un almacén es una de las iniciativas que puede tomar una empresa para garantizar la coherencia de los datos.

Empresas, científicos e investigadores están comenzando a participar en las comunidades de conservación de datos para mejorar la calidad de sus datos comunes.

El mercado está avanzando hacia la garantía de la calidad de los datos. Varios proveedores fabrican herramientas para analizar y reparar datos de baja calidad in situ , los proveedores de servicios pueden limpiar los datos por contrato y los consultores pueden asesorar sobre la reparación de procesos o sistemas para evitar problemas de calidad de los datos en primer lugar. La mayoría de las herramientas de calidad de datos ofrecen una serie de herramientas para mejorar los datos, que pueden incluir algunas o todas las siguientes:

  1. Elaboración de perfiles de datos : evaluación inicial de los datos para comprender su estado actual, que a menudo incluye distribuciones de valor.
  2. Estandarización de datos: un motor de reglas comerciales que garantiza que los datos se ajusten a los estándares.
  3. Codificación geográfica: para datos de nombre y dirección. Corrige los datos según los estándares geográficos de EE. UU. Y de todo el mundo
  4. Coincidencia o vinculación : una forma de comparar datos para que se puedan alinear registros similares, pero ligeramente diferentes. El emparejamiento puede usar "lógica difusa" para encontrar duplicados en los datos. A menudo reconoce que "Bob" y "Bbo" pueden ser el mismo individuo. Podría ser capaz de gestionar el "hogar" o encontrar vínculos entre los cónyuges en la misma dirección, por ejemplo. Por último, a menudo puede crear un registro de "lo mejor de su clase", tomando los mejores componentes de múltiples fuentes de datos y creando un único superregistro.
  5. Supervisión: realizar un seguimiento de la calidad de los datos a lo largo del tiempo e informar de las variaciones en la calidad de los datos. El software también puede corregir automáticamente las variaciones en función de reglas comerciales predefinidas.
  6. Por lotes y en tiempo real: una vez que los datos se limpian inicialmente (por lotes), las empresas a menudo desean integrar los procesos en aplicaciones empresariales para mantenerlos limpios.

Hay varios autores conocidos y expertos que se autodenominan, siendo Larry English quizás el gurú más popular . Además, IQ International, la Asociación Internacional para la Calidad de la Información y los Datos, se estableció en 2004 para proporcionar un punto focal para profesionales e investigadores en este campo.

ISO 8000 es un estándar internacional de calidad de datos.

Aseguramiento de la calidad de los datos

El aseguramiento de la calidad de los datos es el proceso de elaboración de perfiles de datos para descubrir inconsistencias y otras anomalías en los datos, así como realizar actividades de limpieza de datos (por ejemplo, eliminar valores atípicos , interpolación de datos faltantes) para mejorar la calidad de los datos.

Estas actividades se pueden realizar como parte del almacenamiento de datos o como parte de la administración de la base de datos de un software de aplicación existente .

Control de calidad de datos

El control de calidad de los datos es el proceso de controlar el uso de datos para una aplicación o un proceso. Este proceso se realiza antes y después de un proceso de Garantía de calidad de los datos (QA), que consiste en el descubrimiento de la inconsistencia y corrección de los datos.

Antes:

  • Restringe las entradas

Después del proceso de QA, se recopilan las siguientes estadísticas para guiar el proceso de Control de Calidad (QC):

  • Severidad de la inconsistencia
  • Incompletitud
  • Precisión
  • Precisión
  • Falta / Desconocido

El proceso de control de calidad de datos utiliza la información del proceso de control de calidad para decidir utilizar los datos para el análisis o en una aplicación o proceso comercial. Ejemplo general: si un proceso de control de calidad de datos encuentra que los datos contienen demasiados errores o inconsistencias, evita que esos datos se utilicen para el proceso previsto, lo que podría causar una interrupción. Ejemplo específico: proporcionar mediciones no válidas de varios sensores a la función de piloto automático de una aeronave podría provocar su colisión. Por lo tanto, el establecimiento de un proceso de control de calidad proporciona protección contra el uso de datos.

Uso óptimo de la calidad de los datos

La calidad de los datos (DQ) es un área de nicho necesaria para la integridad de la gestión de datos al cubrir las lagunas de los problemas de datos. Esta es una de las funciones clave que ayudan a la gobernanza de datos al monitorear los datos para encontrar excepciones no descubiertas por las operaciones de administración de datos actuales. Las comprobaciones de la calidad de los datos pueden definirse a nivel de atributo para tener un control total sobre sus pasos de remediación.

Las verificaciones de DQ y las reglas comerciales pueden superponerse fácilmente si una organización no está atenta a su alcance de DQ. Los equipos comerciales deben comprender a fondo el alcance de la DQ para evitar superposiciones. Los controles de calidad de los datos son redundantes si la lógica empresarial cubre la misma funcionalidad y cumple el mismo propósito que DQ. El alcance de DQ de una organización debe estar definido en la estrategia de DQ y bien implementado. Algunas verificaciones de la calidad de los datos pueden traducirse en reglas comerciales después de repetidos casos de excepciones en el pasado.

A continuación, se muestran algunas áreas de los flujos de datos que pueden necesitar comprobaciones de DQ perennes:

Se pueden realizar comprobaciones DQ de integridad y precisión en todos los datos en el punto de entrada para cada atributo obligatorio de cada sistema fuente. Se crean pocos valores de atributo mucho después de la creación inicial de la transacción; en tales casos, administrar estas verificaciones se vuelve complicado y debe hacerse inmediatamente después de que se cumplan el evento definido de la fuente de ese atributo y las demás condiciones del atributo central de la transacción.

Todos los datos que tienen atributos que se refieren a los datos de referencia en la organización pueden validarse contra el conjunto de valores válidos bien definidos de los datos de referencia para descubrir valores nuevos o discrepantes a través de la verificación DQ de validez . Los resultados se pueden utilizar para actualizar los datos de referencia administrados en la gestión de datos maestros (MDM) .

Todos los datos provenientes de un tercero a los equipos internos de la organización pueden someterse a una verificación de precisión (DQ) con los datos de terceros. Estos resultados de verificación de DQ son valiosos cuando se administran en datos que realizaron varios saltos después del punto de entrada de esos datos, pero antes de que los datos se autoricen o se almacenen para la inteligencia empresarial.

Todas las columnas de datos que se refieren a datos maestros pueden validarse para su verificación de coherencia . Una verificación de DQ administrada en los datos en el punto de entrada descubre nuevos datos para el proceso de MDM, pero una verificación de DQ administrada después del punto de entrada descubre la falla (no las excepciones) de consistencia.

A medida que los datos se transforman, se capturan varias marcas de tiempo y las posiciones de esas marcas de tiempo y se pueden comparar entre sí y su margen de maniobra para validar su valor, deterioro y significado operativo frente a un SLA (acuerdo de nivel de servicio) definido. Esta verificación de puntualidad DQ se puede utilizar para disminuir la tasa de deterioro del valor de los datos y optimizar las políticas de la línea de tiempo del movimiento de datos.

En una organización, la lógica compleja generalmente se segrega en una lógica más simple a través de múltiples procesos. Razonabilidad cheques DQ en tales lógica compleja rendimiento a un resultado lógico dentro de un rango específico de valores o interrelaciones estáticos (reglas de negocio agregados) pueden ser validados para descubrir complicados procesos de negocio pero cruciales y valores atípicos de los datos, su deriva de BAU (como de costumbre ) expectativas, y puede proporcionar posibles excepciones que eventualmente resulten en problemas de datos. Esta verificación puede ser una simple regla de agregación genérica englobada por una gran cantidad de datos o puede ser una lógica complicada en un grupo de atributos de una transacción perteneciente al negocio principal de la organización. Esta verificación de DQ requiere un alto grado de conocimiento y perspicacia comercial. El descubrimiento de problemas de razonabilidad puede ayudar a los cambios de política y estrategia por parte del negocio, el gobierno de datos o ambos.

Las comprobaciones de conformidad y las comprobaciones de integridad no tienen por qué cubrir todas las necesidades comerciales, están estrictamente bajo la discreción de la arquitectura de la base de datos.

Hay muchos lugares en el movimiento de datos donde es posible que no se requieran verificaciones de DQ. Por ejemplo, la verificación DQ de la integridad y precisión de las columnas no nulas es redundante para los datos que se obtienen de la base de datos. De manera similar, los datos deben validarse por su precisión con respecto al momento en que los datos se unen en fuentes dispares. Sin embargo, esa es una regla comercial y no debería estar en el alcance de DQ.

Lamentablemente, desde la perspectiva del desarrollo de software, la DQ a menudo se considera un requisito no funcional. Y como tal, los controles / procesos de calidad de datos clave no se tienen en cuenta en la solución de software final. Dentro de la atención médica, las tecnologías portátiles o las redes de área corporal generan grandes volúmenes de datos. El nivel de detalle necesario para garantizar la calidad de los datos es extremadamente alto y, a menudo, se subestima. Esto también es cierto para la gran mayoría de aplicaciones de mHealth , EHR y otras soluciones de software relacionadas con la salud. Sin embargo, existen algunas herramientas de código abierto que examinan la calidad de los datos. La razón principal de esto, se debe al costo adicional involucrado que se agrega un mayor grado de rigor dentro de la arquitectura del software.

Seguridad y privacidad de los datos de salud

El uso de dispositivos móviles en salud, o mHealth, crea nuevos desafíos para la seguridad y privacidad de los datos de salud , de formas que afectan directamente la calidad de los datos. La mHealth es una estrategia cada vez más importante para la prestación de servicios de salud en países de ingresos bajos y medianos. Los teléfonos móviles y las tabletas se utilizan para la recopilación, generación de informes y análisis de datos casi en tiempo real. Sin embargo, estos dispositivos móviles también se usan comúnmente para actividades personales, lo que los hace más vulnerables a los riesgos de seguridad que podrían conducir a violaciones de datos. Sin las garantías de seguridad adecuadas, este uso personal podría poner en peligro la calidad, seguridad y confidencialidad de los datos de salud .

Calidad de los datos en salud pública

La calidad de los datos se ha convertido en un foco importante de los programas de salud pública en los últimos años, especialmente a medida que aumenta la demanda de rendición de cuentas. El trabajo hacia metas ambiciosas relacionadas con la lucha contra enfermedades como el SIDA, la tuberculosis y la malaria debe basarse en sistemas sólidos de Monitoreo y Evaluación que produzcan datos de calidad relacionados con la implementación del programa. Estos programas, y los auditores de programas, buscan cada vez más herramientas para estandarizar y agilizar el proceso de determinación de la calidad de los datos, verificar la calidad de los datos reportados y evaluar los sistemas subyacentes de gestión de datos y presentación de informes para los indicadores. Un ejemplo es la herramienta de revisión de la calidad de los datos de la OMS y MEASURE Evaluation. La OMS, el Fondo Mundial, GAVI y MEASURE Evaluation han colaborado para producir un enfoque armonizado para el aseguramiento de la calidad de los datos en diferentes enfermedades y programas.

Calidad de datos abiertos

Hay una serie de trabajos científicos dedicados al análisis de la calidad de los datos en fuentes de datos abiertas , como Wikipedia , Wikidata , DBpedia y otras. En el caso de Wikipedia, el análisis de calidad puede referirse a todo el artículo. El modelado de la calidad se lleva a cabo mediante varios métodos. Algunos de ellos utilizan algoritmos de aprendizaje automático , incluidos Random Forest , Support Vector Machine y otros. Los métodos para evaluar la calidad de los datos en Wikidata, DBpedia y otras fuentes LOD difieren.

Asociaciones profesionales

IQ International: la Asociación Internacional para la Calidad de la Información y los Datos
IQ International es una asociación profesional sin fines de lucro, independiente de proveedores, formada en 2004, dedicada a desarrollar la profesión de la calidad de la información y los datos.

ECCMA (Asociación de gestión de códigos de comercio electrónico)

La Asociación de Administración de Códigos de Comercio Electrónico (ECCMA) es una asociación internacional sin fines de lucro basada en miembros comprometida a mejorar la calidad de los datos a través de la implementación de estándares internacionales. ECCMA es el líder actual del proyecto para el desarrollo de ISO 8000 e ISO 22745, que son los estándares internacionales para la calidad de los datos y el intercambio de datos maestros de materiales y servicios, respectivamente.

ECCMA proporciona una plataforma para la colaboración entre expertos en la materia sobre la calidad de los datos y la gobernanza de los datos en todo el mundo para crear y mantener diccionarios estándar abiertos y globales que se utilizan para etiquetar información sin ambigüedades. La existencia de estos diccionarios de etiquetas permite que la información pase de un sistema informático a otro sin perder significado.

Ver también

Referencias

Otras lecturas

  • Baškarada, S; Koronios, A (2014). "Un marco de factores críticos de éxito para la gestión de la calidad de la información". Gestión de sistemas de información . 31 (4): 1–20. doi : 10.1080 / 10580530.2014.958023 . S2CID  33018618 .
  • Baamann, Katharina, "Aspectos de la calidad de los datos de la garantía de ingresos", artículo
  • Eckerson, W. (2002) "Informe especial de almacenamiento de datos: calidad de los datos y el resultado final", artículo
  • Ivanov, K. (1972) "Control de calidad de la información: sobre el concepto de precisión de la información en los bancos de datos y en los sistemas de información de gestión" . La Universidad de Estocolmo y el Real Instituto de Tecnología. Tesis doctoral.
  • Hansen, M. (1991) Datos de cero defectos, MIT. Tesis de maestría [1]
  • Kahn, B., Strong, D., Wang, R. (2002) "Parámetros de calidad de la información: rendimiento de productos y servicios", Communications of the ACM, abril de 2002. págs. 184-192. Artículo
  • Price, R. y Shanks, G. (2004) Un marco de calidad de la información semiótica, Proc. Conferencia internacional de IFIP sobre sistemas de apoyo a las decisiones (DSS2004): apoyo a las decisiones en un mundo incierto y complejo, Prato. Artículo
  • Redman, TC (2008) Basado en datos: cómo beneficiarse de nuestro activo comercial más importante
  • Wand, Y. y Wang, R. (1996) "Anchoring Data Quality Dimensions in Ontological Foundations", Communications of the ACM, noviembre de 1996. págs. 86–95. Artículo
  • Wang, R., Kon, H. & Madnick, S. (1993), Análisis y modelado de requisitos de calidad de datos, Novena Conferencia Internacional de Ingeniería de Datos, Viena, Austria. Artículo
  • Fournel Michel, Accroitre la qualité et la valeur des données de vos clients, éditions Publibook, 2007. ISBN  978-2-7483-3847-8 .
  • Daniel F., Casati F., Palpanas T., Chayka O., Cappiello C. (2008) "Habilitando Mejores Decisiones a través de Informes Sensibles a la Calidad", Congreso Internacional sobre Calidad de la Información (ICIQ), MIT. Artículo
  • Jack E. Olson (2003), "Calidad de los datos: la dimensión de la precisión", Morgan Kaufmann Publishers
  • Woodall P., Oberhofer M. y Borek A. (2014), "Una clasificación de métodos de evaluación y mejora de la calidad de los datos" . Revista Internacional de Calidad de la Información 3 (4), 298–321. doi: 10.1504 / ijiq.2014.068656 .
  • Woodall, P., Borek, A. y Parlikad, A. (2013), "Evaluación de la calidad de los datos: el enfoque híbrido". Information & Management 50 (7), 369–382.

enlaces externos