Saltar al contenido

Por qué necesita una solución de ciclo de vida de datos integrada

Por que necesita una solucion de ciclo de vida de
TOP. 1
LOCAS POR EL CAMBIO
LOCAS POR EL CAMBIO
Amazon Prime Video (Video on Demand); Sofía Sisniega, Mariel Molino, Mauricio Argüelles (Actors)

                Casi todas las empresas que han pasado por una transformación digital han luchado por hacer el mejor uso de la gran cantidad de datos recopilados.  De hecho, estimamos que para la mayoría de las empresas, el 85-95% de los datos nunca se utilizan por completo y, por lo tanto, se desperdician.

Hay muchas etapas en el ciclo de vida de los datos, incluida la adquisición de datos, la creación de conjuntos de datos / ingeniería de datos para dar sentido a los datos sin procesar, el almacenamiento masivo de datos para el uso / análisis posterior, la creación de bases de datos para explorar los datos y, finalmente, la capacidad de utilizar análisis avanzados y / o aprendizaje automático para extraer conocimientos de datos no disponibles a través de informes simples, mientras se mantiene la seguridad de los datos y cumplimiento normativo total. El desafío para muchas organizaciones es cómo configurar mejor dicho sistema, manteniendo los costos razonables y minimizando el tiempo de implementación / operación, así como el desafío de presentar los datos de una manera significativa para que las personas puede derivar información de él.

Lo que se necesita es una forma de administrar todo el ciclo de vida de los datos, desde la adquisición hasta el análisis para obtener información, mientras se conservan los beneficios del código abierto y la capacidad de utilizarlo. ‘Informática nativa en las instalaciones y / o híbrida o en la nube. Los almacenes de datos existen desde hace algún tiempo y pueden manejar el almacenamiento y la entrega, pero no brindan una solución completa. Muchas organizaciones han implementado nubes de datos, ya sea a través de código abierto puro (por ejemplo, Apache Hadoop) o como productos comerciales (por ejemplo, Talend, Informatica, Amazon Redshift, IBM, SAP, Oracle , etc.), pero esto no resuelve el desafío del ciclo de vida del conjunto de datos y, a menudo, requiere el uso de muchos complementos dispares que pueden no integrarse fácilmente.

                Casi todas las empresas que han pasado por una transformación digital han luchado por hacer el mejor uso de la gran cantidad de datos recopilados.  De hecho, estimamos que para la mayoría de las empresas, el 85-95% de los datos nunca se utilizan por completo y, por lo tanto, se desperdician.

Hay muchas etapas en el ciclo de vida de los datos, incluida la adquisición de datos, la creación de conjuntos de datos / ingeniería de datos para dar sentido a los datos sin procesar, el almacenamiento masivo de datos para el uso / análisis posterior, la creación de bases de datos para explorar los datos y, finalmente, la capacidad de utilizar análisis avanzados y / o aprendizaje automático para extraer conocimientos de datos no disponibles a través de informes simples, mientras se mantiene la seguridad de los datos y cumplimiento normativo total. El desafío para muchas organizaciones es cómo configurar mejor dicho sistema, manteniendo los costos razonables y minimizando el tiempo de implementación / operación, así como el desafío de presentar los datos de una manera significativa para que las personas puede derivar información de él.

Lo que se necesita es una forma de administrar todo el ciclo de vida de los datos, desde la adquisición hasta el análisis para obtener información, mientras se conservan los beneficios del código abierto y la capacidad de utilizarlo. ‘Informática nativa en las instalaciones y / o híbrida o en la nube. Los almacenes de datos existen desde hace algún tiempo y pueden manejar el almacenamiento y la entrega, pero no brindan una solución completa. Muchas organizaciones han implementado nubes de datos, ya sea a través de código abierto puro (por ejemplo, Apache Hadoop) o como productos comerciales (por ejemplo, Talend, Informatica, Amazon Redshift, IBM, SAP, Oracle , etc.), pero esto no resuelve el desafío del ciclo de vida del conjunto de datos y, a menudo, requiere el uso de muchos complementos dispares que pueden no integrarse fácilmente.

Si bien los sistemas / software de código abierto parecen ser muy atractivos, especialmente desde la perspectiva de los costos, el enfoque de «hacer su propio» para implementar una solución de trabajo a menudo es desafiante y «gratuito» n no es realmente «gratis». El tiempo de actividad completo se reduce drásticamente al elegir una solución completa, al igual que la complejidad de las operaciones y el soporte en curso. Este enfoque puede ahorrar en las implementaciones empresariales decenas de millones de dólares a largo plazo. Estimamos que los problemas de complejidad e integración hacen que entre el 50% y el 65% de todos los sistemas comerciales fallen o fallen todos juntos. Además, los costos de mantenimiento continuo de los sistemas no optimizados tienen un impacto importante en el presupuesto operativo, y estimamos que pueden ser de 2 a 5 veces el costo de las soluciones completamente integradas y empaquetadas.

El problema con todo esto, además del costo y la necesidad de múltiples habilidades técnicas y recursos disponibles, es que el resultado final deseado, el tiempo requerido para comprender, se prolonga y puede que nunca se logre por completo. Este período de reflexión es muy costoso. Es mucho más eficiente encontrar una solución que sea de código abierto, pero ha creado todas las integraciones necesarias para construir un sistema completo que se puede implementar fácil y rápidamente y, en última instancia, respaldar de manera efectiva.

Como ejemplo de una solución de ciclo de vida de datos más completa, Cloudera ha creado un enfoque integrado con su plataforma de datos Cloudera (CDP), que incluye no solo la adquisición y el almacenamiento de datos, sino que también permite la ‘aprendizaje automático y reducción del tiempo de comprensión, al tiempo que se incluye un perfil de enfoque de seguridad de datos en capas. Integra adquisición de datos, flujo de datos, ingeniería de datos, almacenamiento de datos, base de datos y aprendizaje automático (ML) en un marco extensible y permite la integración de capacidades adicionales en el necesidad de un ecosistema de socios en expansión. Opera en las instalaciones, en una nube híbrida o en una nube pública y, cuando se implementa como una implementación en la nube, puede eliminar virtualmente las demoras asociadas con la implementación de componentes individuales, lo que potencialmente puede ahorrar meses en comprender los datos.

Esto es esencial en muchas empresas donde las demoras pueden ser costosas y / o causar daños. Por ejemplo, retrasar la detección de fraudes durante unos minutos u horas puede provocar pérdidas masivas a largo plazo. Según el Informe de investigación de fraude de cuentas de depósito de la Asociación de banqueros estadounidenses de 2019, los bancos de EE. UU. Evitaron 22.300 millones de dólares en intentos de fraude contra cuentas de depósito en 2018, mientras que el total los intentos de fraude ascendieron a € 25,1 mil millones. Incluso con este alto nivel de prevención, es probable que un análisis más proactivo y sensible al tiempo pudiera haber detenido gran parte de los € 2.8 mil millones restantes en fraude. Y aunque el análisis de fraude financiero a menudo se presenta como un candidato principal para tales sistemas de análisis de datos, esto es solo la punta del iceberg.

El análisis demorado de los datos / tendencias de salud puede crear una oportunidad para que una enfermedad se propague sin ser detectada e infecte a muchas más personas, como hemos visto en la actual crisis pandémica, además de crear desafíos por la falta de diagnóstico apropiado y tratamiento posterior. A medida que avanzamos hacia un mayor uso de sesiones remotas de telesalud y una mayor dependencia del monitoreo de sensores remotos y análisis de salud más automatizados, los datos recopilados con precisión son de vital importancia porque todo Un diagnóstico erróneo debido a datos defectuosos puede tener un gran costo tanto para las personas como para los sistemas de entrega.

Varias estimaciones sitúan el costo de un diagnóstico erróneo hasta el 30% del costo total de la atención médica. En 2018, Estados Unidos gastó alrededor de € 3.6 billones en atención médica, lo que promedia alrededor de € 11,000 por persona. Cambiar a un rol más inclusivo para los sistemas de salud remotos requiere tener una capacidad de ciclo de vida de datos mucho más fuerte que la que está disponible actualmente en muchas instituciones, a fin de eliminar o al menos reducir significativamente los errores. diagnóstico y problemas asociados. Además, una forma de compartir datos personales entre diferentes organizaciones con el fin de evaluar mejor las tendencias y proporcionar categorías más grandes de personas para analizar de manera confidencial es otra razón por la que un proceso de gestión del ciclo económico. La vida útil mejorada de los datos puede proteger la privacidad y cumplir con todos los criterios relevantes. Los problemas de cumplimiento normativo son fundamentales. Otras industrias, como la venta minorista, la fabricación, la farmacéutica, el transporte y muchas más, se beneficiarían de este enfoque de gestión del ciclo de vida de los datos.

Conclusión:

Una plataforma más inclusiva para la gestión completa del ciclo de vida de los datos es imperativa a medida que avanzamos hacia un mundo más transformado digitalmente y basado en datos. En muchas empresas, los datos son perecederos, ya que cualquier falta de información oportuna puede causar daños físicos o financieros importantes. Las empresas deben adoptar un enfoque de plataforma para la gestión del ciclo de vida de los datos que no requiera una integración interna profunda o un ciclo de implementación extendido, ya sea para grandes proyectos de empresa a empresa o para proyectos individuales o en curso. grupos pequeños. Para lograr este resultado, una solución de plataforma de ciclo de vida de datos integrada es esencial.

Share This