El impacto de los grandes datos sobre el almacenamiento, en términos prácticos

3 de diciembre de 2014, by , Posted in Noticias, 0 Comment

Su puesta en práctica “puede” exigir que usted elija para federalizar los datos, utiliza el almacenamiento de memoria, incluye procesamiento analítico escalable, etc.

Los grandes datos, como la nube no se refiere a una tecnología en particular o un conjunto de tecnologías. El Big Data define una clase de información de gestión de problemas que es difícil o incluso imposible de resolver de manera eficiente el uso de herramientas convencionales y técnicas de gestión de datos.

El Big Data se caracteriza comúnmente por los cinco Vs: volumen, velocidad, alcance, precisión y valor. Los tres primeros Vs son ciertamente comunes, mientras que los dos últimos son cada vez más evidente en la lengua vernácula de Big Data. Hay una buena probabilidad de que los siguientes puntos caracterizan los tipos de desafíos que los cinco Vs puede estar causando en su organización.

El VOLUMEN de la información que usted está acumulando carga las personas, los procesos y las capacidades técnicas de su grupo de gestión de la información empresarial. Es probable que usted necesita para encontrar un conjunto de herramientas y técnicas distintualmente (lo sé, esa palabra no existe, pero debería) diferente para resolver este problema.

Aumento de la VELOCIDAD con la que la gente espera que analizar y procesar los datos ya supera las habilidades de su personal y su infraestructura.

Usted desea que el alcance del análisis se limitaba a un pequeño conjunto de almacenes de datos, pero la realidad sugiere que este alcance incluye una VARIEDAD de tipos de datos, incluidas las grabaciones de llamadas, documentos de texto, registros de los sensores, mensajes de twitter, vídeos bronceadas, seguridad de las tiendas, etc.

Algunas partes de su organización tienen dudas sobre la VERACIDAD de reconocimiento facial en los videos de seguridad de datos. Tienda archivos de vídeo es fácil; identificar con precisión a una cara en una de un fotograma de vídeo no es nada fácil.

Frases como “los datos son nuestra mayor fuente de VALOR sin explotar” se escuchan todos los días en su organización. Las personas que producen estas frases cuando se pulsa para cuantificar o explicar el valor de los datos, son extraordinariamente silenciosa.

Aún así la lectura? Bueno.

No me sorprendió descubrir que el SIG, el Business Intelligence y Business Analytics superior la atención de las organizaciones. Would tampoco sorprende al enterarse de que las empresas siguen gastando grandes cantidades de dinero en tecnología, tanto en las soluciones y en la integración de los sistemas de código en BI y sistemas relacionados. Me atrevería a decir que en un nivel muy general, la arquitectura de almacenamiento de datos son los siguientes:

El “probablemente” implementaciones incluyen múltiples sistemas de origen (que, por supuesto, deben ser archivados / protected / han hecho una copia de seguridad), áreas de almacenamiento para una variedad de transformaciones y trabajos de mejora de calidad, uno para servir como un contenedor de EDW activo información estructurada, y muchos mercados de datos que se utilizarán para tareas de medición específicos. Por supuesto, toda esta complejidad está perfectamente automatizado y totalmente documentado. Todavía hay operaciones de TI que no están totalmente automatizadas y documentadas?

¿Sería genial si las organizaciones no tienen un problema de Big Data. La arquitectura descrita anteriormente funciona bien cuando las empresas tienen conjuntos de datos de fuentes homogéneas y relativamente pequeña. Sin embargo, dicen que la empresa está tratando de introducir un nuevo valor en la organización que se “mueve” a la clase de información que tendrá que ir a la “unidad”. Una nueva aplicación móvil que tal vez se despliega a millones de clientes, que necesitan tener impactos en tiempo real en los negocios de la organización. Tal vez necesita ser analizado junto con o en contra de la tendencia de miles de interacciones del centro de llamadas grabadas la tendencia general de las conversaciones sociales. Bueno, en este caso, el que será más preocupaciones en el diseño. Considere lo siguiente:

1 – Volumen: Cada dato de repositorio adicionales del sistema de origen al mercado de datos, esta arquitectura puede necesitar almacenar petabytes de datos en lugar de terabytes.

Es imposible conservar las copias de seguridad operacional y fuera del sitio a conjuntos de múltiples y masivas de datos.

Haciendo flujo de datos de almacenamiento a la máquina de procesamiento (por ejemplo, RDBMS) conduce a un tiempo de respuesta inaceptable a las consultas en el intervalo de fechas grande.

2 – Velocidad: El ETL puede significar un gran espacio entre los datos de generación de eventos y la entrega a los clientes de negocios.

El “esquema de escritura” orientación requiere un diseño y un extenso análisis inicial, retrasando aún más la obtención de valor a partir de los datos.

La arquitectura basada en SAN tradicional lucha por crecer lo suficientemente rápido para satisfacer las demandas.

Una arquitectura orientada a lotes no es capaz de proporcionar una visión en tiempo real.

3 – Variedad: La arquitectura EDW está optimizado para datos relacionales generados por las aplicaciones de negocio.

Datos semi-estructurados o no estructurados se están volviendo tan importante como datos estructurados para analítica.

Los costes de diseño y análisis inicial exacerbado por la variedad en las fuentes de datos de origen.

Verdad: La falta de confianza implícita en las fuentes de datos requiere un ambiente que es conductor de descubrimiento más ágil y la exploración. Sin embargo, el alto costo del diseño y la infraestructura inhibe la agilidad, creando la paradoja de “análisis de invertir, la inversión para analizar.”

4 – Valor: Las organizaciones a menudo les resulta difícil encontrar valor en sus datos. Sin una cuidadosa consideración, los grandes datos sólo hará que el valor más difícil de encontrar.

Con un poco de esperanza, no se le viene a la conclusión de que la inversión de su organización es una enorme pérdida de tiempo, dinero y esfuerzo (por casualidad ves a un tsunami de grandes volúmenes de datos que vienen en usted …). Es evidente que usted está resolviendo problemas reales de negocio en este momento, y necesitará CONTINUAR resolver estos problemas en el futuro. Su arquitectura actual no va a desaparecer, pero usted tendrá que explorar y aprovechar las nuevas herramientas y técnicas para garantizar la obtención eficiente de valor de negocio de esta nueva avalancha de demandas.

La arquitectura “fecha lago” ha surgido como una respuesta a los desafíos de grandes volúmenes de datos a la arquitectura de gestión de datos. Tenga en cuenta que la fecha lago complementa la arquitectura convencional de BI y análisis. Sugerir un reemplazo total, dada la importante inversión realizada por organizaciones de todo el mundo en el BI, sería una locura.

Una fecha lago (o como yo lo llamo, la laguna de los siete mares) ayuda porque: almacenar los datos en el estado que se encuentran, transformación en el lugar, eliminar las copias de seguridad operacional, optimizar la colocación y almacenamiento de datos, el tamaño de manera simple y económica para facilitar la exploración y análisis y el trabajo en una escala de petabytes.

Su puesta en práctica “puede” requieren que se “federalizar” la fuente de información en lugar de centro de él (lo que en última instancia no puede controlar o predecir); incluir streaming o eventos de procesamiento complejo utilizando la memoria de almacenamiento para gestionar millones de nuevas operaciones por segundo; incluir un método de envasado de la información no estructurada y metadatos almacenar formato de objeto para su uso en herramientas de análisis; incluir el procesamiento analítico escalable en racimos de Hadoop para crear valor empresarial combinado de todas las fuentes de información.

Artículo completo: http://cio.com.br/





Acerca de Administrador

Los comentarios están cerrados.