Entender qué es Big Data
Identificar objetivos de negocio
Los datos deben llevar a la acción
Montar un equipo de trabajo
Pruebas de concepto
Seleccionar tecnología y recursos para producción
Data Governance
Analíticas y Reporting

Entender qué es Big Data

Si de verdad existe interés en su empresa de subirse al tren de la nueva tendencia de grandes datos, sea práctico, razonable; el paso inicial obligatoriamente pasa por comprender bien las líneas básicas de esta tendencia, dónde aplica, cuándo tiene sentido utilizarla, qué podría costar, cómo diferenciar la necesidad real de la moda.

Actualmente hay mil maneras de acercarse y comprender el concepto de Big Data: libros, blogs, artículos, vídeos, eventos de todo tipo, cursos. Los contenidos existentes sobre el tema se podrían considerar a su vez “grandes datos” debido a su volumen y variedad de formatos.

Utilice aquel que le resulte más cómodo o más fácil de entender, pero hágalo. Acercarse al mundo de Big Data sin un contexto mínimo sobre la materia puede resultar frustrante.

En este sentido decide ha celebrado ya algunos talleres de trabajo en los que se presenta esta tendencia tecnológica y el entorno que la rodea.

Si se concluye seguir adelante con esta nueva iniciativa, se debe buscar qué problemas o mejoras es posible proponer para el negocio con ayuda de esta tecnología.
Una forma sencilla de comenzar es centrarse en problemas ya identificados que, por ejemplo, no hayan sido abordados previamente debido a limitaciones de tecnología.
Estas decisiones impulsarán otras en materia de talento, de tecnología, etc. Decide recomienda que la elección abarque un conjunto heterogéneo de problemas de negocio.

No es tarea sencilla identificar los objetivos de negocio de una organización que se adapten a problemáticas de grandes datos. No obstante decide puede asesorarle sobre dicho proceso además de sugerirle algunas preguntas realmente interesantes en este sentido:

      • ¿Los problemas considerados se relacionan directamente con la estrategia de negocio?
      • ¿Resolver esos problemas permitiría aumentar el crecimiento o reducir costes?
      • ¿Qué altos cargos han expresado interés en big data y por qué?
      • ¿Este tipo de problemas no han sido abordados previamente debido a las limitaciones de la tecnología?
      • ¿Es posible medir el impacto financiero de la aplicación de Big Data a estos problemas?

En cualquier caso es preciso realizar una priorización de dichos objetivos en función de una serie de parámetros. A saber, impacto en el negocio, retorno de la inversión, dificultad de acceso o sensibilidad de la información, etc.

El proceso está en marcha. Es preciso encontrar la fuente de energía: los datos. Y los datos se pueden buscar fuera, pero primero merece la pena hacerlo dentro de la organización. Es sorprendente la cantidad de información de la que ya se dispone y a la que no se saca valor.

Cualquier análisis mínimamente riguroso de las fuentes de datos a explorar deberá incluir obligatoriamente las tareas que a continuación se especifican. Pero no se preocupe si no sabe por dónde empezar, decide le orienta en base a su conocimiento y experiencia:

  • Identificación y catalogación de las fuentes de datos existentes
  • Volumen y frecuencia de cambio de los datos
  • Disponibilidad y acceso (localización) a los datos
  • Estructura o ausencia de la misma en las distintas fuentes (metadatos asociados)
  • Latencias actuales en relación al acceso a los datos
  • Medidas de seguridad y privacidad existentes
  • Grado de retención de los datos
  • Veracidad o fiabilidad de los datos
  • Incluso la existencia de procesos de ETL y/o transformación vigentes dentro de la organización.

Aparentemente éste no parece un paso tan importante; lo cierto es que resulta uno de los más complicados. ¿Acaso era fácil encontrar montadores de imagen y sonido en el Hollywood de finales de los 20 que abrazó el cine sonoro?

Pues igualmente no será nada fácil encontrar perfiles experimentados que sepan afrontar los desafíos técnicos y analíticos de los sistemas Big Data.

Se buscan perfiles funcionales y perfiles técnicos. Dentro de estos últimos, concretamente:

  • Data Scientist
  • Data Architect
  • Big Data Administrator

Los puede encontrar si habla con decide.

Y si previamente necesita verificar la capacidad actual de su equipo, también encontrará ayuda de nuestra parte.

Llega la hora de implementar las primeras pruebas de concepto. Es aconsejable que el abanico de pruebas no sea escaso; hay muchas opciones nuevas que explorar: almacenamiento, formato de ficheros, procesos analíticos, streaming, etc. Busquemos una visión amplia y neutral en cuanto a tecnología e infraestructura.

En todas las tareas que se pueden realizar durante las pruebas de concepto decide puede aportar valor y experiencia:

    • Identificación de los tipos de proyectos a desarrollar
      • Almacenamiento y procesamiento masivo de datos
      • Data mining
      • Tratamiento de fuentes de datos no estructurados (textos, sensores, redes sociales, etc)
      • Analíticas en tiempo real (streaming)
      • Una combinación de varios de ellos
    • Configuración de la infraestructura mínima necesaria para las pruebas
      • Configuración del entorno de ejecución y del clúster de Hadoop
      • Configuración y verificación del acceso a los datos
      • En caso de que las pruebas lo necesiten, configuración del entorno de gestión y monitorización
    • Desarrollo y verificación de la prueba de concepto
      • Puesta en marcha de la tecnología a utilizar
      • Construcción del software en base a metodologías ágiles
      • Construcción del modelo analítico en base a la metodología Crisp-DM
    • Verificación de los objetivos de negocio planteados

Ahora ya tenemos criterios sobre los que apoyarnos para seleccionar una tecnología software que de soporte a los primeros proyectos con grandes datos.

Sea cual sea la elección necesita de una infraestructura sobre la que ejecutarla. Por tanto también es hora de hablar de hardware.

No podemos quedarnos en la foto del presente; es preciso pensar en la evolución de tecnología e infraestructura.

De las pruebas de concepto realizadas, se obtiene información importante que debe ser convenientemente interpretada. Con decide de su lado encontrará este proceso perfectamente viable:

  • Selección de proveedor para arquitectura software y definición de la estrategia de evolución
  • Apoyo en la selección de la arquitectura hardware y su plan de crecimiento
  • Identificación de otros perfiles / recursos que pueden ser necesarios
    • Es hora de diferenciar entre administrador de sistemas y administrador del clúster Hadoop
    • Perfiles de QA y training

¿Quién se resistiría a extraer valor para su negocio a partir de todos estos datos? Hagamos procesamiento analítico.

Cuantificación del riesgo, toma de decisiones en tiempo real, visión completa del cliente, comprensión del cambio del negocio, mejora en el rendimiento de la producción… Las capacidades analíticas tienen un gran potencial.

Bien está lo que bien parece. Si su proceso analítico ha sido capaz de descubrir patrones de negocio hasta ahora ocultos, un buen sistema de reporting ayudará a vender la idea dentro de su organización.

¿Cómo sintetizar el proceso analítico en una serie de pasos? Es complicado, pero en decide sí vemos posible plantear un conjunto mínimo de buenas prácticas:

    • Para empezar afrontemos un reto básico, ¿cuáles son las necesidades/problemas reales de mi negocio? Algunos ejemplos serían:
      • ¿Por qué nos abandonan nuestros clientes?
      • ¿Cuáles son las preferencias de nuestros clientes sobre nuestros productos?
      • ¿Existe alguna correlación entre el mal funcionamiento de nuestros sistemas y la pérdida de clientes?
    • A partir de este punto busquemos valor de negocio rápidamente. Aplicando técnicas analíticas tales como:
        • Segmentación avanzada: Disponga de una visión de 360º de cada cliente, no se limite a los más frecuentes. Analice a sus clientes no sólo en función de su posicionamiento, sino de su comportamiento real.
        • Recomendación de productos: Aumente las ventas de su plataforma de eCommerce.
        • Identificación de patrones de comportamiento únicos: Detección del fraude mediante el descubrimiento de patrones de conducta inusuales.
        • Machine Learning: Use técnicas de aprendizaje máquina para modelar comportamientos de difícil explicación usando reglas de negocio sencillas.
    • Que la rueda no pare. Sigamos buscando pequeños avances.
    • Midamos el valor que se gana en cada paso.
    • Tras varias iteraciones, estamos en condiciones de aplicar técnicas analíticas sofisticadas en busca de réditos más ambiciosos.
    • Siempre que sea posible se han de utilizar herramientas gráficas tanto para visualizar los resultados como para hacer análisis interactivo.

Si hemos llegado hasta aquí, se puede decir que el primer ciclo está completo. Pero hay que seguir trabajando en la mejora continua. El gobierno de los datos es uno de los caminos a seguir: la gestión del volumen y variedad de datos del que se disponga puede estar actualmente bajo control; pero con toda seguridad dejará de ser así según se vaya creciendo.

Una vez que la infraestructura de Big Data está implantada es muy aconsejable definir e implantar una serie de procedimientos para simplificar la gestión de los datos y el procesamiento masivo de los mismos. Una vez más encontrará la ayuda necesaria por parte de decide:

  • Movimiento y replicación de los datos entre distintos clústers
  • Gestión del ciclo de vida de los datos: procedimientos de desalojo de los datos de un clúster
  • El procedimiento de recuperación de los datos ante eventualidades de desastre
  • Gestión de datos tardíos y reintentos en la obtención de datos.
  • Trazabilidad y gestión del linaje de los datos