sábado, 27 de mayo de 2017

Big Data Science

En la anterior entrada mencioné que los Data Scientist tienen que lidiar con datos de baja calidad frecuentemente, a menudo trabajan con Big Data y tienen que convencer a los directivos de utilizar algoritmos que no estén basados únicamente en el valor promedio. En esta entrada aclararé algunos puntos acerca de Big Data.

Big Data se trata de gestionar grandes volúmenes de información de manera adecuada. Implica nueva infraestructura, nuevas bases de datos y nuevo software adecuado al tema. Nuevo respecto al paradigma vigente hasta finales de la primera década del siglo XXI. Para algunos, Big Data es añadir información de bases de datos externas, por ejemplo, open data, a la información que actualmente tienen acerca de los clientes, pero el concepto debe ir enfocado a recabar mayor cantidad de información acerca de los clientes y/o ciudadanos, por tanto, debe estar asociado a inteligencia de negocios (BI) y en buena medida a Ciencia de Datos (Data Scientist).

Mayor información significa recuperar información de los Social Media, incluyendo mensajes de voz y de video. Para ciertas compañías es recuperar información del Internet de las cosas (IoT). De otra manera es solo BI, no Big Data. En este sentido, Big Data no hace referencia al tamaño de las bases de datos, sino a la cantidad de información no estructurada que se debe manejar, o estructurada, pero en tiempo real y de miles de puntos simultáneamente.

¿Infraestructuras? Las comunes son AWS, Azure o Google Cloud.

¿Bases de datos? Se orientan hacia las bases de datos No SQL.

Pero los ejemplos son los que ilustran mejor el concepto:
  • La información de todos los sensores de los aviones Airbus se colecta en tiempo real y se pronostica la necesidad de realizarle mantenimiento a los aviones.
  • El Centro de Alertas Tempranas de una gran urbe toma la información de predicción del clima y los datos del tráfico en tiempo real y predice el tipo de acciones preventivas que deben tomar los diferentes cuerpos del gobierno municipal para evitar la reducción en la movilidad y/o eventos riesgosos.
  • Los departamentos de Recursos Humanos y las empresas de colecta de talentos utilizan sistemas automáticos que procesan los correos que remiten hojas de vida y mediante sistemas inteligentes buscan en los curriculum vita anexados palabras claves que filtre el ingente número de solicitudes con el objeto de entregar al personal de selección sólo las hojas de vida prometedoras. Las palabras claves se han seleccionado previamente mediante modelos de Machine Learning de clasificación supervisada.
  • Un proveedor de fotografías para compañías de publicidad recibe miles de fotografías de centenares de fotógrafos profesionales para añadirlas a su catálogo. Modelos de Machine Learning seleccionan las imágenes que tienen salida en el mercado mediante modelos de clasificación no supervisados.
  • Un peaje urbano monitorea mediante cámaras los automóviles que sobrepasan el límite de las zonas geográficas que obligan al pago del peaje mediante débito automático. Modelos de reconocimiento de imágenes establecen el número de matrícula y gestionan el débito correspondiente.
  • Un sistema de seguridad de un gran aeropuerto internacional tiene un sistema de vigilancia automático por medio de video. Constantemente compara la imagen filmada con una imagen de las salas vacías y las compara. Detecta en qué momento un objeto nuevo permanece durante algún tiempo en un mismo lugar y avisa a la policía anti explosivos para que revise el evento.
  • Un cliente de una cadena de grandes superficies pasa por la caja para pagar los productos comprados. Antes de imprimir la tirilla de la factura, el sistema compara los hábitos de compra del cliente con las ofertas disponibles y junto a la factura le entrega una lista de probables compras que puede necesitar y lo incentiva mediante descuentos para que visite pronto, de nuevo, el almacén.
En todos los casos, se maneja Big Data con modelos predictivos o de clasificación: el concepto correcto es Big Data Science.