MENU
Canal 26
Buscar Noticias
OSA Argentina
27.09.2023  por TOTALMEDIOS

El dilema de los datos: del Data Lake al Data Warehouse

En un mundo dominado por los datos, ¿cómo balancear entre pocos datos y estar inundado por ellos? Diego Lis, CTO de Seenka Media Data, analiza soluciones a este dilema, partiendo de un Data Lake y llegando a un Data Warehouse, listo para ofrecer información valiosa y oportuna.

Por Diego Lis, CTO de Seenka Media Data

En un mundo dominado por los datos, enfrentamos un desafío: ¿Cómo balancear entre tener pocos datos y estar inundado por ellos? ¿De qué sirve tener muchos datos si no se usan? ¿Cómo diferenciar la paja del trigo?
Kantar IBOPE Media
Orillando el problema

Digamos que quieres conocer la presencia de tu marca en los medios. Tal vez necesitas entender cómo impacta esta presencia en tus ventas, optimizar tu inversión o comparar tu estrategia con la de tu competencia. En cualquier caso, vas a necesitar datos.

Contactas algunas agencias y proveedores y compras un CSV con datos del último trimestre. Luego de algunas semanas de análisis, compruebas que en ese trimestre has perdido decenas de oportunidades. Tomas nota de algunos aprendizajes, pero sabes que esas oportunidades no volverán a aparecer. Comprendes que la información la necesitas en tiempo real.

En busca de más
Por suerte, hay un mundo enorme de datos ahí afuera, esperando ser capturados y analizados. Mediante el método de scraping, capturas noticias de portales, contenido de redes sociales, e incluso te aventuras en el mundo de las señales audiovisuales como YouTube, televisión y radio.

Luego de un año de trabajo, ya tienes funcionando todos los crawlers que trabajarán día y noche. Decides almacenar la información en una base de datos no relacional que permite escalar en volumen y tener flexibilidad en el esquema de datos como Elastic Search o MongoDB.

Además, utilizas un Bucket de Google Storage o S3 para guardar la información audiovisual de manera fiable y performante. Creas así un Data Lake, es decir, un repositorio centralizado de datos en bruto.

Al poco tiempo tu Data Lake tiene millones de datos esperando que los uses. Sin embargo, la información que proviene de los medios es completamente heterogénea. Contiene textos, imágenes, audios, videos, cortos y largos, bien y mal escritos, etc. Necesitas, en efecto, transformar estos datos para normalizarlos y poder consumirlos de manera más homogénea.

Dando sentido a tus datos

La normalización de un dataset es particularmente importante en el caso de los medios. ¿De qué me sirve obtener diariamente el texto de miles de noticias si no sé a quién se menciona y de qué temática se habla? ¿Para qué saber que se han emitido cierta cantidad de publicidades si no puedo identificar cuál es la marca, el mensaje central de la misma, su audiencia e impacto?

Afortunadamente, viene a tu rescate el Machine Learning. En los últimos años, viene creciendo de manera exponencial el interés por este campo en el ámbito académico y en la industria. En este gráfico, podemos ver la cantidad de papers de inteligencia artificial que se han publicado en el sitio arXiv en los últimos 30 años.

Decides entonces contratar un equipo especializado de ingenieros de machine learning. Luego de dos años de trabajo aplicando decenas de técnicas, logras convertir tus datos "no estructurados" en datos "estructurados". Es decir, le das sentido a tus datos.

Y así decides utilizar un motor de base de datos relacional, como PostgreSQL o MySQL, donde vas guardando la información estructurada, normalizada y homogénea, para facilitar su análisis posterior. Estás por cantar victoria cuando descubres algo inquietante: la cantidad de datos que has acumulado, que ya llega a los centenares de millones, es tan grande que resulta demasiado lento hacer cualquier consulta medianamente compleja.

La etapa final: El Data Warehouse

Por fin, logras implementar una última etapa en tu pipeline: utilizas un base de datos orientada a columnas, como BigQuery o ClickHouse, para crear un Data Warehouse, es decir, una base de datos optimizada para el análisis y generación de informes.

En esta nota:

Otras noticias del día

Campañas

CILSA y VML lanzan “Hacelo Real” por el Día Internacional de las Personas con Discapacidad

CILSA y la agencia VML lanzaron la campaña Hacelo Real, una acción en Instagram que busca visibilizar la vulneración de derechos que enfrentan las personas con discapacidad y promover el cumplimiento efectivo de las leyes vigentes. La iniciativa acompaña el Día Internacional de las Personas con Discapacidad y propone mostrar aquellas situaciones que aún no ocurren en la vida cotidiana. Ver más

Medios

La CONMEBOL Libertadores presenta “De Cero a Fan”, su nueva miniserie original

La CONMEBOL Libertadores lanzó "De Cero a Fan", su nueva miniserie original que busca mostrar el costado más humano, emocional y espontáneo del torneo. En cada episodio, un hincha acompaña a una persona ajena al fútbol para vivir desde adentro la experiencia de la Libertadores. Los primeros capítulos ya están disponibles en el canal de YouTube y en la cuenta de TikTok de la competición. Ver más

Medios

Javier Milei encabezará el cierre del Encuentro de Líderes 2025 en La Rural, organizado por El Cronista

Este miércoles 3 de diciembre desde las 9 horas se llevará adelante una nueva edición del Encuentro de Líderes, la jornada que reúne a los máximos referentes del sector público y privado para anticipar el rumbo económico, político y empresarial del país. Cerrará el presidente Javier Milei y contará con la participación de figuras clave del gabinete nacional, entre ellos Luis Caputo y Diego Santilli. Ver más

multimedia / campañas publicitarias

Tu cuenta de hoy, pensando en mañana

Agencia: Marca: Prex Soporte:

Prex presenta “Tu cuenta de hoy, pensando en mañana”, una campaña 360° que marca su décimo aniversario y destaca la evolución de la fintech junto a los usuarios uruguayos. Desarrollada internamente y producida por Pardelion Films, la propuesta pone en foco la cercanía, la innovación y el rol de Prex en la transformación de las finanzas digitales del país.

“Eclipsados”

Agencia:Isla

Marca:Ypf

Soporte:Tv, redes sociales, vía pública

"Qué lindo es que sea fácil, qué lindo es poder"

Agencia:Nx lab

Marca:Naranja x

Soporte:Tv y web

"Un minuto de no silencio"

Agencia:Fundación vicki bernadet

Marca:Oglivy españa

Soporte:Tv y web

"Not para Fantasmear"

Agencia:Febrero made

Marca:Tvs motos argentina

Soporte:Tv y web

Ver todos