Cuando COVID llegó al mundo hace unos meses, un período prolongado de tristeza parecía casi inevitable. Sin embargo, muchas empresas del ecosistema de datos no solo han sobrevivido, sino que de hecho han prosperado.
Quizás lo más emblemático de esto es la salida a bolsa de gran éxito del proveedor de almacenamiento de datos Snowflake que tuvo lugar hace un par de semanas y catapultó a Snowflake a una capitalización de mercado de $ 69 mil millones en el momento de escribir este artículo: la oferta pública inicial de software más grande de la historia (consulte el desmontaje de S-1 ). . Y Palantir , una plataforma de análisis de datos a menudo controvertida centrada en el sector financiero y gubernamental, se convirtió en una empresa pública a través de una cotización directa, alcanzando una capitalización de mercado de $ 22 mil millones en el momento de redactar este artículo (consulte el desmontaje S-1 ).
Court rules Uber, Lyft must make drivers employees 187 Reproduce el video Anuncio: (23) Omitir aviso publicitario
Mientras tanto, otras empresas de datos que han salido a bolsa recientemente están obteniendo muy buenos resultados en los mercados públicos. Datadog , por ejemplo, se hizo público hace casi exactamente un año (una oferta pública inicial interesante en muchos sentidos, consulte la publicación de mi blog aquí ). Cuando recibí al CEO Olivier Pomel en mi evento mensual Data Driven NYC a fines de enero de 2020, Datadog valía $ 12 mil millones. Apenas ocho meses después, al momento de escribir este artículo, su capitalización de mercado es de $ 31 mil millones.
ANUNCIO
Hay muchos factores económicos en juego, pero, en última instancia, los mercados financieros están recompensando una realidad cada vez más clara que se está gestando durante mucho tiempo: para tener éxito, toda empresa moderna deberá ser no solo una empresa de software, sino también una empresa de datos. Por supuesto, existe cierta superposición entre el software y los datos, pero las tecnologías de datos tienen sus propios requisitos, herramientas y experiencia. Y algunas tecnologías de datos implican un enfoque y una mentalidad completamente diferentes: el aprendizaje automático, a pesar de toda la discusión sobre la mercantilización, sigue siendo un área muy técnica donde el éxito a menudo se presenta en forma de una precisión de predicción del 90-95%, en lugar del 100%. Esto tiene profundas implicaciones sobre cómo construir empresas y productos de IA.
Por supuesto, esta evolución fundamental es una tendencia secular que comenzó en serio hace quizás 10 años y continuará desarrollándose durante muchos años más. Para realizar un seguimiento de esta evolución, mi equipo ha estado produciendo un panorama de "estado de la unión" del ecosistema de datos e IA cada año; esta es nuestra séptima anual. Para cualquier persona interesada en seguir la evolución, aquí están las versiones anteriores: 2012 , 2014 , 2016 , 2017 , 2018 y 2019 ( Parte I y Parte II ).
Esta publicación está organizada de la siguiente manera:
Tendencias clave en la infraestructura de datos
Tendencias clave en análisis e inteligencia artificial empresarial
El paisaje de 2020: para aquellos que no quieren desplazarse hacia abajo, aquí está la imagen del paisaje
Vamos a profundizar en.
Tendencias clave en la infraestructura de datos
Hay muchas cosas en la infraestructura de datos en 2020. A medida que las empresas comienzan a cosechar los beneficios de las iniciativas de datos / IA que comenzaron en los últimos años, quieren hacer más. Quieren procesar más datos, más rápido y más barato. Quieren implementar más modelos de aprendizaje automático en producción. Y quieren hacer más en tiempo real. Etc.
Esto eleva el nivel de la infraestructura de datos (y los equipos que la construyen / mantienen) y ofrece mucho espacio para la innovación, particularmente en un contexto donde el panorama sigue cambiando (múltiples nubes, etc.).
En la edición de 2019 , mi equipo destacó algunas tendencias:
Un cambio de Hadoop a los servicios en la nube a Kubernetes + Snowflake
La creciente importancia de la gobernanza, la catalogación y el linaje de datos
El surgimiento de una pila de infraestructura específica de IA ("MLOps", "AIOps")
Si bien esas tendencias aún se están acelerando mucho, aquí hay algunas más que son las más importantes en 2020:
1. La pila de datos moderna se generaliza. El concepto de "pila de datos moderna" (un conjunto de herramientas y tecnologías que permiten el análisis, en particular para los datos transaccionales) se ha desarrollado durante muchos años. Comenzó a aparecer en 2012, con el lanzamiento de Redshift, el almacén de datos en la nube de Amazon.
Pero en los últimos años, y quizás incluso más en los últimos 12 meses, la popularidad de los almacenes en la nube ha crecido de manera explosiva, y también lo ha hecho todo un ecosistema de herramientas y empresas a su alrededor, pasando de la vanguardia a la corriente principal.
ANUNCIO
La idea general detrás de la pila moderna es la misma que con las tecnologías más antiguas: para construir una canalización de datos, primero extrae datos de un montón de fuentes diferentes y los almacena en un almacén de datos centralizado antes de analizarlos y visualizarlos.
Pero el gran cambio ha sido la enorme escalabilidad y elasticidad de los almacenes de datos en la nube (Amazon Redshift, Snowflake, Google BigQuery y Microsoft Synapse, en particular). Se han convertido en la piedra angular de la pila y la canalización de datos moderna y centrada en la nube.
Si bien hay todo tipo de canalizaciones de datos (más sobre esto más adelante), la industria se ha estado normalizando en torno a una pila que se parece a esto, al menos para los datos transaccionales:
2. ELT comienza a reemplazar a ELT. Los almacenes de datos solían ser costosos e inelásticos, por lo que tenía que curar en gran medida los datos antes de cargarlos en el almacén: primero extraer los datos de las fuentes, luego transformarlos al formato deseado y finalmente cargarlos en el almacén (Extraer, Transformar, Cargar o ETL).
En la canalización de datos moderna, puede extraer grandes cantidades de datos de múltiples fuentes de datos y volcarlo todo en el almacén de datos sin preocuparse por la escala o el formato, y luego transformar los datos directamente dentro del almacén de datos; en otras palabras, extraer, cargar y transformar ("ELT").
ANUNCIO
Ha surgido una nueva generación de herramientas para permitir esta evolución de ETL a ELT. Por ejemplo, DBT es una herramienta de línea de comandos cada vez más popular que permite a los analistas e ingenieros de datos transformar los datos en su almacén de manera más efectiva. La empresa detrás del proyecto de código abierto DBT, Fishtown Analytics, recaudó un par de rondas de capital de riesgo en rápida sucesión en 2020. El espacio es vibrante con otras empresas, así como algunas herramientas proporcionadas por los propios almacenes de datos en la nube.
Esta área de ELT es todavía incipiente y evoluciona rápidamente. Hay algunas preguntas abiertas en particular sobre cómo manejar datos sensibles regulados (PII, PHI) como parte de la carga, lo que ha llevado a una discusión sobre la necesidad de realizar una transformación ligera antes de la carga, o ETLT (ver XPlenty, What es ETLT? ). La gente también está hablando de agregar una capa de gobernanza, lo que lleva a un acrónimo más, ELTG.
3. La ingeniería de datos está en proceso de automatizarse. ETL ha sido tradicionalmente un área altamente técnica y en gran medida dio lugar a la ingeniería de datos como una disciplina separada . Este sigue siendo el caso hoy en día con herramientas modernas como Spark que requieren experiencia técnica real.
Sin embargo, en un paradigma centrado en el almacenamiento de datos en la nube, donde el objetivo principal es "simplemente" extraer y cargar datos, sin tener que transformarlos tanto, existe la oportunidad de automatizar mucho más la tarea de ingeniería.
Esta oportunidad ha dado lugar a empresas como Segment, Stitch (adquirida por Talend), Fivetran y otras. Por ejemplo, Fivetran ofrece una gran biblioteca de conectores prediseñados para extraer datos de muchas de las fuentes más populares y cargarlos en el almacén de datos. Esto se realiza de forma automatizada, totalmente gestionada y sin mantenimiento. Como prueba adicional de que la pila de datos moderna se está generalizando, Fivetran, que comenzó en 2012 y pasó varios años en modo de construcción, experimentó una fuerte aceleración en los últimos años y recaudó varias rondas de financiamiento en un corto período de tiempo (la más reciente a una valoración de $ 1.2 mil millones). Para obtener más información, aquí hay una conversación que mantuve con ellos hace unas semanas: En conversación con George Fraser, director ejecutivo de Fivetran .
ANUNCIO
4. Los analistas de datos asumen un papel más importante. Una consecuencia interesante de lo anterior es que los analistas de datos están asumiendo un papel mucho más destacado en la gestión y el análisis de datos.
Los analistas de datos son personas que no son ingenieros y dominan el SQL, un lenguaje que se utiliza para administrar los datos almacenados en las bases de datos. También pueden conocer algo de Python, pero normalmente no son ingenieros. A veces son un equipo centralizado, a veces están integrados en varios departamentos y unidades de negocio.
Tradicionalmente, los analistas de datos solo manejarían la última milla de la canalización de datos: análisis, inteligencia empresarial y visualización.
Ahora, debido a que los almacenes de datos en la nube son grandes bases de datos relacionales (perdone la simplificación), los analistas de datos pueden profundizar mucho más en el territorio que tradicionalmente manejaban los ingenieros de datos, aprovechando sus habilidades de SQL (DBT y otros son frameworks basados en SQL).
Esta es una buena noticia, ya que los ingenieros de datos siguen siendo raros y costosos. Hay muchos más analistas de datos (¿10 veces más?), Y son mucho más fáciles de entrenar.
Además, hay toda una ola de nuevas empresas que crean herramientas modernas centradas en el analista para extraer conocimientos e inteligencia de los datos en un paradigma centrado en el almacén de datos.
Por ejemplo, hay una nueva generación de empresas emergentes que crean "herramientas de KPI" para examinar el almacén de datos y extraer información sobre métricas comerciales específicas, o detectar anomalías, incluidas Sisu, Outlier o Anodot (que comenzaron en el mundo de los datos de observabilidad).
ANUNCIO
También están surgiendo herramientas para integrar datos y análisis directamente en aplicaciones comerciales. El censo es un ejemplo.
Finalmente, a pesar de (o quizás gracias a) la gran ola de consolidación en la industria de BI que se destacó en la versión 2019 de este panorama, hay mucha actividad en torno a herramientas que promoverán una adopción mucho más amplia de BI en toda la empresa. Hasta el día de hoy, la inteligencia empresarial en la empresa sigue siendo competencia de un puñado de analistas capacitados específicamente en una herramienta determinada y no se ha democratizado ampliamente.
5. Los lagos de datos y los almacenes de datos pueden estar fusionándose. Otra tendencia hacia la simplificación de la pila de datos es la unificación de lagos de datos y almacenes de datos. Algunos (como Databricks) llaman a esta tendencia el "lago de datos". Otros lo llaman "Unified Analytics Warehouse".
Históricamente, ha tenido lagos de datos en un lado (grandes repositorios para datos sin procesar, en una variedad de formatos, que son de bajo costo y muy escalables, pero no admiten transacciones, calidad de datos, etc.) y luego almacenes de datos en el otro lado (mucho más estructurado, con capacidades transaccionales y más funciones de gobierno de datos).
Los lagos de datos han tenido muchos casos de uso para el aprendizaje automático, mientras que los almacenes de datos han admitido más análisis transaccionales e inteligencia empresarial.
El resultado neto es que, en muchas empresas, la pila de datos incluye un lago de datos y, a veces, varios almacenes de datos, con muchas canalizaciones de datos paralelas.
Las empresas en el espacio ahora están tratando de fusionar los dos, con un objetivo de “lo mejor de ambos mundos” y una experiencia unificada para todo tipo de análisis de datos, incluidos BI y aprendizaje automático.
Por ejemplo, Snowflake se presenta a sí mismo como un complemento o un posible reemplazo de un lago de datos. El almacén de datos en la nube de Microsoft, Synapse, tiene capacidades integradas de lago de datos. Databricks ha hecho un gran esfuerzo para posicionarse como una casa de lago completa.
La complejidad permanece
Muchas de las tendencias que mencioné anteriormente apuntan hacia una mayor simplicidad y accesibilidad de la pila de datos en la empresa. Sin embargo, este movimiento hacia la simplicidad se ve contrarrestado por un aumento aún más rápido de la complejidad.
El volumen general de datos que fluye a través de la empresa continúa creciendo a un ritmo explosivo. La cantidad de fuentes de datos también sigue aumentando, con cada vez más herramientas SaaS.
No hay una, sino muchas canalizaciones de datos que operan en paralelo en la empresa. La pila de datos moderna mencionada anteriormente se centra en gran medida en el mundo de los datos transaccionales y la analítica de estilo BI. Muchas canalizaciones de aprendizaje automático son completamente diferentes.
También existe una necesidad creciente de tecnologías de transmisión en tiempo real, que la pila moderna mencionada anteriormente se encuentra en las primeras etapas de direccionamiento (es en gran medida un paradigma de procesamiento por lotes por ahora).
ANUNCIO
Por esta razón, las herramientas más complejas, incluidas las de micro lotes (Spark) y transmisión (Kafka y, cada vez más, Pulsar) continúan teniendo un futuro brillante por delante. La demanda de ingenieros de datos que puedan implementar esas tecnologías a escala seguirá aumentando.
Hay varias categorías de herramientas cada vez más importantes que están surgiendo rápidamente para manejar esta complejidad y agregarle capas de gobernanza y control.
Los motores de orquestación están experimentando mucha actividad. Más allá de los primeros participantes como Airflow y Luigi, ha surgido una segunda generación de motores, incluidos Prefect y Dagster, así como Kedro y Metaflow. Esos productos son sistemas de gestión de flujo de trabajo de código abierto, que utilizan lenguajes modernos (Python) y están diseñados para una infraestructura moderna que crea abstracciones para permitir el procesamiento automatizado de datos (programación de trabajos, etc.) y visualizar los flujos de datos a través de DAG (gráficos acíclicos dirigidos).
La complejidad de la canalización (así como otras consideraciones, como la mitigación de sesgos en el aprendizaje automático) también crea una gran necesidad de soluciones DataOps, en particular en torno al linaje de datos (búsqueda y descubrimiento de metadatos), como se destacó el año pasado, para comprender el flujo de datos y monitorear los puntos de falla. Esta sigue siendo un área emergente, con herramientas en su mayoría de cosecha propia (código abierto) creadas internamente por los grandes líderes tecnológicos: LinkedIn (Datahub), WeWork (Márquez), Lyft (Admunsen) o Uber (Databook). Están surgiendo algunas nuevas empresas prometedoras.
Existe una necesidad relacionada de soluciones de calidad de datos, y hemos creado una nueva categoría en el panorama de este año para las nuevas empresas que emergen en el espacio (ver gráfico).
En general, la gobernanza de datos sigue siendo un requisito clave para las empresas, ya sea en la pila de datos moderna mencionada anteriormente (ELTG) o en las canalizaciones de aprendizaje automático.
Tendencias en análisis y ML / IA empresarial
Es el momento del auge para las plataformas de ciencia de datos y aprendizaje automático (DSML). Estas plataformas son la piedra angular del despliegue del aprendizaje automático y la IA en la empresa. Las principales empresas del sector han experimentado una considerable tracción en el mercado en los últimos años y están alcanzando una gran escala.
Si bien aprovecharon la oportunidad desde diferentes puntos de partida, las principales plataformas han ido ampliando gradualmente sus ofertas para atender a más distritos y abordar más casos de uso en la empresa, ya sea a través de la expansión orgánica de productos o fusiones y adquisiciones. Por ejemplo:
Dataiku (en el que mi empresa es un inversor) comenzó con la misión de democratizar la IA empresarial y promover la colaboración entre científicos de datos, analistas de datos, ingenieros de datos y líderes de equipos de datos en todo el ciclo de vida de la IA (desde la preparación de datos hasta la implementación en producción) . Con su lanzamiento más reciente, agregó usuarios comerciales no técnicos a la mezcla a través de una serie de aplicaciones de inteligencia artificial reutilizables.
Databricks ha estado avanzando más hacia la infraestructura a través de su esfuerzo de la casa del lago mencionado anteriormente, lo que curiosamente lo coloca en una relación más competitiva con dos de sus socios históricos clave, Snowflake y Microsoft. También se sumó a sus capacidades de análisis unificadas al adquirir Redash, la compañía detrás del popular motor de visualización de código abierto del mismo nombre.
Datarobot adquirió Paxata, que le permite cubrir la fase de preparación de datos del ciclo de vida de los datos, expandiéndose desde sus raíces principales de autoML.
Unos años después del resurgimiento de ML / AI como una tecnología empresarial importante, existe un amplio espectro de niveles de madurez en las empresas, lo que no es sorprendente para una tendencia que está a mitad de ciclo.
En un extremo del espectro, las grandes empresas tecnológicas (GAFAA, Uber, Lyft, LinkedIn, etc.) continúan mostrando el camino. Se han convertido en empresas de inteligencia artificial en toda regla, con la inteligencia artificial impregnando todos sus productos. Este es ciertamente el caso en Facebook (vea mi conversación con Jerome Pesenti, Jefe de IA en Facebook ). No vale la pena que las grandes empresas de tecnología contribuyan enormemente al espacio de la IA, directamente a través de la investigación fundamental / aplicada y el código abierto, e indirectamente cuando los empleados se van para iniciar nuevas empresas (como ejemplo reciente, Tecton.ai fue fundada por Uber Michelangelo equipo).
ANUNCIO
En el otro extremo del espectro, hay un gran grupo de empresas no tecnológicas que están empezando a sumergir sus pies en serio en el mundo de la ciencia de datos, el análisis predictivo y ML / AI. Algunos recién están lanzando sus iniciativas, mientras que otros han estado atrapados en el "purgatorio de la IA" durante los últimos años, ya que los primeros pilotos no han recibido suficiente atención o recursos para producir resultados significativos todavía.
En algún lugar intermedio, varias grandes corporaciones están comenzando a ver los resultados de sus esfuerzos. Por lo general, se embarcaron hace años en un viaje que comenzó con la infraestructura de Big Data pero evolucionó a lo largo del camino para incluir ciencia de datos y ML / AI.
Esas empresas se encuentran ahora en la fase de implementación de ML / AI, alcanzando un nivel de madurez en el que ML / AI se implementa en producción y se integra cada vez más en una variedad de aplicaciones comerciales. El viaje de varios años de estas empresas se parece a esto:
Fuente: Dataiku
A medida que ML / AI se implementa en producción, varios segmentos del mercado están experimentando mucha actividad:
Están sucediendo muchas cosas en el mundo MLOps, mientras los equipos lidian con la realidad de implementar y mantener modelos predictivos; mientras que las plataformas DSML brindan esa capacidad, muchas startups especializadas están surgiendo en la intersección de ML y devops.
Las cuestiones de la gobernanza de la IA y la equidad de la IA son más importantes que nunca, y esta seguirá siendo un área propicia para la innovación en los próximos años.
Otra área de creciente actividad es el mundo de la ciencia de la decisión (optimización, simulación), que es muy complementario con la ciencia de datos. Por ejemplo, en un sistema de producción para una empresa de entrega de alimentos, un modelo de aprendizaje automático predeciría la demanda en un área determinada, y luego un algoritmo de optimización asignaría el personal de entrega a esa área de una manera que optimice la maximización de ingresos en todo el sistema. La ciencia de decisiones toma un resultado probabilístico ("90% de probabilidad de aumento de la demanda aquí") y lo convierte en una acción 100% ejecutable impulsada por software.
Si bien tomará varios años más, ML / AI finalmente se integrará entre bastidores en la mayoría de las aplicaciones, ya sean proporcionadas por un proveedor o creadas dentro de la empresa. Su software CRM, RR.HH. y ERP tendrán partes que se ejecutan en tecnologías de inteligencia artificial.
Al igual que Big Data antes, ML / AI, al menos en su forma actual, desaparecerá como un concepto destacable y diferenciador porque estará en todas partes. En otras palabras, ya no se hablará de él, no porque fracasó, sino porque tuvo éxito.
El año de la PNL
Los últimos 12 meses (o 24 meses) han sido especialmente buenos para el procesamiento del lenguaje natural (PNL), una rama de la inteligencia artificial centrada en la comprensión del lenguaje humano.
El año pasado ha visto avances continuos en PNL de una variedad de jugadores, incluidos grandes proveedores de nube (Google), organizaciones sin fines de lucro (Open AI, que recaudó $ 1 mil millones de Microsoft en julio de 2019) y nuevas empresas. Para obtener una excelente descripción general, consulte esta charla de Clement Delangue, director ejecutivo de Hugging Face: PNL: el campo más importante del aprendizaje automático .
Algunas novedades destacables:
Los transformadores, que existen desde hace algún tiempo, y los modelos de lenguaje previamente entrenados continúan ganando popularidad. Estos son el modelo de elección para la PNL, ya que permiten tasas de paralelización mucho más altas y, por lo tanto, conjuntos de datos de entrenamiento más grandes.
Google implementó BERT, el sistema de PNL que sustenta la Búsqueda de Google, en 70 idiomas nuevos.
Google también lanzó ELECTRA , que funciona de manera similar en los puntos de referencia a los modelos de lenguaje como GPT y modelos de lenguaje enmascarado como BERT, mientras que es mucho más eficiente en computación.
También estamos viendo la adopción de productos de PNL que hacen que los modelos de capacitación sean más accesibles.
Y, por supuesto, el lanzamiento de GPT-3 fue recibido con mucha fanfarria. Este es un modelo de 175 mil millones de parámetros de Open AI, más de dos órdenes de magnitud más grande que GPT-2.
El panorama de datos e inteligencia artificial de 2020
Algunas notas:
Para ver el paisaje en tamaño completo, haga clic aquí .
Este año, adoptamos un enfoque más obstinado del paisaje. Eliminamos varias empresas (particularmente en la sección de aplicaciones) para crear un poco de espacio, y agregamos selectivamente algunas pequeñas empresas emergentes que nos parecieron estar haciendo un trabajo particularmente interesante.
A pesar de lo ajetreado que está el panorama, no podemos incluir todas las empresas interesantes en el gráfico. Como resultado, tenemos una hoja de cálculo completa que no solo enumera todas las empresas del panorama, sino también cientos más.
https://venturebeat.com/2020/10/21/the-2020-data-and-ai-landscape/?utm_source=emBlue&utm_medium=email&utm_campaign=NL%20Octubre%202020&utm_content=37%20NL--Se%20aprueba%20el%20uso%20de%20reconocimiento%20facial%20en%20Buenos%20Aires&utm_term=multiple--7--none--80-90--ENVIO%20SIMPLE