×

Home Top Podcaster Networks By Language By Country By Category About Us Contact Us Faqs Features News & Blogs Privacy Policy Terms Of Use

☰

Search

Home > Big Data Hebdo > Episode 226 : Starlake.AI avec Hayssam Saleh


	Podcast:		Big Data Hebdo
	Episode:		Episode 226 : Starlake.AI avec Hayssam Saleh
	Category:		Technology
	Duration:		00:55:40
	Publish Date:		2026-02-20 10:43:57
	Description:		Vincent Heuschling reçoit Hayssam Saleh, créateur de Starlake, une plateforme data open source française née de la factorisation de projets clients depuis 2017-2018. L'épisode intervient dans un contexte de consolidation du marché (rachat de DBT et de SQLMesh par Fivetran), qui invite à challenger les solutions établies. Starlake se distingue par une approche entièrement déclarative (YAML + SQL natif, sans Jinja) couvrant toute la chaîne data engineering : ingestion, transformation, orchestration et qualité des données. L'outil s'appuie sur les moteurs sous-jacents des plateformes cibles (Snowflake, BigQuery, Spark) et génère automatiquement les DAGs pour les orchestrateurs du marché (Airflow, Daxter, Snowflake Tasks). Parmi les fonctionnalités marquantes : le data branching (branches de données à la manière de Git), l'inférence automatique de schémas YAML à partir de fichiers sources, un transpiler SQL multi-plateformes, et l'extraction du lineage depuis du SQL brut sans annotation. L'intégration récente de DuckLake ouvre la voie à des architectures on-premise souveraines à coût maîtrisé (sous 300 €/mois sur OVH, Scaleway, Clever Cloud). Le modèle économique repose sur le support, la formation, et le consulting : Starlake s'installe dans le cloud du client, avec mise à jour automatique gérée par l'équipe, sans accès aux données. Chapitres 00:00:27 – Introduction : consolidation du marché data (rachat de DBT et SQLMesh par Fivetran) et présentation de l'épisode 00:03:13 – Hayssam et la genèse de Starlake : parcours Spark/Scala, POC à 4 000 formats de fichiers (2017-2018) 00:09:51 – Architecture et philosophie : load, transform, orchestration unifiés en déclaratif (YAML + SQL natif, pas de Jinja) 00:00:18:18 – Starlake vs DBT : différences philosophiques, composabilité, fonctionnalités 100 % open source 00:00:22:20 – Data branching, Starlake Labs (pipe syntax, transpiler SQL, lineage) et expérience développeur (DuckDB local, UI point-and-click) 00:36:35 – Modèle open source et économique : licence Apache, support, formation, marketplace cloud souveraine 00:43:42 – DuckLake : alternative on-premise/cloud souverain (OVH, Scaleway, Clever Cloud) et comment contribuer / démarrer Le BigdataHebdo Le BigdataHebdo est le podcast Francophone de la Data et de l'IA. Retrouvez plus de 200 épisodes https://bigdatahebdo.com Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q
	Total Play:		0

Some more Podcasts by Vincent Heuschling

300+ Episodes

Bigdata Hebd .. 5 4