News & Articles

My articles on AI, DATA & all related subjects

Explore the tech universe through specialized articles on AI, Data Engineering, Programming, and System Design.

One mission: to share in-depth knowledge and productivity hacks to help you excel in your technological journey to become the ultimate AI Engineer.

Email Newsletter - Tech Webflow Template

Subscribe to our Newsletter!

Subscribe to my newsletter to receive :
•⁠  ⁠Latest new on data engineering
•⁠  ⁠How to design Production ready AI Systems
•⁠  ⁠Curated list of material to Become the ultimate AI Engineer

Latest Articles

OCR vs VLM-OCR: Naive Benchmarking Accuracy for Scanned Documents

OCR vs VLM-OCR: Naive Benchmarking Accuracy for Scanned Documents

This article presents a naive but informative benchmark comparing traditional OCR technologies with Vision Language Models (VLMs) for processing scanned documents. Using the FUNSD dataset of noisy scanned forms, the study evaluates 10 different OCR solutions across multiple metrics including text similarity, word error rate, character error rate, and processing time. The results show VLMs (particularly Qwen and Mistral) significantly outperform traditional OCR methods in accuracy, especially for complex layouts and poor scan quality, though at the cost of longer processing times. The article provides practical recommendations for when to use each approach based on document complexity, volume requirements, and cost considerations. Complete benchmark code is available on GitHub for further exploration and improvement.

AI Engineering
AI Engineering
Clock Icon - Tech Webflow Template
10
min
Raycast ou Comment Exploser sa Productivité sur Mac en 2025 : Guide Complet pour Travailler 3x Plus Vite

Raycast ou Comment Exploser sa Productivité sur Mac en 2025 : Guide Complet pour Travailler 3x Plus Vite

Découvrez comment Raycast a radicalement transformé mon expérience sur mon Mac en 2025. Il m'a permis de facilement mettre un raccourcis sur tout, rajouter de l'IA dans tous mes workflows, en automatisant les tâches répétitives et en éliminant les distractions. Dans ce guide, apprenez à configurer votre propre système de raccourcis, assistants IA et explorez les extensions essentielles de Raycast pour révolutionner votre façon de travailler.

Dev Productivity
Dev Productivity
Clock Icon - Tech Webflow Template
10
min
Guide complet des formats de table Lakehouse 2024 : Hudi vs Delta Lake vs Iceberg | Comparaison détaillée

Guide complet des formats de table Lakehouse 2024 : Hudi vs Delta Lake vs Iceberg | Comparaison détaillée

Découvrez les différences cruciales entre Apache Hudi, Delta Lake et Apache Iceberg pour optimiser votre stratégie Lakehouse en 2024. Analyse approfondie des fonctionnalités ACID, pipelines incrémentaux, contrôle de concurrence et plus encore.

Data Engineering
Data Engineering
Clock Icon - Tech Webflow Template
7
min
Testing Glue Jobs Locally

Testing Glue Jobs Locally

Ce guide pratique explique comment tester localement les jobs AWS Glue, un service serverless d'intégration de données. L'article souligne l'importance du test local pour accélérer le développement, réduire les coûts et faciliter le débogage. Il détaille ensuite une méthode en trois étapes pour configurer un environnement de test local. Ce tutoriel vise à optimiser le processus de développement des jobs AWS Glue, permettant aux data engineers de tester efficacement leur code avant le déploiement en production.

Data Engineering
Data Engineering
Clock Icon - Tech Webflow Template
10
min
LLM Structured outputs

LLM Structured outputs

Face aux défis de fiabilité des sorties structurées des petits modèles de langage, Pydantic et Instructor offrent une solution robuste. Pydantic agit comme un validateur de données, vérifiant la conformité des réponses au schéma attendu. Instructor "patche" le client LLM, l'enveloppant dans une boucle qui relance automatiquement une demande si le schéma reçu n'est pas conforme. Cette approche permet d'atteindre une fiabilité proche de 100% dans la génération de sorties structurées, même avec des modèles plus petits et face à des tentatives d'injection de prompt

AI Engineering
AI Engineering
Clock Icon - Tech Webflow Template
10
min
La Voie du Data Engineer : Guide Complet des Compétences Essentielles en 2024

La Voie du Data Engineer : Guide Complet des Compétences Essentielles en 2024

Dans l'univers toujours plus complexe de la data, le rôle du Data Engineer s'est transformé en un art véritable, exigeant une maîtrise technique pointue et une vision holistique des systèmes de données. Cet article plonge au cœur des 7 compétences fondamentales qui définissent l'excellence dans ce domaine : du Software Engineering avec Python et Java, à la maîtrise des architectures Big Data, en passant par le DevOps et le Modern Data Stack. Bien plus qu'un simple guide technique, ce parcours détaillé révèle pourquoi le véritable Data Engineer est d'abord un développeur dans l'âme, capable de jongler entre différentes technologies et approches. Que vous soyez débutant ou professionnel expérimenté, découvrez les clés pour forger votre expertise et relever les défis passionnants du Data Engineering moderne.

Data Engineering
Data Engineering
Clock Icon - Tech Webflow Template
5
min

Want receive the best AI & DATA insights? Subscribe now!

•⁠  ⁠Latest new on data engineering
•⁠  ⁠How to design Production ready AI Systems
•⁠  ⁠Curated list of material to Become the ultimate AI Engineer