Tabular Data – Machine Learning Lab

Tabular data underpins decision-making across academia and industry, powering applications in finance, healthcare, logistics, and beyond. We work on the frontier of deep learning and agentic data science for tabular data, overcoming its heterogeneity and structural challenges while powering real-world applications with significant impact.

Research Topics & Interests

Foundation Models

We develop foundation models tailored for tabular data, building on our work introducing the original TabPFN family. Our research aims to create models that learn strong inductive biases for structured data, enabling accurate predictions across diverse tasks with minimal task-specific tuning. While tabular datasets are often treated as purely static tables, real-world problems frequently involve richer contexts such as temporal structure or additional modalities. We therefore investigate how tabular foundation models can flexibly incorporate such information.

Causality

Causal reasoning has become deeply intertwined with modern machine learning, yet the field remains fragmented across disjoint subtasks, relies on human assumptions, and unstandardized evaluation practices.

We build tabular foundation models to unify and advance causal inference. Building on our expertise in foundation models for structured data, we develop causally consistent priors, architectures, and benchmarks that provide a unified modeling framework.

Agentic Data Science

We explore autonomous systems capable of performing end-to-end data science on tabular problems. This includes agents that iteratively analyze datasets, formulate hypotheses, select models, engineer features, run experiments, and refine solutions with minimal human intervention. Our goal is to build trustworthy agentic workflows that accelerate scientific discovery and practical data analysis while maintaining transparency and reproducibility.

Members

Subgroup Lead

Frank Hutter

+49 761 203-67741 (secretary)

Publications

PhD Students & Research Engineers

Dominika Matus

Alexander Pfefferle

pfeffera@cs.uni-freiburg.de

Publications

Lennart Purucker

purucker@cs.uni-freiburg.de

Publications

Jake Robertson

robertsj@cs.uni-freiburg.de

Publications

Omar Swelam

swelamo@cs.uni-freiburg.de

Publications

Tom Zehle

tom.zehle@tue.ellis.eu

Publications

Students

Jaris Küken

Mustafa Tajjar

Salih Bora Öztürk

Alumni

Edward Bergman

+49 761 203-97947

bergmane@informatik.uni-freiburg.de

Publications

Pranav Kolar Bhaskarpantula

Breenda Das

Katharina Eggensperger

+49 761 203-98603

eggenspk@cs.uni-freiburg.de

Publications

Matthias Feurer

feurerm@cs.uni-freiburg.de

Publications

Gerrit Freiwald

Anurag Garg

Noah Hollmann

hollmann@informatik.uni-freiburg.de

Lyubomir Ivanov

Charlotte Lange

Martin Mráz

David Salinas

salinasd@cs.uni-freiburg.de

Publications

Bastian Schäfer

Highlighted Research

2025

Erickson, Nick; Purucker, Lennart; Tschalzev, Andrej; Holzmüller, David; Desai, Prateek Mutalik; Salinas, David; Hutter, Frank

TabArena: A Living Benchmark for Machine Learning on Tabular Data Proceedings Article

In: NeurIPS 2025 Datasets and Benchmarks Track , 2025, (Spotlight).

Robertson, Jake; Reuter, Arik; Guo, Siyuan; Hollmann, Noah; Hutter, Frank; Schölkopf, Bernhard

Do-PFN: In-Context Learning for Causal Effect Estimation Proceedings Article

In: 39th Conference on Neural Information Processing Systems (NeurIPS), 2025, (Spotlight).

Grinsztajn, Léo; Flöge, Klemens; Key, Oscar; Birkel, Felix; Jund, Philipp; Roof, Brendan; Jäger, Benjamin; Safaric, Dominik; Alessi, Simone; Hayler, Adrian; Manium, Mihir; Yu, Rosen; Jablonski, Felix; Hoo, Shi Bin; Garg, Anurag; Robertson, Jake; Bühler, Magnus; Moroshan, Vladyslav; Purucker, Lennart; Cornu, Clara; Wehrhahn, Lilly Charlotte; Bonetto, Alessandro; Schölkopf, Bernhard; Gambhir, Sauraj; Hollmann, Noah; Hutter, Frank

TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models Proceedings Article

In: Techreport, 2025.

Hollmann, Noah; Müller, Samuel; Purucker, Lennart; Krishnakumar, Arjun; Körfer, Max; Hoo, Shi Bin; Schirrmeister, Robin Tibor; Hutter, Frank

Accurate predictions on small data with a tabular foundation model Journal Article

In: Nature, vol. 637, iss. 8045, pp. 319–326, 2025, (Nature).

2024

Hoo, Shi Bin; Müller, Samuel; Salinas, David; Hutter, Frank

[TabPFN-TS] From Tables to Time: Extending TabPFN-v2 to Time Series Forecasting Proceedings Article

In: NeurIPS 2024 TRL Workshop, 2024.

Robertson, Jake; Hollmann, Noah; Awad, Noor; Hutter, Frank

FairPFN: Transformers Can do Counterfactual Fairness Conference

Proceedings of the Third International Conference on Automated Machine Learning (AutoML 2024), Workshop Track, 2024.

Helli, Kai; Schnurr, David; Hollmann, Noah; Müller, Samuel; Hutter, Frank

Drift-Resilient TabPFN: In-Context Learning Distribution Shifts on Tabular Data Proceedings Article

In: Proceedings of the Third International Conference on Automated Machine Learning (AutoML 2024), Workshop Track, 2024.

2023

Hollmann, Noah; Müller, Samuel; Hutter, Frank

Large Language Models for Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering Proceedings Article

In: Thirty-seventh Conference on Neural Information Processing Systems (NeurIPS), 2023.

Hollmann, Noah; Müller, Samuel; Eggensperger, Katharina; Hutter, Frank

TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second Proceedings Article

In: The Eleventh International Conference on Learning Representations (ICLR), 2023, ( top-25% of accepted papers ).

Publications

2026

Maier, Jannis; Purucker, Lennart

HAPEns: Hardware-Aware Post-Hoc Ensembling for Tabular Data Proceedings Article

In: Preprint, 2026.

Küken, Jaris; Hoo, Shi Bin; Purucker, Lennart; Hutter, Frank

TimEE: Towards End-to-end Time Series Classification via In-Context Learning Proceedings Article

In: ICLR 2026 Workshop: Time Series in the Age of Large Models, 2026.

2025

Erickson, Nick; Purucker, Lennart; Tschalzev, Andrej; Holzmüller, David; Desai, Prateek Mutalik; Salinas, David; Hutter, Frank

TabArena: A Living Benchmark for Machine Learning on Tabular Data Proceedings Article

In: NeurIPS 2025 Datasets and Benchmarks Track , 2025, (Spotlight).

Pfefferle, Alexander; Hog, Johannes; Purucker, Lennart; Hutter, Frank

nanoTabPFN: A Lightweight and Educational Reimplementation of TabPFN Proceedings Article

In: EurIPS 2025 Workshop: AI for Tabular Data, 2025.

Bühler, Magnus; Purucker, Lennart; Hutter, Frank

Causal Data Augmentation for Robust Fine-Tuning of Tabular Foundation Models Proceedings Article

In: EurIPS 2025 Workshop: AI for Tabular Data, 2025.

Jehle, Dominik; Purucker, Lennart; Hutter, Frank

Agentic NL2SQL to Reduce Computational Costs Proceedings Article

In: NeurIPS 2025 Workshop on Efficient Reasoning, 2025.

Swelam, Omar; Purucker, Lennart; Robertson, Jake; Raum, Hanne; Boedecker, Joschka; Hutter, Frank

Does TabPFN Understand Causal Structures? Proceedings Article

In: EurIPS 2025 Workshop: AI for Tabular Data, 2025.

TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models Proceedings Article

In: Techreport, 2025.

Schäfer, Bastian; Purucker, Lennart; Janowski, Maciej; Hutter, Frank

How Usable is Automated Feature Engineering for Tabular Data? Proceedings Article

In: Non-Archival Content Track at AutoML, 2025.

Bischl, Bernd; Casalicchio, Giuseppe; Das, Taniya; Feurer, Matthias; Fischer, Sebastian; Gijsbers, Pieter; Mukherjee, Subhaditya; Müller, Andreas C; Németh, László; Oala, Luis; Purucker, Lennart; Ravi, Sahithya; van Rijn, Jan N; Singh, Prabhant; Vanschoren, Joaquin; van der Velde, Jos; Wever, Marcel

OpenML: Insights from 10 years and more than a thousand papers Proceedings Article

In: Patterns, Elsevier, 2025.

Feuer, Benjamin; Purucker, Lennart; Elachqar, Oussama; Hegde, Chinmay

MARVIS: Modality Adaptive Reasoning over VISualizations Proceedings Article

In: Preprint, 2025.

Bühler, Magnus; Purucker, Lennart; Hutter, Frank

Towards Synthetic Data for Fine-tuning Tabular Foundation Models Proceedings Article

In: Foundation Models for Structured Data workshop at ICML, 2025.

Mráz, Martin; Das, Breenda; Gupta, Anshul; Purucker, Lennart; Hutter, Frank

Towards Benchmarking Foundation Models for Tabular Data With Text Proceedings Article

In: Foundation Models for Structured Data workshop at ICML, 2025.

Küken, Jaris; Purucker, Lennart; Hutter, Frank

Early Stopping Tabular In-Context Learning Proceedings Article

In: Foundation Models for Structured Data workshop at ICML, 2025.

Garg, Anurag; Ali, Muhammad; Hollmann, Noah; Purucker, Lennart; Müller, Samuel; Hutter, Frank

Real-TabPFN: Improving Tabular Foundation Models via Continued Pre-training With Real-World Data Proceedings Article

In: Foundation Models for Structured Data workshop at ICML, 2025.

Arango, Sebastian Pineda; Janowski, Maciej; Purucker, Lennart; Zela, Arber; Hutter, Frank; Grabocka, Josif

Regularized Neural Ensemblers Proceedings Article

In: AutoML Conference 2025, 2025.

Heinzel, Carola Sophia; Purucker, Lennart; Hutter, Frank; Pfaffelhuber, Peter

Advancing biogeographical ancestry predictions through machine learning Proceedings Article

In: Forensic Science International: Genetics, Elsevier, 2025.

Tschalzev, Andrej; Purucker, Lennart; Lüdtke, Stefan; Hutter, Frank; Bartelt, Christian; Stuckenschmidt, Heiner

Unreflected Use of Tabular Data Repositories Can Undermine Research Quality Proceedings Article

In: The Future of Machine Learning Data Practices and Repositories at ICLR, 2025, (Workshop Spotlight).

Hollmann, Noah; Müller, Samuel; Purucker, Lennart; Krishnakumar, Arjun; Körfer, Max; Hoo, Shi Bin; Schirrmeister, Robin Tibor; Hutter, Frank

Accurate predictions on small data with a tabular foundation model Journal Article

In: Nature, vol. 637, iss. 8045, pp. 319–326, 2025, (Nature).

2024

Küken, Jaris; Purucker, Lennart; Hutter, Frank

Large Language Models Engineer Too Many Simple Features for Tabular Data Proceedings Article

In: NeurIPS 2024 Third Table Representation Learning Workshop, 2024, (Workshop Oral).

Hoo, Shi Bin; Müller, Samuel; Salinas, David; Hutter, Frank

[TabPFN-TS] From Tables to Time: Extending TabPFN-v2 to Time Series Forecasting Proceedings Article

In: NeurIPS 2024 TRL Workshop, 2024.

Helli, Kai; Schnurr, David; Hollmann, Noah; Müller, Samuel; Hutter, Frank

Drift-Resilient TabPFN: In-Context Learning Distribution Shifts on Tabular Data Proceedings Article

In: Proceedings of the Third International Conference on Automated Machine Learning (AutoML 2024), Workshop Track, 2024.

Robertson, Jake; Hollmann, Noah; Awad, Noor; Hutter, Frank

FairPFN: Transformers Can do Counterfactual Fairness Conference

Proceedings of the Third International Conference on Automated Machine Learning (AutoML 2024), Workshop Track, 2024.

Maier, Jannis; Möller, Felix; Purucker, Lennart

Hardware Aware Ensemble Selection for Balancing Predictive Accuracy and Cost Proceedings Article

In: Proceedings of the Third International Conference on Automated Machine Learning (AutoML 2024), Workshop Track, 2024.

Salinas, David; Erickson, Nick

TabRepo: A Large Scale Repository of Tabular Model Evaluations and its AutoML Applications Proceedings Article

In: Proceedings of the Third International Conference on Automated Machine Learning (AutoML 2024), ABCD Track, 2024.

Bergman, Eddie; Purucker, Lennart; Hutter, Frank

Don’t Waste Your Time: Early Stopping Cross-Validation Proceedings Article

In: Proceedings of the Third International Conference on Automated Machine Learning (AutoML 2024), Methods Track, 2024.

Bergman, Edward; Feurer, Matthias; Bahram, Aron; Balef, Amir Rezaei; Purucker, Lennart; Segel, Sarah; Lindauer, Marius; Hutter, Frank; Eggensperger, Katharina

AMLTK: A Modular AutoML Toolkit in Python Journal Article

In: Journal of Open Source Software, vol. 9, no. 100, pp. 6367, 2024.

Wegmeth, Lukas; Vente, Tobias; Purucker, Lennart

Revealing the Hidden Impact of Top-N Metrics on Optimization in Recommender Systems Proceedings Article

In: European Conference on Information Retrieval, pp. 140–156, Springer 2024.

2023

Hollmann, Noah; Müller, Samuel; Hutter, Frank

Large Language Models for Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering Proceedings Article

In: Thirty-seventh Conference on Neural Information Processing Systems (NeurIPS), 2023.

Wegmeth, Lukas; Vente, Tobias; Purucker, Lennart; Beel, Joeran

The Effect of Random Seeds for Data Splitting on Recommendation Accuracy Conference

Perspectives on the Evaluation of Recommender Systems Workshop (PERSPECTIVES 2023), co-located with the 17th ACM Conference on Recommender Systems, 2023.

Purucker, Lennart; Beel, Joeran

CMA-ES for Post Hoc Ensembling in AutoML: A Great Success and Salvageable Failure Conference

AutoML Conference 2023, 2023.

Purucker, Lennart; Schneider, Lennart; Anastacio, Marie; Beel, Joeran; Bischl, Bernd; Hoos, Holger

Q(D)O-ES: Population-based Quality (Diversity) Optimisation for Post Hoc Ensemble Selection in AutoML Conference

AutoML Conference 2023, 2023.

Hollmann, Noah; Müller, Samuel; Eggensperger, Katharina; Hutter, Frank

TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second Proceedings Article

In: The Eleventh International Conference on Learning Representations (ICLR), 2023, ( top-25% of accepted papers ).

2022

Purucker, Lennart; Stamm, Felix; Lemmerich, Florian; Beel, Joeran

Estimating the Pruned Search Space Size of Subgroup Discovery Proceedings Article

In: 2022 IEEE International Conference on Data Mining (ICDM), 2022.

Feurer, Matthias; Eggensperger, Katharina; Falkner, Stefan; Lindauer, Marius; Hutter, Frank

Auto-Sklearn 2.0: Hands-free AutoML via Meta-Learning Journal Article

In: Journal of Machine Learning Research, vol. 23, no. 261, pp. 1-61, 2022.

Purucker, Lennart; Beel, Joeran

Assembled-OpenML: Creating Efficient Benchmarks for Ensembles in AutoML with OpenML Conference

First Conference on Automated Machine Learning (Late-Breaking Workshop), 2022.

2021

Bischl, Bernd; Casalicchio, Giuseppe; Feurer, Matthias; Gijsbers, Pieter; Hutter, Frank; Lang, Michel; Mantovani, Rafael G; van Rijn, Jan N; Vanschoren, Joaquin

OpenML Benchmarking Suites Proceedings Article

In: Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks, 2021.

Kadra, Arlind; Lindauer, Marius; Hutter, Frank; Grabocka, Josif

Well-tuned Simple Nets Excel on Tabular Datasets Proceedings Article

In: Thirty-Fifth Conference on Neural Information Processing Systems, 2021.

Zimmer, Lucas; Lindauer, Marius; Hutter, Frank

Auto-Pytorch: Multi-Fidelity MetaLearning for Efficient and Robust AutoDL Journal Article

In: IEEE Transactions on Pattern Analysis and Machine Intelligence, pp. 1-1, 2021.

Feurer, Matthias; van Rijn, Jan N; Kadra, Arlind; Gijsbers, Pieter; Mallik, Neeratyoy; Ravi, Sahithya; Müller, Andreas; Vanschoren, Joaquin; Hutter, Frank

OpenML-Python: an extensible Python API for OpenML Journal Article

In: Journal of Machine Learning Research, vol. 22, no. 100, pp. 1-5, 2021.

Research Topics & Interests

Foundation Models

Causality

Agentic Data Science

Members

Frank Hutter

PhD Students & Research Engineers

Magnus Bühler

Johannes Hog

Shi Bin (Liam) Hoo

Dominika Matus

Alexander Pfefferle

Lennart Purucker

Jake Robertson

Omar Swelam

Tom Zehle

Students

Jaris Küken

Mustafa Tajjar

Salih Bora Öztürk

Alumni

Edward Bergman

Pranav Kolar Bhaskarpantula

Breenda Das

Katharina Eggensperger

Matthias Feurer

Gerrit Freiwald

Anurag Garg

Noah Hollmann

Lyubomir Ivanov

Charlotte Lange

Martin Mráz

David Salinas

Bastian Schäfer

Highlighted Research

2025

2024

2023

Publications

2026

2025

2024

2023

2022

2021