Tabular Foundation Models: Von der Nische zur Milliardenmarkt

Lesezeit: 7 Minuten

In fünf Monaten haben sich Tabular Foundation Models von einer Nische zu einer breit anerkannten Plattformkategorie entwickelt, die Milliarden an Investitionen, große Übernahmen und wachsende Aufmerksamkeit von Anbietern auf sich zieht. Wenn Sie mit strukturierten Unternehmensdaten arbeiten, und das tun die meisten Organisationen, lohnt es sich, diese Entwicklung zu beobachten.

Was passiert ist, in chronologischer Reihenfolge.

Januar 2026: Forbes erklärt strukturierte Daten “AI’s next $600 billion frontier“

In einem Forbes-Beitrag argumentierte die Risikokapitalgeberin Rocio Wu Dianoux, dass Large Language Models (LLMs) zwar die Arbeit mit Text verändert haben, die weitaus größere Chance jedoch in strukturierten Daten liege: in den Tabellen, Spreadsheets und relationalen Datenbanken, die Unternehmensprozesse antreiben. Die These: Branchen, die auf strukturierten Daten basieren (Finanzwesen, Versicherungen, Fertigung), setzen weiterhin auf tausende aufgabenspezifische Machine-Learning-Modelle (ML), jedes mit eigener Pipeline, eigenem Feature Engineering und eigenem Monitoring. Ein universelles Foundation Model für Tabellen könnte diese Komplexität auflösen. Der Artikel verweist auf eine neue Generation von Unternehmen in diesem Bereich, darunter Prior Labs, Fundamental, Neuralk AI und Wood Wide AI. Jedes verfolgt unterschiedliche architektonische Ansätze zur Repräsentation tabellarischer und relationaler Daten, zum Erlernen spaltenübergreifender Abhängigkeiten und zur Generalisierung über Aufgaben hinweg.

Februar 2026: Fundamental sammelt 255 Mio. Dollar für sein Large Tabular Model ein

Wenige Wochen später trat Fundamental aus dem Stealth-Modus heraus, mit $255 Mio. Finanzierung ($30 Mio. Seed plus $225 Mio. Series A) bei einer Bewertung von $1,4 Mrd. Die Runde wurde von Oak HC/FT angeführt, mit Beteiligung von Salesforce Ventures, Battery Ventures und Valor Equity Partners. Zu den Angel-Investoren zählen die CEOs von Perplexity, Datadog und Brex (TechCrunch).

Fundamentals Flaggschiff-Modell NEXUS ist ein deterministisches Large Tabular Model (LTM), entwickelt, um Ergebnisse aus Unternehmensdaten vorherzusagen: Bedarfsprognosen, Betrugserkennung, Kundenabwanderung und Preisvorhersagen. Das Unternehmen, gegründet von DeepMind-Alumni, hatte bereits mehrere Verträge im siebenstelligen Bereich mit Fortune-100-Unternehmen sowie eine strategische Deployment-Partnerschaft mit AWS abgeschlossen.

Die Größenordnung der Finanzierung signalisiert etwas Wichtiges. Investoren behandeln Tabular AI als Plattformkategorie.

April 2026: H2O.ai launcht TabH2O

Der etablierte KI-Plattform-Anbieter H2O.ai stieg mit TabH2O ins Tabular-Foundation-Model-Rennen ein, einem Foundation Model für tabellarische Daten, ausgeliefert als einfache API. Das Wertversprechen: Datei hochladen, Vorhersage erhalten. Der Dienst erfordert kein Modell-Training, kein Infrastruktur-Management und speichert keine Kundendaten.

TabH2O ist auf Millionen synthetischer Tabellendatensätze vortrainiert und ersetzt die klassische ML-Pipeline aus Feature Engineering, Modellauswahl und Hyperparameter-Tuning. H2O.ai positioniert es als Werkzeug sowohl für den eigenständigen Einsatz als auch als Capability Layer für AI-Agenten, die mit strukturierten Daten arbeiten.

Das ist relevant, weil H2O.ai kein Start-up ist, das eine These verfolgt. Es ist ein etablierter AutoML-Anbieter, der bestätigt, dass Tabular Foundation Models die nächste Evolutionsstufe des Marktes darstellen, den das Unternehmen mit aufgebaut hat.

Mai 2026: SAP übernimmt Prior Labs und investiert über 1 Milliarde Euro

Der größte Deal kam am 4. Mai, als SAP die Übernahme von Prior Labs ankündigte, dem Freiburger Pionier für Tabular Foundation Models und Entwickler von TabPFN. SAP verpflichtete sich, über vier Jahre mehr als 1 Milliarde Euro zu investieren, um Prior Labs zu einem global führenden Frontier-AI-Lab für strukturierte Unternehmensdaten auszubauen.

Die strategische Logik: LLMs tun sich schwer mit den strukturierten, numerischen Daten, die Unternehmensprozesse antreiben. Tabular Foundation Models wie TabPFN sind genau für diese Daten gebaut und ermöglichen Anwendungsfälle wie Predictive Maintenance, Bedarfsprognosen, Churn-Analysen und Cashflow-Vorhersagen direkt auf SAP-Daten.

Zeitgleich hat Prior Labs TabPFN-3 veröffentlicht. Das Modell skaliert nun auf Datensätze mit bis zu einer Million Zeilen und bringt mit „Thinking“ (Test-time Compute Scaling) im API-Angebot eine zusätzliche Leistungsstufe. Ein klares Signal, dass die Kategorie sowohl in der Performance als auch in der Kommerzialisierung rasch reift.

Eine ausführliche Analyse, was das für SAPs Plattformstrategie bedeutet, finden Sie in unserer BARC Perspective on SAP’s dual acquisition of Prior Labs and Dremio.

Warum das wichtig ist

Vier Datenpunkte in fünf Monaten ergeben ein klares Bild:

ZeitpunktEreignisSignal
Januar 2026Forbes erklärt strukturierte Daten zur $600-Milliarden-Frontier der KI; porträtiert das junge ÖkosystemMarkt-Narrativ formt sich
Februar 2026Fundamental sammelt $255 Mio. für Large Tabular ModelVC-Überzeugung
April 2026H2O.ai launcht TabH2O Foundation ModelEtablierter Anbieter validiert
Mai 2026SAP übernimmt Prior Labs und Dremio; investiert über €1 Mrd.Enterprise-Plattform-Wette

Vom Medien-Narrativ über Start-up-Finanzierung und Anbieter-Validierung bis zur großen Unternehmensübernahme: alles innerhalb von nur fünf Monaten.

Jenseits kommerzieller Signale: die Open-Source-Seite

Die Dynamik beschränkt sich nicht auf Venture Capital und Unternehmensübernahmen. Eine aktive Open-Source-Community treibt Innovation in einem Tempo voran, das mit kommerziellen Anstrengungen mithält und sie bisweilen übertrifft.

Das auffälligste Beispiel ist TabICLv2, entwickelt von Forschenden bei INRIA (Frankreichs nationalem Institut für digitale Wissenschaft). Auf dem TALENT-Benchmark, der Modelle über 300 unterschiedliche Tabellen-Datensätze hinweg bewertet, ist TabICLv2 aktuell das beste Modell und übertrifft sogar RealTabPFN-2.5 (die hyperparameter-getunte, ensembled und feingetunte Version des Prior-Labs-Modells), und das ohne jegliches Tuning (arXiv). Auf dem TabArena-Benchmark schlägt es stark getunte XGBoost-, CatBoost- und LightGBM-Modelle auf rund 80 % der Datensätze. Das Modell ist vollständig quelloffen, per pip installierbar, scikit-learn-kompatibel und unter einer permissiven Lizenz verfügbar (GitHub).

TabICLv2 löst zudem eine zentrale praktische Limitierung früherer Tabular Foundation Models: Skalierung. Während TabPFN v2 auf Datensätze mit bis zu 10.000 Samples beschränkt war, skaliert TabICLv2 effektiv auf Millionen Samples unter 50 GB GPU-Speicher und ist bei der Inferenz bis zu zehnmal schneller als sein Vorgänger. Einen umfassenden Überblick über die aktuelle Landschaft gibt Christoph Molnars Beitrag The state of Tabular Foundation Models (2026).

Die Existenz eines vollständig offenen, state-of-the-art Tabular Foundation Models ist aus mehreren Gründen wichtig. Es senkt die Einstiegshürde für Experimente. Es ermöglicht unabhängige Validierung und Reproduzierbarkeit. Und es stellt sicher, dass die Kategorie nicht ausschließlich von proprietären Angeboten definiert wird. Für Organisationen, die Tabular Foundation Models evaluieren, ist TabICLv2 ein naheliegender Startpunkt. Frei nutzbar, einfach integrierbar und konkurrenzfähig zu den besten kommerziellen Alternativen.

Die Frage für Unternehmen

Tabular Foundation Models versprechen, für strukturierte Daten zu leisten, was LLMs für Text geleistet haben: KI ohne tiefe Expertise zugänglich machen, die Komplexität von hunderten aufgabenspezifischen Modellen reduzieren und Vorhersagefähigkeiten auf den Daten verfügbar machen, die das Geschäft tatsächlich antreiben.

Die eigentliche Frage ist, wie schnell diese Technologie die Analytics- und KI-Landschaft umgestalten wird und ob Ihre Organisation darauf vorbereitet ist.

Starke Baselines, begrenzte Interpretierbarkeit

Tabular Foundation Models erzeugen mit minimalem Aufwand solide Vorhersagen. Datensatz hochladen, Ergebnis erhalten. Kein Feature Engineering, keine Hyperparameter-Optimierung, keine Modellauswahl. Für viele Standard-Anwendungsfälle ist die Qualität dieser Vorhersagen bereits auf Augenhöhe mit sorgfältig getunten ML-Pipelines.

Aber: Die Modelle sind Black Boxes. Welche Zusammenhänge in den Eingabedaten zu einer bestimmten Vorhersage führen, bleibt verborgen. Nutzer bekommen eine Antwort, aber keine Erklärung.

Das ist nicht neu. Viele AutoML-Lösungen teilen diese Limitierung. Der Unterschied liegt darin, dass manche AutoML-Ansätze, insbesondere solche auf Basis von Gradient Boosted Trees, sinnvolle Erklärbarkeit bieten, etwa über eingebaute Feature Importance, SHAP-Werte oder ähnliche Verfahren. Diese Transparenz hat realen Wert: Sie schafft Vertrauen, unterstützt regulatorische Anforderungen und erlaubt Fachexperten, aus Modellergebnissen umsetzbare Erkenntnisse abzuleiten.

Gleichzeitig schwächt sich das Argument ab, dedizierte ML-Pipelines seien die einzige Alternative. Large Language Models haben den Aufwand für Entwicklung, Test und Deployment eigener Pipelines drastisch reduziert. Was früher Wochen an Engineering erforderte, lässt sich heute in wenigen Tagen prototypisieren.

Wo passen Tabular Foundation Models also heute? Wir sehen zwei sofortige Anwendungsfälle mit hohem Wertbeitrag:

  1. Schnelles Benchmarking. Da Tabular Foundation Models nahezu sofort starke Baselines liefern, sind sie ideale Referenzpunkte für die Bewertung individueller ML-Pipelines. Wenn das selbst gebaute Modell ein Zero-Shot-Foundation-Model nicht schlägt, ist das ein Signal, das man genauer ansehen sollte.
  2. Fallback bei extremer Unsicherheit. Wenn historische Muster zusammenbrechen, wie während der COVID-19-Pandemie, als viele klassische ML-Modelle scheiterten, weil sich die Datenverteilung grundlegend verschoben hatte, können Foundation Models, die auf vielfältigen synthetischen Daten vortrainiert wurden, robuster sein. Frische Forschung zu drift-resilienten Tabular Foundation Models stützt diese Hypothese, auch wenn empirische Belege aus realen Extrem-Szenarien noch begrenzt sind.

Die Erklärbarkeitslücke ist real, aber sie schließt sich. Aktuelle Interpretierbarkeitsmethoden für Tabular Foundation Models sind ausschließlich post-hoc (etwa SHAP oder Permutation Feature Importance) und mit überproportional hohen Rechenkosten verbunden, eine Folge der invertierten Kostenstruktur, bei der das Training günstig, die Inferenz aber teuer ist. Forschende arbeiten allerdings aktiv an integrierten Lösungen. Ansätze wie KernelICL, die die undurchsichtige Vorhersageschicht durch transparente Kernel-Funktionen ersetzen, deuten auf eine Zukunft, in der Erklärbarkeit in der Modellarchitektur verankert ist und nicht nachträglich angefügt wird.

Wenn die Inferenzzeiten weiter sinken und die integrierte Erklärbarkeit reift, könnten Tabular Foundation Models die nächste Evolutionsstufe des maschinellen Lernens für strukturierte Daten sein. Bis dahin sind sie eine sinnvolle Ergänzung im Werkzeugkasten, am besten in Kombination mit interpretierbaren Ansätzen.

Testen Sie TabICLv2 in diesem Quartal gegen eine Ihrer bestehenden ML-Pipelines. Dieser Benchmark sagt mehr aus als jedes Marktsignal.

Der Countdown läuft:
DATA festival Munich vom 16. bis 17. Juni
Sind Sie bereit, das volle Potenzial von Daten und künstlicher Intelligenz für Ihr Unternehmen zu nutzen? Das DATA festival bringt Data People aus der ganzen Welt zusammen, um echte Anwendungsmöglichkeiten von KI zu sehen.

Weitere Inhalte entdecken

Ein Beitrag von:

DATA festival Munich. Treffen Sie die Menschen hinter echten Data & AI Projekten.