Was ist Deep Learning?

Moritz Serif · 15. April 2026

Deep Learning nutzt künstliche neuronale Netze mit vielen Schichten, um komplexe Muster in Bildern, Sprache und Text zu erkennen — die Technik hinter ChatGPT, Bilderkennung und selbstfahrenden Autos.

Definition

Was ist Deep Learning?

Deep Learning ist ein Teilbereich des Machine Learning, der Daten mit mehrschichtigen neuronalen Netzen verarbeitet und dabei selbstständig komplexe Muster erkennt. Es bildet heute die Grundlage für die meisten Durchbrüche in der künstlichen Intelligenz.

Der Begriff „deep" bezieht sich auf die Tiefe dieser Netze — also die Anzahl der verborgenen Schichten zwischen Eingabe und Ausgabe. Klassische neuronale Netze nutzen wenige Schichten, Deep-Learning-Modelle hunderte bis tausende.

Funktionsweise

Wie funktioniert Deep Learning?

Deep Learning verarbeitet Daten in Schichten: Jede Schicht erkennt ein abstrakteres Muster als die vorherige. Am Ende steht eine Vorhersage, eine Klassifizierung oder ein generierter Inhalt.

Schichten

Ein Deep-Learning-Modell besteht aus einem künstlichen neuronalen Netz mit Eingabeschicht, vielen verborgenen Schichten und Ausgabeschicht. Die Eingabe wandert durch jede Schicht, die sie in eine abstraktere Darstellung umformt.

In einem Bilderkennungs-Modell erkennt die erste Schicht Kanten, die zweite Schicht Formen, die dritte Schicht Objekte. Jede Ebene baut auf den Merkmalen der vorherigen auf.

Automatische Merkmalserkennung

Klassische Machine-Learning-Verfahren verlangen, dass Entwickler die relevanten Merkmale manuell definieren. Deep Learning übernimmt diesen Schritt selbst und extrahiert die Merkmale direkt aus den Rohdaten.

Dadurch verarbeitet Deep Learning unstrukturierte Daten wie Bilder, Audio oder Text ohne manuelle Vorverarbeitung — ein entscheidender Vorteil gegenüber klassischen Algorithmen.

Backpropagation

Während des Trainings passt das Modell seine Gewichte über ein Verfahren namens Backpropagation an. Der Algorithmus misst den Fehler der Vorhersage und verteilt ihn rückwärts durch alle Schichten.

Mit jedem Durchlauf korrigiert das Modell seine Gewichte, bis die Vorhersagen präzise genug ausfallen. Dieser Lernprozess verschlingt Millionen von Beispielen und oft Wochen an Rechenzeit.

Architekturen

Welche Deep-Learning-Architekturen gibt es?

Deep Learning umfasst mehrere Architekturen für unterschiedliche Datentypen: CNNs für Bilder, RNNs und LSTMs für Sequenzen, Transformer für Sprache. Jede Architektur passt zu bestimmten Aufgaben.

Convolutional Neural Networks (CNN)

CNNs verarbeiten Bilder, indem sie lokale Muster wie Kanten und Texturen über Filter erkennen. Sie dominieren die Computer Vision und stecken in Gesichtserkennung, Bildklassifizierung und medizinischer Bildanalyse.

Recurrent Neural Networks (RNN) und LSTM

RNNs verarbeiten Sequenzen wie Text oder Audio und speichern Informationen aus vorherigen Zeitschritten. Long Short-Term Memory (LSTM) erweitert RNNs um einen Mechanismus, der wichtige Informationen über längere Zeiträume behält.

RNNs und LSTMs prägten viele Jahre die Sprachverarbeitung — bis Transformer sie in den meisten Aufgaben ablösten.

Transformer

Transformer verarbeiten Sequenzen parallel statt schrittweise und nutzen einen Mechanismus namens Self-Attention, der Bezüge zwischen allen Wörtern eines Satzes gleichzeitig erfasst. Google-Forscher stellten die Architektur 2017 im Paper „Attention is all you need" vor.

Jedes moderne Large Language Model baut auf Transformern auf — von GPT über Claude bis Gemini.

Abgrenzung

Was unterscheidet Deep Learning von Machine Learning?

Deep Learning ist eine Teilmenge von Machine Learning, die neuronale Netze mit vielen Schichten nutzt. Klassisches Machine Learning arbeitet mit einfacheren Algorithmen und verlangt manuelle Merkmalsauswahl.

Merkmalserkennung

Bei klassischem Machine Learning wählen Entwickler die relevanten Features selbst aus — etwa Farben oder Kanten für eine Bildanalyse. Deep Learning überspringt diesen Schritt und lernt die Merkmale direkt aus den Rohdaten.

Dieser Unterschied macht Deep Learning besonders stark bei unstrukturierten Daten wie Bildern, Audio und Text, wo manuelle Feature-Definition praktisch unmöglich wäre.

Datenmenge und Rechenleistung

Deep Learning verlangt Millionen bis Milliarden Trainingsbeispiele und spezialisierte GPU-Hardware. Klassisches ML kommt oft schon mit wenigen tausend Beispielen und einer normalen CPU aus.

Das schlägt sich direkt auf die Kosten durch: Ein klassisches ML-Modell trainiert in Minuten, ein großes Deep-Learning-Modell verschlingt Wochen Rechenzeit und Millionenbeträge.

Wann sich welches Verfahren lohnt

Bei kleinen Datensätzen oder klar strukturierten Tabellen liefern klassische Verfahren wie Random Forests oder Support Vector Machines oft gleich präzise Ergebnisse — mit deutlich weniger Aufwand.

Deep Learning entfaltet seine Stärken erst bei unstrukturierten Daten und großen Trainingsmengen. Für die meisten Business-Intelligence-Aufgaben reicht klassisches ML völlig aus.

Sprachmodelle

Warum steckt Deep Learning hinter Large Language Models?

Large Language Models wie GPT, Claude oder Gemini sind Deep-Learning-Modelle auf Transformer-Basis. Ohne tiefe neuronale Netze könnten Maschinen Sprache weder verstehen noch erzeugen.

Transformer-Architektur

Die Transformer-Architektur stapelt dutzende bis hunderte Schichten übereinander, in denen jede Schicht Wortbezüge neu gewichtet. Erst diese Tiefe erlaubt es einem Modell, Grammatik, Bedeutung und Kontext gleichzeitig zu erfassen.

Der Self-Attention-Mechanismus prüft in jeder Schicht, welche Wörter im Satz für das nächste Token zählen. Klassisches Machine Learning beherrscht diese Art der Verarbeitung nicht.

Skalierung über Parameter

Ein LLM besitzt hunderte Milliarden Parameter — jedes davon ist ein Gewicht in einem tiefen neuronalen Netz. Je mehr Parameter, desto differenzierter fallen die Sprachfähigkeiten aus.

Forschungsergebnisse zeigen einen klaren Skalierungs-Effekt: Größere Modelle lösen Aufgaben, an denen kleinere scheitern. Deep Learning macht diese Skalierung überhaupt erst technisch möglich.

Training auf Milliarden Texten

Ein LLM lernt während des Trainings, welches Token am wahrscheinlichsten auf die bisherige Sequenz folgt. Dafür verarbeitet es Terabyte an Text aus Büchern, wissenschaftlichen Papern und dem offenen Web.

Das Training läuft auf Clustern mit zehntausenden GPUs über Wochen oder Monate. Nur Deep-Learning-Verfahren können Muster in dieser Datenmenge überhaupt erfassen.

Training

Wie trainieren Entwickler ein Deep-Learning-Modell?

Entwickler trainieren ein Deep-Learning-Modell, indem sie ihm große Datenmengen zeigen und seine Gewichte schrittweise anpassen, bis die Vorhersagen stimmen. Der Prozess läuft auf spezialisierter Hardware.

Daten

Deep-Learning-Modelle verlangen Millionen bis Milliarden von Beispielen. Bildklassifikatoren begnügen sich oft mit Hunderttausenden Bildern, Sprachmodelle verarbeiten viele Terabyte Text aus dem Internet.

Die Qualität der Daten entscheidet maßgeblich über das Ergebnis. Schlecht gelabelte Daten oder verzerrte Stichproben liefern schlechte Modelle — unabhängig von der Architektur.

GPU und TPU

Das Training läuft auf GPUs (Graphics Processing Units) oder auf TPUs (Tensor Processing Units von Google), die tausende Matrixoperationen parallel ausführen. Eine handelsübliche CPU käme dabei schlicht zu langsam voran.

Moderne Sprachmodelle trainieren auf Clustern mit zehntausenden Nvidia-H100-GPUs. Die Trainingskosten für ein großes LLM übersteigen oft zweistellige Millionenbeträge.

Overfitting

Wenn ein Modell die Trainingsdaten zu genau auswendig lernt, scheitert es an neuen Daten — dieses Problem heißt Overfitting. Techniken wie Dropout, Regularisierung und Validierungs-Sets halten das Modell generalisierbar.

Praxis

Wo nutzen Unternehmen Deep Learning?

Unternehmen nutzen Deep Learning überall dort, wo Maschinen Bilder, Sprache oder komplexe Muster verarbeiten — von der Qualitätskontrolle in der Produktion bis zur medizinischen Diagnostik.

Bildverarbeitung

Automobilhersteller nutzen Deep Learning für Spurerkennung und Fußgängererkennung in Fahrassistenzsystemen. Kameras in Produktionslinien erkennen defekte Bauteile in Echtzeit.

Radiologen ziehen Deep-Learning-Modelle heran, um in Röntgen- und MRT-Aufnahmen Tumore und Frakturen zu identifizieren.

Sprache und Text

Sprachassistenten wie Siri und Alexa wandeln Audio in Text um und verstehen Befehle über Deep-Learning-Modelle. Übersetzungsdienste wie DeepL bauen ebenfalls auf neuronalen Netzen auf.

Kundensupport-Chatbots, automatische Zusammenfassungen und Sentiment-Analyse laufen heute über Transformer-basierte Modelle.

Industrie und Medizin

Google DeepMind sagt mit AlphaFold Proteinstrukturen voraus — ein Durchbruch für die Wirkstoffforschung. Banken entdecken Betrugsmuster in Millionen von Transaktionen pro Sekunde.

Energieversorger prognostizieren Stromverbrauch und optimieren die Netzstabilität über Deep-Learning-Modelle, die Wetter- und Verbrauchsdaten gleichzeitig auswerten.

Grenzen

Welche Grenzen hat Deep Learning?

Deep Learning verlangt gewaltige Datenmengen, enorme Rechenleistung und bleibt in vielen Fällen eine Black Box. Diese drei Faktoren begrenzen, wo sich der Einsatz lohnt.

Datenhunger

Ohne ausreichend Trainingsdaten lernt ein Deep-Learning-Modell keine belastbaren Muster. Für seltene Krankheitsbilder oder Nischenanwendungen fehlen oft schlicht die Daten.

Transfer Learning mildert das Problem, indem Entwickler vortrainierte Modelle auf kleinere Datensätze anpassen.

Black-Box-Problem

Ein Deep-Learning-Modell trifft Vorhersagen, ohne dass Menschen im Detail nachvollziehen können, warum. In regulierten Branchen wie Medizin oder Finanzen bleibt das ein ernstes Problem.

Die Disziplin Explainable AI (XAI) entwickelt Methoden, die Entscheidungen tiefer Netze zumindest teilweise transparent machen.

Energieverbrauch

Das Training eines großen Sprachmodells verschlingt so viel Strom wie mehrere Haushalte in einem Jahr. Der CO₂-Fußabdruck des Deep Learning steht zunehmend in der Kritik.

Entwicklung

Wie entwickelte sich Deep Learning seit 2012?

Deep Learning durchlief seit 2012 drei große Sprünge: AlexNet bewies die Leistungsfähigkeit tiefer Netze, der Transformer revolutionierte Sprache, generative KI brachte Deep Learning in den Alltag.

AlexNet 2012

AlexNet gewann 2012 den ImageNet-Wettbewerb mit deutlichem Vorsprung und läutete die Ära des modernen Deep Learning ein. Das Netz nutzte erstmals GPUs für das Training eines tiefen CNN.

Transformer 2017

Google-Forscher stellten 2017 den Transformer im Paper „Attention is all you need" vor. Die neue Architektur verdrängte RNNs in fast allen Sprachaufgaben und ebnete den Weg für moderne LLMs.

Generative KI seit 2022

OpenAI veröffentlichte 2022 ChatGPT und brachte Deep Learning in den Alltag. Seither erscheinen monatlich neue Modelle, die Bilder, Videos, Musik und Code erzeugen — alle auf Deep-Learning-Basis.

FAQ

Häufige Fragen zu Deep Learning +

Ist Deep Learning dasselbe wie künstliche Intelligenz?

Nein — Deep Learning ist ein Teilbereich des Machine Learning, und Machine Learning wiederum ist ein Teilbereich der künstlichen Intelligenz. Die Hierarchie lautet: KI → Machine Learning → Deep Learning.

Ist ChatGPT ein Beispiel für Deep Learning?

Ja — ChatGPT basiert auf der GPT-Architektur, einem großen Transformer-Netz, das OpenAI mit Deep Learning trainiert hat. Ohne Deep Learning wäre ChatGPT technisch nicht möglich.

Wie viele Daten braucht ein Deep-Learning-Modell?

Das hängt von der Aufgabe ab. Ein Bildklassifikator lernt brauchbar ab etwa 10.000 gelabelten Bildern, große Sprachmodelle benötigen mehrere Terabyte Text und Billionen Tokens.

Ist Deep Learning eine neue Technologie?

Die Grundidee stammt aus den 1980er Jahren. Der Durchbruch kam erst 2012 mit AlexNet — durch GPUs, große Datenmengen und bessere Trainingsverfahren.

Welche Programmiersprachen und Frameworks nutzt Deep Learning?

Python dominiert das Deep-Learning-Ökosystem. Die wichtigsten Frameworks sind PyTorch von Meta und TensorFlow von Google — beide bieten vortrainierte Modelle und GPU-Unterstützung.

Was bedeutet „deep" bei Deep Learning?

„Deep" bezieht sich auf die Tiefe des neuronalen Netzes — also die Anzahl der verborgenen Schichten zwischen Eingabe und Ausgabe. Klassische Netze haben ein bis zwei Schichten, Deep-Learning-Modelle hunderte bis tausende.

Läuft Deep Learning auf normalen Computern?

Das Training großer Modelle verlangt spezialisierte GPU-Cluster und läuft auf normalen PCs nicht. Die Anwendung vortrainierter Modelle funktioniert dagegen oft auch auf Laptops oder Smartphones.

Transparenz

Verwendete Quellen

Eigene Recherche
Alexander Thamm: „Deep Learning: Kompakt erklärt" (2025)
IBM: „Was ist Deep Learning?" (2026)
Fraunhofer IESE: „Deep Learning alle Informationen auf einem Blick" (2026)
Wikipedia: „Deep Learning" (2026)

Deep Learning für Ihr Unternehmen prüfen?

30 Minuten. Gemeinsam klären, wo Deep Learning in Ihrem Prozess echten Mehrwert bringt.

Kontakt aufnehmen