Künstliche Intelligenz als grundlegender Mechanismus zur Steuerung von Prozessen und Verarbeitung von Daten ist in den letzten Jahren immer weiter in den Vordergrund gerückt. Insbesondere haben sich künstliche neuronale Netze als dominante Modelle etabliert, die komplexe Datenstrukturen erfassen und verarbeiten können. Für die Umsetzung einer Lernaufgabe mittels eines solchen Modells werden sowohl für die Aufbereitung der Daten als auch für die Architektur des Modells Methoden aus der Signalverarbeitung verwendet. In diesem Tutorial zeigen wir wie verschiedene akustische Signalklassen, die sensorischen Messungen entspringen, in passende Zeit-Frequenz Darstellungen transformiert werden können, um diese einem Deep Learning Modell zu übergeben. Das neuronale Netz soll auf Basis der Daten eine bestimmte Lernaufgabe lösen, etwa Klassifizierung oder Regression. Neben der generellen Struktur des Netzes betrachten wir verschiedene Möglichkeiten die Zeit-Frequenz Darstellungen durch Verwendung von Filtern signalabhängig einzuspeisen. Anhand eines praktischen Code-Beispiels demonstrieren wir den Prozess von Datenverarbeitung, Training und Evaluation des Modells in Python unter der zusätzlichen Verwendung der Large Time-Frequency Toolbox (LTFAT).