Generativer Change

Wie GenAI Datenbanken transformiert

29.09.2023 von Peter Wayner
Generative AI verändert auch die Art und Weise, wie wir Daten speichern, strukturieren und abfragen.
Generative AI verändert alles - auch das Datenbank- beziehungsweise Storage Game. Lesen Sie, wie.
Foto: Ahmad Muflih Syarifuddin - shutterstock.com

Der um sich greifenden Hysterie zum Trotz liegen die größten Veränderungen, die die Generative-AI-Ära bringen wird, vermutlich tief im Software-Stack verborgen. KI-Algorithmen verändern dabei nicht nur die Welt Schritt für Schritt, sondern auch die Datenbanken - und machen die Systeme mit neuen KI-Funktionen komplexer, lernfähig und scheinbar intuitiv. Die Aktualisierungen finden dabei auf allen Data-Storage-Ebenen statt:

Im Folgenden lesen Sie, wie generative künstliche Intelligenz den Storage-Bereich auf den Kopf stellt.

So verändert Generative AI das Datenbank-Game

1. Vektoren und Embeddings

KI-Entwickler speichern Informationen gerne in Form langer Zahlenvektoren. In der Vergangenheit haben Datenbanken diese Werte als Zeilen gespeichert, wobei jede Zahl in einer eigenen Spalte stand. Inzwischen unterstützen einige Datenbanken jedoch auch reine Vektoren, so dass die Informationen nicht mehr in Zeilen und Spalten unterteilt werden müssen. Stattdessen speichern die Datenbanken sie zusammen ab. Storage-Vektoren können Hunderte oder gar Tausende von Zahlen beinhalten.

Solche Vektoren werden in der Regel mit Embeddings kombiniert, einem Schema, um komplexe Daten in eine einzelne Liste von Zahlen zu verwandeln. Embeddings zu entwerfen, ist eine Kunst für sich und setzt oft Kenntnisse über den zugrundeliegenden Bereich voraus. Sind die Embeddings gut konzipiert, werden ein schneller Datenbankzugriff und komplexe Abfragen möglich.

Einige Unternehmen entwickeln neuartige Vektoren-Datenbanken, etwa Pinecone, Vespa, Milvus oder Weaviate. Andere fügen, wie PostgreSQL, Vektoren zu ihren aktuellen Tools hinzu.

2. Abfragemodelle

Support für Vektoren in Datenbanken bringt mehr als nur Bequemlichkeit, denn neue Abfragefunktionen können mehr als nur exakte Übereinstimmungen finden. Sie können auch die "nächstgelegenen" Werte finden, was es erleichtert, Empfehlungs- oder Anomaly-Detection-Systeme zu implementieren.

Vektordatenbanken wie die eben bereits erwähnten bieten die Möglichkeit, Vektoren abzufragen. Tools wie Lucene oder Solr bieten darüber hinaus auch einen Ähnlichkeitsabgleich, der mit großen unstrukturierten Textblöcken ähnliche Ergebnisse liefern kann.

3. Empfehlungssysteme

Neue, KI-gesteuerte Datenbanken fühlen sich manchmal so an, als könnten sie die Gedanken der Nutzer lesen. Ähnlichkeitssuchen finden ähnliche Datenelemente, die oft genau das sind, was die Nutzer suchen. Solche Algorithmen wurden einst als eigenständige Anwendungen geführt, werden inzwischen aber zunehmend in die Datenbanken selbst integriert, um bessere, komplexere Abfragen zu unterstützen.

Oracle ist nur ein Beispiel für einen Anbieter, der auf diesen Markt abzielt. Das Unternehmen bietet schon seit geraumer Zeit verschiedene Funktionen für Fuzzy Matching und Ähnlichkeitssuche an. Inzwischen hat man auch Tools im Programm, die auf spezifische Branchen wie den Onlinehandel zugeschnitten sind.

4. Indizierungsparadigmen

In der Vergangenheit erstellten Datenbanken einfache Indizes, die eine schnellere Suche anhand bestimmter Spalten ermöglichten. Datenbankadministratoren waren in der Lage, komplizierte Abfragen mit Joins und Filterklauseln zu erstellen, die mit den richtigen Indizes schneller ausgeführt werden konnten. Heutige Vektordatenbanken sind hingegen darauf ausgelegt, Indizes zu erstellen, die alle Werte eines Vektors abdecken.

Aber das ist erst der Anfang: Wird eine KI-Instanz auf die Datenbank trainiert wird, nimmt sie alle darin enthaltenen Informationen effektiv auf. Anschließend können komplexe und anpassunsfähige Suchen per natürlicher Sprache gestartet werden.

5. Datenklassifizierung

Bei der KI geht es nicht nur darum, der Datenbank eine neue Struktur hinzuzufügen. Manchmal geht es auch darum, neue Strukturen in den Daten selbst zu schaffen - insbesondere wenn es um unstrukturierte geht. KI-Algorithmen sind in der Lage, Rauschen herauszufiltern und Ordnung in die unübersichtlichen Datensätze zu bringen. Dabei können sie auch Muster erkennen, Daten klassifizieren, wichtige Details extrahieren und automatisiert eine fortlaufende, sauber abgegrenzte tabellarische Ansicht der Informationen erstellen.

Amazon Web Services bietet verschiedene Datenklassifizierungs-Services an, die KI-Tools wie SageMaker mit Datenbanken wie Aurora verbinden.

6. Bessere Performance

In der Vergangenheit mussten Programmierer noch viel Zeit damit verbringen, sich mit den diversen Parametern und Schemata einzelner Datenbanken auseinanderzusetzen, damit diese effizient funktionieren - die Rolle des Datenbankadministrators war geboren. Viele dieser übergeordneten Meta-Aufgaben laufen heute automatisiert ab, oft durch den Einsatz von Machine-Learning-Algorithmen, um Abfragemuster und Datenstrukturen zu verstehen. So lassen sich der Traffic auf einem Server analysieren und entsprechend den Anforderungen in Echtzeit anpassen sowie die Bedürfnisse der Benutzer antizipieren.

Auch hier ist Oracle ein gutes Beispiel: Der Konzern vermarktet seine Datenbanken als "autonom", weil sie mit hochentwickelten KI-Algorithmen ausgestattet sind, die die Leistung im laufenden Betrieb anpassen.

7. Cleane Daten

Eine gute Datenbank braucht nicht nur Software, die funktioniert, sondern auch Daten, die so sauber wie möglich sind. Dabei unterstützt KI, indem sie nach Anomalien sucht, diese markiert und (eventuell auch) Korrekturen vorschlägt. So könnten zum Beispiel Tippfehler in Kundennamen schnell identifiziert und durch die korrekte Schreibweise ersetzt werden. Auch Datenformate sind für KI-Algorithmen kein Problem - Probleme mit der Datenkonsistenz gehören also auch der Vergangenheit an.

Microsofts SQL Server ist ein Beispiel für eine Datenbank, die eng mit Data Quality Services integriert ist, um Probleme wie fehlende Daten oder Duplikate zu bereinigen.

8. Betrugserkennung

Eine spezielle Anwendung für maschinelles Lernen ist es, Data Storage sicherer zu machen. Einige Unternehmen nutzen ML-Algorithmen, um Anomalien in ihren Daten aufzuspüren, die ein guter Hinweis auf Betrug sein können. KI-Algorithmen können Datenbanken in effektive Betrugserkennungssysteme verwandeln.

Die Webdienste von Google bieten mehrerlei Optionen, um Betrugserkennung in Ihren Data-Storage-Stack zu integrieren.

9. Höhere Sicherheit

KI-Algorithmen können nicht nur nach Anomalien, sondern auch ganz gezielt nach ungewöhnlichen Vorgängen suchen, um möglichen Kompromittierungen oder Datenlecks auf die Schliche zu kommen. Es dürfte zum Beispiel nicht jeden Tag vorkommen, dass ein Remote-User vollständige Kopien von großen Datensätzen anfordert.

Guardium Security von IBM ist beispielsweise ein Tool, das in die Data-Storage-Schichten integriert wird, um den Zugriff zu kontrollieren und auf Anomalien zu achten.

10. Datenbank x Generative AI

In der Vergangenheit waren KI-Instanz und Datenbank zwei getrennte Dinge. War es an der Zeit, das Modell zu trainieren, wurden die Informationen aus der Datenbank extrahiert, neu formatiert und dann in die KI eingespeist. Moderne Systeme trainieren das Modell allerdings direkt anhand der vorhandenen Daten und sparen damit vor allem Zeit. Zudem macht das Devops-Teams das Leben leichter, weil das KI-Modelltraining nicht mehr als eine Befehlseingabe darstellt.

Es gibt sogar Überlegungen, die Datenbank komplett zu ersetzen. Anstatt die Abfrage an eine relationale Datenbank zu senden, wird sie einfach direkt an eine KI gesendet, die auf magische Art und Weise Abfragen in jedem Format beantwortet. Googles Bard und Open AIs ChatGPT sind ernstzunehmende Kandidaten, wenn es darum geht, die Suchmaschine abzulösen. Ich sehe keinen Grund, warum das nicht auch für traditionelle Datenbanken gelten sollte.

Natürlich hat dieser Ansatz seine Schattenseiten: KI halluziniert in manchen Fällen und gibt manchmal auch schlichtweg falsche Antworten. In anderen Fällen kann es vorkommen, dass das Output-Format sich überraschend ändert. Aber wenn der Bereich eng genug ist und die Trainingsdaten umfangreich und vollständig sind, kann künstliche Intelligenz im Storage-Bereich zufriedenstellende Ergebnisse liefern - und zwar ganz ohne die Mühen, tabellarische Strukturen zu definieren oder Abfragen zu schreiben, die Daten in diesen Strukturen finden.

Daten mit Generative AI zu suchen und zu speichern, kann sowohl für die User als auch die Ersteller in Zukunft eine deutlich flexiblere Lösung darstellen als es traditionelle Datenbanken tun.

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.