Das weltweite Datenvolumen nimmt weiterhin exponentiell zu. Überproportional wachsen werden vor allem unstrukturierte Daten in Form von Fotos, Audiodateien und Videos sowie in Präsentationen oder Textdokumenten - laut dem Marktforschungsunternehmen IDC im Schnitt um 62 Prozent pro Jahr. Bis 2022 soll dieser Datentypus rund 93 Prozent des gesamten Volumens ausmachen.
Unstrukturierte Daten umfassen einer Definition des Marktforschers Gartner zufolge "all jene Inhalte, die nicht einem bestimmten, vordefinierten Datenmodell entsprechen. Es sind in der Regel von Menschen generierte und personenbezogene Inhalte, die sich nicht gut in Datenbanken einfügen." Doch sie enthalten oft wertvolle Kunden- und Verhaltensinformationen, deren Auswertung für fundiertere Entscheidungen wichtig sein kann.
Eingehend analysiert bilden unstrukturierte Daten zudem die Grundlage für bessere und erweiterte Services, aus denen sogar gänzlich neue Geschäftsmodelle hervorgehen können. IDC geht davon aus, dass Unternehmen, die 2020 alle relevanten Daten analysieren, gegenüber weniger analytisch orientierten Mitbewerbern einen Produktivitätsgewinn von 430 Milliarden US Dollar erzielen werden.
Unternehmen auf dem Weg zur Auswertung von unstrukturierten Daten
Aktuell suchen Unternehmen noch nach Lösungen für die strukturierten Daten und beginnen gerade, sich mit unstrukturierten Daten zu befassen. Deren Analyse bringt allerdings noch mehr Herausforderungen mit sich: von der Frage nach dem geografischen Speicherort, der Art der Datenspeicherung und der Governance bis hin zu Sicherung und Analyse dieser Informationen in lokalen und Cloud-Umgebungen - in einem Umfeld, in dem Datenschutz- und Compliance-Anforderungen stetig steigen - Stichwort DSGVO.
So verwundert wenig, wenn die MIT Sloan Group 80 Prozent aller Daten als nicht vertrauenswürdig, unzugänglich oder nicht analysierbar einstuft. IDC schätzt, dass 2020 das "digitale Universum" bis zu 37 Prozent Informationen enthalten wird, die wertvoll sein könnten, wenn sie denn analysiert werden würden.
Mit KI Infos aus Bildern, Texten erschließen
Die Erschließung des Potenzials von unstrukturierten Daten ist kein Zukunftsszenario mehr. Neue Lösungen mit künstlicher Intelligenz (KI) erweisen sich als hocheffizient, um Informationen aus Dokumenten, Bildern, Videos oder Audiodateien zu extrahieren. Dabei eignet sich KI auch, um zeitaufwändige Prozesse zu automatisieren, in denen Daten klassifiziert, organisiert und analysiert werden.
Voraussetzung dafür: Unternehmen müssen Inhalte so speichern und organisieren, dass sie sich einfach und sicher aufrufen, austauschen und analysieren lassen. Hierzu eignen sich Cloud-basierte Services für die Datenspeicherung und Kollaboration. Diese vereinfachen und vereinheitlichen die Nutzung und den Austausch von Content wesentlich. Auf dieser Basis lassen sich auch KI-Lösungen einsetzen, um Informationen zu lokalisieren und auszuwerten.
Einige Anwendungsbeispiele zeigen bereits, wie Analysen von KI-Funktionen profitieren:
So lassen sich bei der Bearbeitung von Versicherungsansprüchen aus Textdateien, Fotos, Videos und Audiodateien relevante Kunden- und Forderungsdaten extrahieren oder Schäden identifizieren.
Händler können mithilfe visueller Erkennungsfunktionen Bilder etwa anhand von Farben, Gesichtern, Objekten klassifizieren, um bestimmte Fotos schneller zu finden und für ihre Produktkataloge zu verwenden.
Im Kundenservice lassen sich aus Support- und Beratungstelefonaten mithilfe von Transkriptionsfunktionen im Nachgang Texte extrahieren und analysieren. Mitarbeiter können dann über Stimmungsanalysen oder Ton-/Stimmerkennung bewerten, ob der Kunde positiv, negativ oder neutral reagiert hat und Ärger oder Freude identifizieren.
Box erleichtert Anwendung von KI- und Deep Learning für Content
Wer Use Cases wie diese im eigenen Unternehmen etablieren will, muss in der Lage sein, KI so in seine Prozesse einzubinden, dass diese im Arbeitsalltag einfach zur Verfügung stehen. Daher haben Unternehmen wie Box und IBM eine Partnerschaft ins Leben gerufen, in der sie ihre jeweiligen Stärken bündeln. Box bringt sein Cloud-fähiges Content Management ein und IBM seine vielseitige KI-Plattform IBM Watson sowie die IBM Cloud.
Die Lösungen lassen sich dabei über ein 2017 gelaunchtes Framework erstellen. Box Skills erleichtert es, KI- und Machine-Learning-Funktionen von Drittanbietern wie IBM für jeglichen Content anzuwenden, der in der Box-Cloud gespeichert ist.
In der Startversion ermöglichte Box Skills zunächst tiefere Einblicke in Bild-, Video- und Audio-Daten. Eine neue Funktion eröffnet nun auch individuelle Einblicke in Dokumente, indem diese automatisch gekennzeichnet werden, um Anwendern das Auffinden von Informationen zu erleichtern.
Die US-amerikanische Steuerberatungsgesellschaft H&R Block nutzt diesen Service beispielsweise, um automatisch die Sprache komplexer Steuerformulare zu erlernen und wichtige Informationen zu identifizieren. Diese muss der Sachbearbeiter nicht erst manuell eingeben, sondern kann auf Basis der generierten Informationen sofort entscheiden, was weiter zu tun ist.
Das Beispiel zeigt das Potenzial, das die Kombination von Cloud Content Management und KI bietet. Mit der Automatisierung solcher Prozesse sparen sich Fachleute einige Zeit und können sich ergebnisorientierteren Tätigkeiten widmen, etwa neue Services für ihre Kunden voranzubringen.