Slider Image

Technology

Wir bieten kein Standard-Produkt „out-of-the-box“ an, sondern erarbeiten für jeden Kunden eine maßgeschneiderte Lösung im Kontext eines Projekts, also eine iterative Zusammenarbeit.

Semantic-Extraction-Service

Herausforderung

Ein zentrales Defizit ist die nur vermeintliche Objektivität

  • Das menschliche Denken findet stark kategorisiert (Schubladendenken) statt
  • Dies schlägt sich - oft unbewusst - in den von Menschen verfassten Texten nieder
  • Wenn von statistisch vielleicht sogar richtigen Annahmen über Stereotypen diese auf eine konkrete Instanz übertragen werden, handelt es sich um ein Vorurteil
  • In der Folge lernt die KI auch die in den Trainingsdaten vorhandenen Vorurteile und bezieht diese konsequent in ihre Entscheidungen ein

Aber gerade die Objektivität ist eine der Haupttriebfedern für den Einsatz von KI.

Lösung

Unsere KI-basierte Semantik-Extraktion ist für einige UseCases auf eine Sentiment-Analyse angewiesen. An diesem Punkt kommt der Forschungscharakter ins Spiel:

  • Wir entwickeln für dieses Szenario eine vorgeschaltete KI , welche u. A. durch die Erkennung von sentiment-behafteten Stereotypen Vorurteile erkennt.
  • Diese werden gewichtet und ins Verhältnis zum Gesamttext gesetzt, so dass man eine Vorurteils-Quote erhält.
  • Es lassen sich durch das Entfernen des Stereotypen-Sentiments neutrale und objektive Daten erzeugen, welche dann als Trainingsdatensätze für die KI das Erlernen von Vorurteilen verhindern.

Anonymize-AI

Weiterhin möchte man aus gesellschaftlicher Sicht bestimmte personenbezogene Daten (die nicht vorurteils-belastet sind) nicht in die Entscheidungsgrundlage einer KI einbeziehen. Beispiele wären die Ethnie oder in anderen Bereichen noch allgemeiner das Geschlecht oder das Alter. Hierzu entwickeln wir eine Anonymisierungs-KI, die diese Informationen ausblendet.

Integration-Standard-Services

Es werden sehr viele Dienste in der Cloud angeboten, diese können aber nicht unmittelbar verwendet werden, sondern müssen über diverse Wrapper und Funktionen in einen Prozess integriert werden.

Diese Dienste lassen sich thematisch wie Folgt kategorisieren:

X-Rechnung

Die X-Rechnung ist ein XML-basiertes semantisches Datenmodell, das als Standard für elektronische Rechnungen aktuell etabliert wird, die an die öffentlichen Auftraggeber in Deutschland gesendet werden.

E-Akte

Die bisher aus Papier-Schriftstücken bestehenden physischen Akten sind oder werden durch zunehmende Digitalisierung weitgehend überflüssig. Die elektronische Akte (oder E-Akte) ist eine virtuelle Sammlung von Dateien und Dokumenten (auch die von analogen Medien konvertierten), die zu einem einheitlichen elektronischen Medium (Dateiordner) zusammengefasst werden. Hierin können auch insbesondere Grafikdateien, Bilddateien, Film- und Tondateien enthalten sein. Die E-Akte hat zum Ziel, sämtliche aktenrelevanten Schriftstücke in digitaler Form unter Beibehaltung der physischen Ordnungssysteme zu speichern und jederzeit den Berechtigten zugänglich zu machen. Darüber hinaus müssen auch Meta-Informationen sowie die den Geschäftsgang abbildenden Bearbeitungs- und Protokollinformationen (wie Geschäftsgangvermerke, Verfügungen, Laufwegsinformationen, Unterschriften und Mitzeichnungen) in ihr enthalten sein.[4] Hierzu werden verschiedene, konzeptionell unterschiedliche Enterprise-Content-Management (ECM)- oder Dokumentenmanagement (DMS)-Systeme angeboten. Sie hat ihre Grenzen dort, wo Originale mit Originalunterschriften vorzuhalten sind. Qualifizierte elektronische Signaturen können sicherstellen, dass Unterzeichner identifiziert und die Integrität der signierten elektronischen Informationen geprüft wird. Für den Umgang mit elektronischen Akten gelten dieselben rechtlichen Anforderungen wie für herkömmliche Papierakten.

Document-Content-Extractor

Dateien und Dokumente bestehen aus Text und Layout-Informationen. Dieser Dienst extrahiert aus den unterschiedlichen Formaten den Content (plain text) zusammen mit den dazugehörigen Metainformationen. Zusätzlich werden weitere Informationen wie zB Autor, Seitenzahl, Thema, Kategorie, … ermittelt. Mögliche Formate sind hier PDF/A, PDF, DOC, DOCX, PPTX, PPT, XLSX, XLS, ASC, TXT, CSV, HTML, …

Media-Content-Extractor

Audio-Dateien und Videos bestehen u.a. aus einer Audio-Spur und Meta-Informationen. Dieser Dienst extrahiert aus der Audio-Spur den Content (plain text). Zusätzlich werden weitere Informationen wie zB Autor, Seitenzahl, Thema, Kategorie, … ermittelt. Mögliche Formate sind hier AVI, MP3, MP4, WAV, FLV, M4A, YouTube-Seiten, ….

OCR-Content-Extractor

Dokumente in Papierform beinhalten Texte und ggf. auch Meta-Informationen. Per Scan werden diese Dokumente dann in einem Bildformat transformiert. Dieser Dienst extrahiert aus den vorliegenden Bildern den Content (plain text). Zusätzlich werden weitere Informationen wie zB Autor, Seitenzahl, Thema, Kategorie, … ermittelt. Die Texte können in einer beliebigen Sprache vorliegen. Mögliche Formate sind hier BMP, GIF, PNG, JPG, JPEG, TIF, TIFF, DIB, ….

WEB-Crawler-Extractor

Dieser Dienst listet zu definierten Themen und Bereichen über vorkonfigurierte Suchmaschinen die gefunden Webseiten und identifiziert im Anschluss relevante Texte und Metadaten. Zusätzlich werden weitere Informationen wie zB Autor, Thema, Kategorie, … ermittelt. Die Texte können in einer beliebigen Sprache vorliegen.

Connector-Services

Database-Connector-Service

Daten und Meta-Informationen können in unterschiedlichen relationalen Datenbanksystemen oder auch NoSql-Datenbanken vorliegen. Diese Werte und Informationen werden dann über einen entsprechenden Konnektor einmalig oder auch permanent (scheduled) in den Workflow integriert. Standradmäßig werden hier MS SQL Server, Oracle, DB2, MySQL, Postgres, CouchDB, MongoDB, CosmosDB, HBase

REST-Connector-Service

Daten und Meta-Informationen können in unterschiedlichen Fremdsystemen vorliegen. Diese Werte und Informationen werden dann über einen RESTful- oder SOAP-Konnektor einmalig oder auch permanent (scheduled) in den Workflow integriert.

XML-Connector-Service

Daten und Meta-Informationen können in XML- oder JSON-Formaten vorliegen. Diese Werte und Informationen werden dann über einen Konnektor einmalig oder auch permanent (scheduled) in den Workflow integriert. Eine Schemaprüfung und eine Transformation in ein anderes Format (zB PDF) ist möglich.

CRM-Connector-Service

Daten und Meta-Informationen können aus Fremdsystemen (CMS, CRM, SAP, …) über einen Konnektor einmalig oder auch permanent (scheduled) in den Workflow integriert werden.

Analysis-Services

Category-Analyze-Service

Sätze, Abschnitte und Kapitel werden Themen und Kategorien zugeordnet. Dieser Erkennung erfolgt auf Basis von Wissensdatenbanken und Synonymisierungs-Diensten.

TextAnalytics-Service

Ein KI-Dienst, der Erkenntnisse wie Stimmungen, Entitäten und Schlüsselbegriffe aus unstrukturiertem Text liefert.

Translation-Service

Ein KI-Dienst, der Text in Echtzeit in mehr als 60 Sprachen übersetzt. Der Service verwendet die neuesten technischen Innovationen aus dem Bereich der maschinellen Übersetzung und bietet Unterstützung für ein breites Spektrum an Anwendungsfällen.

Publish-Services / Output-Services

BLOB-Storage-Export-Service

Ein hoch skalierbarer und sicherer Objektspeicher für cloudnative Workloads, Archive, Data Lakes, High Performance Computing und Machine Learning.

OAIS-Archive-Service

Der Dienst bietet eine BLOB-Storage-Archivierung auf Basis von OAIS. Das Open Archival Information System ist ein Referenzmodell für ein dynamisches, erweiterungsfähiges Archivinformationssystem, das im August 2012 als ISO-Standard 14721:2012 veröffentlicht wurde. Vor dem Hintergrund der Einsicht, dass digital archivierte Dokumente nach längerer Zeit aus vielfältigen Gründen nicht mehr lesbar sein könnten, wurde OAIS entwickelt. Die Entwicklung des Standards wurde von der NASA. Probleme, die bei der Langzeitarchivierung zu beachten sind, entstehen u. a. durch

  • Nicht mehr verfügbare Geräte und Anwendungen, um archivierte Medien lesen und interpretieren zu können
  • Anwenderspezifische oder generell veraltete, unzureichend dokumentierte Formate
  • Verlust des Layouts, wenn der Inhalt vom Layout getrennt gespeichert wurde
  • Schutzrechte
Top