Die vorliegende Erfindung betrifft ein Verfahren zur automatischen
Annotation von Mehrdimensionaldatenbank-Berichten mit Informationsgegenständen
einer Datenablage.
Einleitung
Firmen müssen Rahmen ihrer finanziellen Planung und Kontrolle
kontinuierlich Information zu Kunden, Konkurrenten, Produkten oder marktrelevanten
Ereignissen überwachen, um ihre Situation im globalen Kontext bewerten zu können.
Diese heterogenen Informationen finden sich oft in Informationsgegenständen
wie etwa unstrukturierten Schriftstücken (z.B. Nachrichtenberichte, Pressemitteilungen,
Memos oder Veröffentlichungen der Handelspresse), Multimedia-Dateien (z.B.
in MPEG-7 metadata aufgenommene Nachrichten-Videoclips mit Interviews mit Wirtschaftsexperten)
oder Bildern (z.B. Verkaufsdiagramme oder Markt-Portfolios). Diese Informationsgegenstände
semantisch zu integrieren und sie in Beziehung zu bestimmten Berichts- oder Planungsgegenständen
zu setzen, die sich in den internen strukturierten Datenbasen eines Mittelstandsunternehmens
befinden, bildet einen zentralen Aspekt für die Schaffung proaktiver Management-Informationssysteme.
Zahlreiche Firmen verwenden zum Speichern geschäftsrelevanter
strukturierter Daten (wie z.B. Verkaufszahlen, Anzahl produzierter Einheiten oder
Kunden-Master-Daten) und zum Zugriff auf diese Daten Datenbank-Systeme oder Daten-Warehouses.
Derartige Geschäftsdaten bilden eine wichtige Basis für die Planungsprozesse
und die Performance-Analyse von Firmen. Industrielle Überblicksberichte wie
z.B. die BARC Studies oder die OLAP-Bericht-Serie von Nigel Pendse liefern weitgehene
Belege dafür, dass Berichts- und Planungs-Dateien derzeit üblicherweise
OLAP (Online Analytic Data Processing) mit seinen mehrdimensionalen, hierarchisch
strukturierten Datenwürfeln unterstützen.
Andererseits ist eine beträchtliche Menge strategisch relevanter
Information in Informationsgegenständen erfasst, die nur über das Internet
oder das Intranet zugänglich sind oder von der Firma in Text-Datenbanken (z.B.
Inhalts- oder Dokument-Management-Systemen) gehalten werden.
Für die Geschäfts-Analyse und -Planung werden zum Zugreifen
auf Geschäftsdaten typischerweise auf OLAP-Technologie basierende Berichts-Tools
verwendet. Bislang muss Information, die von Informationsgegenständen wie Text-
oder Multimedia-Dokumenten bereitgestellt wird, separat mittels Aufruf- und Filter-Tools
aufgerufen und analysiert werden.
Bei einigen Systemen, wie demjenigen, das beschrieben ist in "The
Integration of Business Intelligence and Knowledge Management", Cody et al., 2002,
werden die Text-Informationsgegenstände mit Geschäftsdaten-Aufzeichnungen
in mehrdimensionalen Datenbänken in Beziehung gesetzt. Diese Veröffentlichung
beschreibt ein Textanalyse-Rahmenwerk und die Weise, in der dieses in eine mehrdimensionalen
Datenbank integriert wird, indem ein Dokument-Warehouse eingeführt wird und
die beiden durch gemeinsame Dimensionen verknüpft werden.
Mit der vorgeschlagenen Technik werden automatisch Informationsgegenstände
aufgerufen, die mit einem Aspekt des vorliegenden Geschäftsdaten-Modells (z.B.
OLAP-Bericht) in Beziehung stehen.
Performance-Analyse und Planung auf dem Textil-Sektor – ein Anwendungsbeispiel
Es sei eine mittelgroße deutsche Textileinzelhandelskette angenommen,
welche die Firmen-Performance durch Beobachtung des Ertrags-Statements in dem OLAP-System
dieser Firma analysiert. Externe Online-Informationsquellen (z.B. Newsticker, Foren
und Magazine) liefern Nachrichten in Textform. Die Nachrichtenartikel enthalten
Information zur Performance eines Spielers auf dem Markt, zu Rohmaterialpreisen,
Modetrends usw. Bei diesen Informationen handelt es sich um wesentliche Eckpunkte
für die Evaluation der eigenen Performance der Firma und somit um unabdingbare
Information zum Steuern und Planen von Tasks.
Bei dem OLAP-Berichtssystem weist ein sogenanntes traffic lighting
auf einen schwachen Anstieg des Umsatzes und eine starke Abnahme der Margen hin
(markierte Bereiche in 1). Dies veranlasst den Analysten,
nach Information darüber zu suchen, in welcher Beziehung diese Daten zum Markt
stehen. Durch Drücken einer bestimmten Taste auf der Tool-Bar des OLAP-Systems
verlangt er dann, dass dieser Bericht mit Hintergrundinformation aus dem Informationsquellen
annotiert wird, die extern mittels eines Sets von Kategorien aus einem gegebenen
Domänen-Katalog klassifiziert sind. Nachdem er dies getan hat, erscheint das
Annotations-Ergebnis-Bild, das zwei Dokumente zu Hugo Boss zeigt. In dem ersten
Text wird festgestellt, dass Boss beabsichtigt, seinen Umsatz konstant zu halten,
dabei jedoch seinen Profit zu steigern (2). Dies zieht
die Aufmerksamkeit des Analysten auf sich, der sich nun entscheidet, weitere annotierte
Dokumente zu betrachten.
In einem weiteren Dokument wird die Aussage getroffen, dass der Mode-Discounter
Hennes & Mauritz seinen Umsatz im letzten Vierteljahr möglicherweise um 12%
verbessert haben könnte, und zwar hauptsächlich aufgrund seines außergewöhnlichen
Umsatzes an Freizeitkleidung, insbesondere Jeans und Baumwolljacken, in Deutschland.
Der Analyst hat erfasst, dass Konkurrenten insbesondere auf dem Sektor von Freizeitkleidung
und informeller Kleidung erfolgreich sind. Ferner hat er Kenntnisse zu den Trends
auf diesen Gebieten erlangt. Der Analyst geht zurück auf das OLAP-Berichts-Tool,
welches die internen Geschäftsdaten der Firma zeigt, um mehr über die
eigene Performance auf dem "Freizeit"-Sektor zu erfahren. Mit Hilfe der Hintergrundinformation
kann er dann seine Optionen zur Performance-Verbesserung prüfen.
Relevante Anwendungs-Szenarios
Das oben aufgeführte Anwendungs-Szenario ist nicht speziell in
Bezug auf nur diesen bestimmten Sektor zu sehen. Weitgehend ähnliche Planungssituationen
lassen sich auch in beliebig gewählten anderen Sektoren finden. Um nur ein
weiteres Beispiel anzuführen, lässt sich der Reise- und Tourismus-Sektor
vergegenwärtigen, in dem Informationen zu Produkten, Carriern, zur Buchungssituation
und zu Kapazitäten typischerweise in mehrdimensionalen Datenbanken gespeichert
werden. Das Planen der Lieferungen für bevorstehende Saisonperioden erfordert
eine detaillierte Analyse historischer Daten und hochentwickelte statistische Vorhersagen.
Eine solide Planung und Voraussage kann jedoch nicht ausschließlich auf internen
Daten basieren. Es müssen zusätzlich externe Informationsquellen aus Nachrichtenmagazinen
und der Reisepresse einbezogen werden. Zu den wichtigen Fragen, die derzeit erhellt
werden müssen, zählen: Beeinflussen Terrorangriffe die Reiseaktivitäten
und das Buchungsverhalten bestimmter Kundengruppen? Gibt es Sport-Events (Spiele,
Turniere, Jahrestreffen), welche das Reisen zu bestimmten Destinationen attraktiver
machen? Welche anderen derzeitigen Events und Publikationen – ungeachtet
dessen, ob sie von politischer, kultureller oder wirtschaftlicher Art sind –
sind für Voraussagen und Berechnungen relevant?
ÜBERBLICK ÜBER DIE ERFINDUNG
Die vorliegende Erfindung beinhaltet ein Verfahren zur automatischen
Annotation von Mehrdimensionaldatenbank-Berichten mit Informationsgegenständen
einer Datenablage, die Textteile enthalten, wobei das Schema der mehrdimensionalen
Datenbank einen Satz von Dimensionen aufweist, die jeweils Elemente enthalten, welche
durch zielgerichtete Assoziationen in gegenseitiger Beziehung stehen, wobei das
Schema der Datenablage Klassen enthält, die durch zielgerichtete Assoziationen,
mit denen die Informationsgegenstände assoziiert sind, in gegenseitiger Beziehung
stehen, und wobei das Schema der mehrdimensionalen Datenbank und das Schema der
Datenablage durch Mapping-Assoziationen miteinander verbunden sind, wobei jede Mapping-Assoziation
ein Element des Schemas der mehrdimensionalen Datenbank mit einer Klasse des Schemas
der Datenablage verbindet, wobei das Verfahren folgende Schritte aufweist:
a) Identifizieren von Elementen des Schemas der mehrdimensionalen Datenbank,
die einen gegebenen Mehrdimensionaldatenbank-Bericht definieren,
b) Definieren einer Graph-Struktur zwischen den Elementen des Schemas der mehrdimensionalen
Datenbank und assoziierten Klassen des Schemas der Datenablage mittels der Mapping-Assoziationen,
c) Finden mindestens eines Pfads in der Graph-Struktur zwischen einem gegebenen
Element und Klassen des Schemas der Datenablage mittels einer Strukturanalyse,
d) Evaluieren der Relevanz einer Klasse des Schemas der Datenablage für
das gegebene Element durch Bestimmen (i) der Länge eines Pfads oder von Pfaden
zwischen dem gegebenen Element und der Klasse oder den Klassen gemäß einer
Längen-Maßgabe, und (ii) der Anzahl von Pfaden zwischen dem gegebenen
Element und seiner assoziierten Klassen oder Klassen, wobei (i) je kleiner die Länge,
desto größer die Relevanz ist, und (ii) je mehr Pfade existieren, desto
größer die Relevanz ist,
e) Evaluieren der Relevanz der Informationsgegenstände für die Klasse
oder Klassen mittels einer syntaktischen Analyse der Textteile der Informationsgegenstände,
f) Kumulieren und Normalisieren der Relevanz-Bestimmungen gemäß der
strukturellen und der syntaktischen Analyse der Schritte d) und e), und
g) Ausgeben einer Liste der am meisten relevanten annotierten Informationsgegenstände
und ihrer Relevanzwerte.
Vorzugsweise wird der oben erwähnte Schritt f) auf der Basis
einer gewichteten Kombination der in den Schritten d) und e) bestimmten Relevanzwerte
durchgeführt, wobei die Gewichtungsfaktoren wählbar sind. Besonders bevorzugt
wird der oben erwähnte Schritt b) im Voraus durchgeführt, um die Graph-Struktur
zu bestimmen und um die vorbestimmte Graph-Struktur zu speichern. Gemäß
einer bevorzugten Ausführungsform wird Schritt c) im Voraus durchgeführt,
um sämtliche existierenden Wege zwischen sämtlichen Elementen bzw. sämtlichen
Klassen zu finden und um diese vorbestimmten Wege zu speichern. Gemäß
einem weiteren Aspekt wird der oben erwähnte Schritt e) im Voraus durchgeführt,
um die Relevanzen sämtlicher Informationsgegenstände jeweils für
sämtliche der Klassen zu evaluieren und um diese evaluierten Relevanzen zu
speichern.
Beschreibung des Annotationsvorgangs
In diesem Abschnitt wird beschrieben, was die Bedingungen und die
Bestandteile des Verfahrens gemäß der Erfindung sind, wie diese für
das Durchführen der Berechnung verwendet werden, und was am Ende herauskommt.
Grundidee und Bedingungen
Operational strukturierte Daten werden typischerweise in relationalen
oder objekt-orientierten Dateien gespeichert. Bei der Verwendung als Basis für
Analysen und Entscheidungen werden diese Daten auf einer höheren Abstraktionsebene
benötigt. Somit müssen die Daten transformiert, aggregiert oder konsolidiert
werden. Die resultierenden Daten werden oft in einer mehrdimensionalen Datenbank
gespeichert, die entsprechend den Informationsbedürfnissen des Analysten hierarchisch
organisiert ist. In ähnlicher Weise werden Text- oder mehrdimensionale Daten
typischerweise in katalogbasierten Informationsablagen gespeichert. Beide, die mehrdimensionalen
Datenbänke und die Informationsablagen, haben gemeinsam, dass ein logisches
Schema in hierarchischer Form (mono-hierarchisch oder poly-hierarchisch) existiert,
welches als Organisationsprinzip für die Daten dient. (Im Folgenden werden
die Ausdrücke Datenmodell und Datenschema synonym verwendet.)
Da Text- und Multimedia-Daten oft Hintergrundinformation enthalten,
die dazu beitragen, die strukturierten Daten adäquater zu interpretieren, entsteht
die Herausforderung, beide Arten von Daten in Relation zueinander zu setzen. Mit
der Erfindung wird ein Verfahren zum automatischen Verknüpfen von Text-Daten
mit strukturierten Daten erstellt.
Das erfindungsgemäße Verfahren ermöglicht, die existierenden
Daten und Schemata in ihrer unmodifizierten Form zu analysieren und in Beziehung
zueinander zu setzen. Dennoch kann das Verfahren durch zusätzliche explizite
Information über die Beziehung des Schemas der Informationsablage und des Schemas
der mehrdimensionalen Datenbank verbessert werden: Falls vorbestimmte Assoziationen
(technisch ausgedrückt: Mappings) zwischen den Datenbänken existieren,
kann diese Information einbezogen werden, um eine strukturelle Analyse durchzuführen.
Die Existenz von Mappings ist nicht unabdingbar, um das Verfahren funktionieren
zu lassen, tendiert jedoch dazu, die Ergebnisse zu verbessern. Ferner werden Mappings
und Schemata zum Design-Zeitpunkt entwickelt, und nachdem sie spezifiziert worden
sind, sind Änderungen nur selten erforderlich.
Zusammenfassend betrachtet sollte die Umgebung, in der das beschriebene
Verfahren zum Verknüpfen strukturierter Daten mit Daten von einer Informationsablage
angewendet werden kann, mindestens die folgenden Aspekte aufweisen:
– eine mehrdimensionale Datenbank mit einem hierarchischen (mono-hierarchischen
oder poly-hierarchischen) Datenschema (im Folgenden Business-Data-Modell) genannt,
die strukturierte Daten enthält,
– eine Informationsablage mit einem hierarchischen (mono-hierarchischen
oder poly-hierarchischen) Datenschema (im Folgenden Domänen-Katalog genannt),
die Daten enthält,
– optional, ein Mapping, das Assoziationen zwischen den Schemata definiert.
3 veranschaulicht das Datenschema und das Mapping für
das oben beschriebene Anwendungsbeispiel ("Performance-Analyse und Planung auf dem
Textilsektor"). Die Schemata werden noch detailliert beschrieben (vgl.
7 und 8).
– besteht aus hierarchisch (mono-hierarchisch oder poly-hierarchisch)
strukturierten Klassen,
– wird ausgelegt zur Klassifikation digitaler Informationsgegenstände
(z.B. Textdokumente),
– kann syntaktisch angereichert werden durch Beschreibungs-Term-Sets,
welche die Klassen beschreiben (z.B. Synonym-Sets oder einfach der Kassen-Name);
zur multilingualen Annotation ist ein Ausdrucks-Set für jede avisierte Sprache
erforderlich,
– wird typischerweise ausgelegt und verwendet zum gleichförmigen
Ablegen in Ablagen von Informationsgegenständen und zum Zugreifen auf diese
Informationsgegenstände,
– z. B. Produkt-Katalog, Patentklassifikationsschema, Datei-System oder
Themen-Struktur aus einem Content Management System.
Das Business-Data-Modell (BDM)
– besteht aus einem Set von Dimensionen. Jede Dimension besteht aus einem
Set von Elementen, die durch direkte Assoziationen derart in Beziehung zueinander
stehen, dass sämtliche Elemente durch Assoziationen verbunden sind,
– wird typischerweise ausgelegt und verwendet zum gleichförmigen
Ablegen strukturierter Geschäftsinformation in Datenbänken und zum Zugreifen
auf die Information aus den Datenbänken,
– wobei ein Beispiel in dem mehrdimensionalen OLAP-Daten-Würfel-Modell
besteht.
Das Mapping zwischen dem Domänen-Daten-Katalog und dem Business-Data-Modell
– besteht aus Mapping-Assoziationen. Jede Mapping-Assoziation verbindet
ein Element des Business-Data-Modells mit einer (semantisch in Beziehung stehenden)
Klasse des Domänenen-Katalogs,
– kann manuell abgeleitet werden durch einen intellektuellen Spezifizierungsvorgang
seitens eines Domänen-Experten oder automatisch generiert werden (z.B. durch
Schemen-Integration-Verarbeitung).
Die Ablage kontextualisierter digitaler Informationsgegenstände
– weist auf: Objekt-Klassifikation anhand des Domänen-Katalogs (z.B.
abgeleitet durch Meta-Tags, ein Klassifikationssystem oder die Stelle des Texts
in einem Speichersystem wie etwa DMS oder Datei-System),
– weist einen Objekt-Inhalt auf (z.B. einen in natürlicher Sprache
abgefassten Text-Teil im Fall von Text-Dokumenten).
Die Werte für die Berechnungs-Parameter. Die wichtigsten Parameter
sind:
– Eskalations-Tiefe in den hierarchischen Daten-Modellen,
– Anteil des auf das Gesamt-Maß ausgeübten Einflusses (1) der
strukturellen Analyse (von Daten-Modellen & Mapping) bis zu (2) der syntaktischen
Analyse digitaler Informationsgegenstände. Insbesondere dieser Parameter ermöglicht
die Annotations-Berechnung für die anderen Informationsgegenstände als
die Text-Dokumente (z.B. Multimedia-Objekte) durch Befähigung dazu, ausschließlich
die strukturelle Analyse durchzuführen; dies kann erzielt werden, indem die
Einwirkung der strukturellen Analyse auf Null gesetzt wird.
Die Abfrage:
– ist ein Set von Elementen des Business-Data-Modells,
– spezifiziert den Teil des Business-Data-Modells, der annotiert werden
soll,
– falls das BDM das OLAP-Daten-Würfel-Modell ist, spezifiziert die
Abfrage Elemente in jeder Dimension durch einen sogenannten Spezifikations-Vektor,
der einen OLAP-Bericht definiert
Falls nur ein einziges Daten-Modell existiert, das für die Beschreibung
der Informationsgegenstände sowie auch der strukturellen Geschäftsdaten,
verwendet wird, dann sind BDM und DC identisch. In diesem speziellen Fall können
die Ausdrücke "Klassen" und "Elemente" im Folgenden als Synonyme betrachtet
werden, und bei dem Mapping zwischen den Modellen handelt es sich einfach um die
Identität.
Aufgabenstellungen
Unter Anbetracht der Datenschemata (DC und BDM) und des Mapping zwischen
ihnen erscheint die schema-basierte Berechnung annotierter Dokumente offensichtlich:
1. Kenntnisnahme der Abfrage und Berechnen des Sets S betroffener Elemente des
BDM.
2. Berücksichtigen des Mapping und, aus dem DC, Suchen nach dem Set C von
Kategorien, die mit S verknüpft sind.
3. Finden des Sets T von Texten, die mit Kategorien von C kontextualisiert sind.
Eine genauere Betrachtung zeigt, dass dieser schlichte Ansatz zahlreiche
Detailprobleme vernachlässigt. Einige plausible Feststellungen sind: Ein BDM-Element,
das viele Male in der Abfrage erscheint, könnte wichtiger sein als andere Elemente.
Ein BDM-Element, das selbst nicht direkt in die Abfrage einbezogen ist, jedoch in
Beziehung zu Elementen der Abfrage steht, könnte auch relevant sein. Eine DC-Klasse,
die von den Elementen der Abfrage über zahlreiche Wege des Mapping erreicht
werden kann, könnte wichtiger sein als eine andere Klasse, die nur über
einen einzigen Weg zugänglich ist. Eine DC-Klasse, die nicht direkt durch das
Mapping zugänglich ist, könnte dennoch von einem gewissen Interesse sein.
Ein Informationsgegenstand, der durch zahlreiche zur der Abfrage passenden Kategorien
beschrieben wird, könnte wichtiger sein als ein anderer Informationsgegenstand,
dessen Kontext nur eine dieser Kategorien enthält, etc. Schließlich muss
man sich mit der Frage befassen, wie sämtliche dieser Klassen operational unterschieden
und zu einem sinnvollen normalisierten Relevanz-Maß kombiniert werden können.
Die obige Beschreibung des 3-schrittigen Vorgangs ist rein qualitativ,
wobei über verschiedene Sets geredet wird. Es wird eine Bewertung benötigt,
um die oben angeregte intuitive Differenzierung handhaben zu können. Somit
besteht die Kernaufgabe darin, herauszufinden, wie gewichtete (eingestufte) Sets
generiert und aneinandergefügt werden können. Weitere praktische Fragen,
die angesprochen werden sollten, sind: Was muss unternommen werden, falls kein explizites
Mapping existiert oder das Mapping schlecht ist? Welche Rolle spielt die Semantik
der Daten-Schemata für die Berechnungen?
Bei dem erfindungsgemäßen Verfahren werden Regeln vorgeschlagen
(beispielsweise "Je größer die strukturellen Distanzen zwischen den beiden
Schema-Elementen sind, desto weniger stehen sie in Relation zueinander"; "Je mehr
Wege zwischen den beiden Schemata existieren, desto mehr stehen sie in Beziehung
zueinander"; etc.), die durch Formeln formalisiert sind, welche in den Abschnitten
zu den "bevorzugten Ausführungsformen" beschrieben sind. Die Regel beschreiben
die Eigenschaften der Maßgaben statt die konkreten Maßgaben selbst, um
eine flexible Feinabstimmung des Verfahrens auf die spezielle Situationen und Erfordernisse
zu ermöglichen. Eine Stärke des vorgeschlagenen Verfahrens besteht in
der Leichtigkeit des Annotierens existierender Quellen strukturierter Information
aus mehrdimensionalen Datenbänken mit Informationsgegenständen aus existierenden
Text- oder Multimedia-Informationsablagen. Das Verfahren beschreibt eine strukturelle
und eine syntaktische Analyse, die kombiniert werden können. Ferner bietet
das Verfahren eine strukturelle Eskalation in den Daten-Schemata und zahlreiche
Parameter zum Einstellen der Gewichtungen.
Die strukturelle Analyse kann entfallen, falls keine Information zu
dem Mapping zwischen den Daten-Modellen vorhanden ist. Die syntaktische Analyse
kann in multilingualen oder Multimedia-Settings ausgelassen werden, bei denen eine
rein strukturelle Analyse aufgrund fehlender oder unzureichender syntaktischer Information
sinnvoll sein könnte.
Schritte
Im Folgenden werden die Berechnungsschritte der Annotationstechnik
und die Ergebnisse jedes Schritts beschrieben. Das zugrundeliegende Prinzip ist
das folgende (vgl. 4 und 5):
Bei der Relevanz von Informationsgegenständen für eine Abfrage handelt
es sich um einen gewichteten Mittelwert der strukturellen und syntaktischen Analysen.
Die strukturelle Analyse vollzieht die Auswertung des vorbestimmten direkten Mapping
zwischen den Daten-Modellen, erweitert um die strukturellen Eigenschaften beider
Modelle, was zu der Relevanz der Domänen-Katalog-Klassen für in der Anfrage
enthaltene Elemente führt. Die syntaktische Analyse vollzieht die Einschätzung
der Relevanz des Text-Teils von Informationsgegenständen für die Klassen,
mit denen sie verbunden sind. Zusammengenommen reflektiert die Maßnahme die
Relevanz von Informationsgegenständen für die Abfrage, d.h. das Set von
Elementen des Business-Data-Modells.
Strukturelle Analyse:
Assoziations-Graph-Konstruktion: In der strukturellen Analyse werden
das Business-Data-Modell, der Domänen-Katalog und das Mapping zwischen ihnen
unter einem rein strukturellen Gesichtspunkt behandelt. Sie werden zu einer Graph-Wiedergabe
transformiert, welche die Anwendung standardisierter Graph-Algorithmen erlaubt,
was zu einem gewichteten gerichteten Graph führt. Gewichte können dahingehend
erklärt werden, dass sie Assoziationen betonen. Falls ein Gewichten von Randbereichen
nicht beabsichtigt ist, können sämtliche Ränder gleichermaßen
durch 1 gewichtet werden.
Das Ergebnis ist ein gewichteter gerichteter azyklischer Graph (kurz
als DAG bezeichnet), der aus Knoten (Klassen-Knoten und Element-Knoten) und gewichteten
gerichteten Rändern besteht (ausgehend von dem Business-Data-Modell, dem Domänen-Katalog
und dem Mapping), und der wie folgt definiert ist:
a. Assoziationen zwischen den Knoten des Business-Data-Modells werden ausgerichtet
(von einem Knoten zu den Unterknoten),
b. Assoziationen zwischen den Klassen des Domänen-Katalogs werden ausgerichtet
(von einer Klasse zu den Unterklassen),
c. Assoziationen des Mappings werden ausgerichtet (von dem Business-Data-Modell
zu dem Domänen-Katalog; d.h. ein Knoten kann auf eine Klasse abgebildet werden).
Assoziations-Graph-Analyse: Zum Bewerten der Relevanz jeder Klasse
des Domänen-Katalogs für Elemente des Business-Data-Modells, die in einer
Abfrage enthalten sind, wird ein Relevanz-Maß angewandt, das für die Anwendung
der Technik definiert werden muss. Die folgenden Regeln beschreiben die Intuition,
mit der eine derartige Maßgabe zwecks Bewertens der Relevanz einer DC-Klasse
für ein BDM-Element geführt werden kann:
(1) Je größer die Distanz zwischen einem Element-Knoten und einem
Klassen-Knoten in dem Graph ist (ausgedrückt durch die Anzahl der Ränder
auf Wegen zwischen der Klasse und dem Element, und durch ihre Gewichte), desto geringer
ist die Relevanz der Klasse für das Element.
(2) Je mehr Wege zwischen einem Element-Knoten und einem Klassen-Knoten in dem
Graph existieren, desto höher ist die Relevanz der Klasse für das Element.
Bevorzugte Ausführungsform: Ein Beispiel eines Relevanz-Maßes
ist der Kehrwert der Anzahl von Rändern auf dem Weg minimaler Länge durch
den Graph von einem Source-Element-Knoten zu einem Target-Klassen-Knoten. Zur Anwendung
dieses Maßes muss der kürzeste Weg zwischen jedem Element-Knoten und jedem
Klasse-Knoten berechnet werden. (Diese Berechnung muss nur einmal durchgeführt
werden!) Ausgedrückt in graphtheoretischer Terminologie ist dies ein spezielles
"Kürzester-Weg-für-sämtliche-Paare"-Problem. Ein weithin bekannter
Algorithmus für die Berechnung des kürzesten Wegs in gerichteten Graphen
ist Floyd-Algorithmus. Bei dem Ansatz des kürzesten Wegs wird das Prinzip (1)
implementiert. Alternativ könnte zum Implementieren der Prinzipien (1) und
(2) die Länge sämtlicher Wege von einem Element-Knoten zu einem Klassen-Knoten
gemittelt werden, oder es könnten Fluss-Algorithmen verwendet werden.
Oft handelt es sich bei den Daten-Modellen um Spezialisierungs-Hierarchien.
Folglich ist beim Verfolgen einer gerichteten Verknüpfung in dem Graph ("Schritt
nach unten") impliziert, dass auf einer stärker spezifischen Knoten geschaltet
wird. In Abhängigkeit von der Semantik der Daten-Schemata kann es sinnvoll
sein, die Behandlung gerichteter Verknüpfung zu lockern, in dem "Schritte nach
oben" erlaubt werden, d.h. ein Suchen nach Knoten in der umgekehrten Richtung der
Verknüpfungen (was selbstverständlich eine Erhöhung der algorithmischen
Komplexität erfordert).
Resultat: Das Ergebnis der strukturellen Analyse besteht aus Relevanzwerten
für sämtliche Paare von Klassen und Elementen (relBDM_DC).
Syntaktische Analyse:
Die syntaktische Analyse kann angewandt werden, falls die Informationsgegenstände
einen Text-Teil (z.B. eine natürliche Sprache in Text-Dokumenten oder Text-Descriptoren
in MPEG-7-Multimedia-Daten) enthalten. Die syntaktische Analyse berechnet die Relevanz
des Text-Teils von Informationsgegenständen für die Klassen, mit denen
der Informationsgegenstand klassifiziert ist. Somit wird die Entsprechung zwischen
dem Textteil eines Informationsgegenstands (z.B. dem Inhalt eines in einer natürlichen
Sprache abgefassten Text-Dokuments oder textueller Metadaten eines Multimedia-Objekts)
und dem Beschreibungs-Ausdruck-Set einer Klasse (eventuell unter Berücksichtigung
der Sprache zum Wählen des entsprechenden Ausdrucks-Sets) berechnet. Dies erfolgt
durch Anwendung von Informationsabruf-Relevanz-Maßnahmen: Zu diesen
zählen statische, probabilistische oder auf Wissen basierende Verfahren.
Bevorzugte Ausführungsform: Ein Beispiel eines einfachen Relevanz-Maßes
ist ein statistisches Maß: Die Relevanz eines Informationsgegenstands für
eine DC-Klasse entspricht der Ausdrucks-Häufigkeit des Beschreibungs-Term-Sets
der Klasse in dem Text-Teil des Informationsgegenstands. Standard-Sprachverarbeitungstechniken
wie z.B. Stemming, Thesauri und Wörterbücher können die Präzision
des Maßes verbessern.
Resultat: Das Ergebnis der syntaktischen Analyse ist für jede
Klasse des Domänen-Katalogs ein Set von Informationsgegenständen, die
der Klasse zugewiesen sind, und ihre Relevanz für die Klasse (relDC_DOC).
Kombination
Die Kombination von Teilergebnissen (relBDM_DC, relDC_DOC)
für die Gesamt-Informationsgegenstand-Relevanz wird beeinflusst durch Parameterwerte,
die nachstehend zum Teil aufgeführt sind. Für die Klassen, die als relevant
für die strukturelle Analyse bewertet werden, werden die (durch eine oder mehrere
Klassen) klassifizierten Informationsgegenstände entsprechend den Ergebnissen
der syntaktischen Analyse eingestuft: Die Teilergebnisse werden normalisiert, und
die gewichtete Kombination wird berechnet. Anzumerken ist, dass die Kombination
Null beträgt, falls mindestens eines der Teilergebnisse Null beträgt.
Die Informationsgegenstände werden entsprechen dem abnehmenden Relevanzwert
sortiert.
Resultat: Das Ergebnis der Kombination (und somit des gesamten Annotationsverfahrens)
ist
– eine Liste von Identifikatoren annotierter Informationsgegenstände
(Gegenstände, die automatisch als relevant für gegebene Set von Elementen
des Business-Data-Modells eingestuft werden), sortiert gemäß dem Relevanzwert
für jeden Informationsgegenstand, und
– ein Relevanzwert zwischen 0 und 1 (metrische Skala) für jeden
annotierten Informationsgegenstand, so dass nicht nur eine Rangfolge der Texte,
sondern auch die Höhe der Relevanz für sämtliche annotierten Informationsgegenstände
definiert werden.
Berechnungs-Parameter
Im Folgenden wird ein Set von Berechnungs-Parametern präsentiert.
– Die maximale Eskalationsebene k spezifiziert, wie viele Schritte maximal
in einem Daten-Schema verfolgt werden, um Wege zwischen Elementen und Klassen zu
finden. Somit beträgt die maximale Weglänge 2k+1. Falls keine Einschränkung
für die Eskalationsebene beabsichtigt ist, kann k auf die Größe des
größten Wegs in einem Daten-Schema gesetzt werden.
– Der Einfluss der Ergebnisse der strukturellen und der syntaktischen
Analyse (d.h. relBDM_DC, relDC_DOC) auf die Gesamt-Relevanz
wird durch &agr; und &bgr; eingestellt. Die Parameter drücken den Anteil
&agr;:&bgr; der Teil-Maße aus. Ein Parameter könnte auf 0 gesetzt
werden, falls keine strukturelle (bzw. syntaktische) Information verfügbar
ist. Tests zeigen, dass die strukturelle Analyse normalerweise der syntaktischen
Analyse überlegen ist. Gute Ergebnisse lassen sich in einer Größenordnung
&agr;:&bgr; von 8:1 erzielen. Die optimale Ausgewogenheit zwischen den Unter-Maßen
hängt eindeutig von der Qualität des Mapping und den syntaktischen Eigenschaften
des Domänen-Katalogs und der Informationsgegenstände ab.
Vorausberechnung:
Sowohl die syntaktische als auch die strukturelle Analyse können
teilweise im Voraus berechnet (Vorausberechnung) und in einer Datenbank gespeichert
werden. Dies ist möglich, da für Teilergebnisse, die nur von den gegebenen
Modellen – Mapping und Ablage – und nicht von einer Abfrage abhängen,
die Vorausberechnung die für das Verarbeiten der Abfrage erforderliche Zeit
optimieren kann. Wenn sich der Domänen-Katalog, das Mapping oder das Business-Data-Modell
ändern, müssen der vorausberechnete Graph sowie die Information über
die Weglängen aktualisiert werden, d.h. die strukturelle Analyse muss neu durchgeführt
werden. Wenn sich die Informationsgegenstand-Ablage ändert, muss die Relevanz
der Informationsgegenstände für die Klassen aktualisiert werden.
Generische Architektur
Als Beispiel wird eine mögliche Architektur für die Realisierung
der Annotationsberechnungs-Technik beschrieben, wobei diese Technik als verteilte
internet-basierte Kunden-Server-Architektur (vgl. 6)
implementiert werden kann.
Der Kern der Architektur ist die Server-Anwendung (Annotation Calculation
Module = AC). Metadaten (Domänen-Katalog, Business-Data-Modell, Mapping) werden
in XML-Dokumenten gespeichert und sind für das AC zugänglich. Ferner ist
die Ablage kontextualisierter Informationsgegenstände (z.B. ein Inhalts-Handhabungssystem)
für das AC zugänglich. Das AC ist mit einer relationalen Datenbank verbunden,
auf die mittels einer Datenbank-Handhabungs- und -Abfragesprache (z.B. SQL) zugegriffen
werden kann. Die Datenbank wird zum Speichern und Aufrufen der vorausberechneten
Zwischenergebnisse verwendet (d.h. der Ergebnisse der strukturellen und der syntaktische
Analyse). Die Vorausberechung und die Parameterbildung können durch das Administration
User Interface gesteuert werden, das auch für das Beibehalten der relationalen
Datenbank adressiert werden kann. Die Abfrage wird durch ein externes Klienten-System
(z.B. ein Handhabungsinformationssystem mit OLAP-Bericht) erzeugt, welches das AC
um die Annotierung der spezifizierten Modelle des Business-Data-Modells ersucht.
KURZBESCHREIBUNG DER ZEICHNUNG
Im Folgenden wird die Erfindung im Zusammenhang mit der Zeichnung
detaillierter erläutert.
1 zeigt ein OLAP-UI mit Bericht;
2 zeigt eine Annotations-Ergebnis-Liste;
3 zeigt eine Skizze der Daten-Schemata (Daten-Modelle)
für das Textil-Szenario;
4 zeigt die Komponenten, die von der strukturellen
und der syntaktischen Analyse berücksichtigt werden;
5 zeigt die Vorbedingungen, den Vorgang und das Ergebnis;
6 zeigt eine generische Architektur;
7 zeigt einen Domänen-Katalog für das Textil-Szenario;
und
8 zeigt ein Business-Data-Modell für das Textil-Szenario.
DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMENBeispiel für die Anwendung der Technik
In diesem Kapitel wird die Anwendung der Technik in einem begrenzten
Szenario aus dem Bereich der Textilindustrie detailliert aufgezeigt. Gemäß
diesem Beispiel handelt es sich bei den Informationsgegenständen um unstrukturierte,
in einer natürlichen Sprache abgefasste Textdokumente, und bei dem Business-Data-Modell
handelt es sich um ein mehrdimensionales OLAP-Daten-Modell.
Bestandteile, Vorbedingungen– Katalog der Domäne
– Der Domänen-Katalog weist fünf Hauptzweige auf:
– Firma
– Kunde
– Ereignis
– Kontext
– Produkte & Dienstleistungen
– Synonym-Sets:
Domänen-Katalog-KlasseBeschreibungs-Ausdruck-SetKunde/BC2/KindKind, Teen, Teenager, Jugendlicher, FrühjugendlicherProdukte und Dienstleistungen/Qualität/LuxusQualität, hohe Qualität, SpitzenqualitätFirma/ErgebnisseGeschäftsfakten, Einkommen, Kosten, Umsatz, Ausgaben, Aktiva,
Profit, SteuernProdukte und Dienstleistungen/Grad der Endverarbeitung/EndproduktEndprodukte, Bekleidungsprodukte, Schuhwaren, Schuhe, Stoffe,
Accessoires, Möbel, Gewebe, Unterwäsche, KleidungProdukte und Dienstleistungen/Grad der Endverarbeitung/Endprodukt,
FußbekleidungFußbekleidung, Schuhwaren, Schuhe, Socken, Laufschuhe, formelle
Schuhe, Arbeitsschuhe, Schutzschuhe, Lederschuhe
– Business-Data-Modell– Das OLAP-Daten-Modell weist sechs Dimensionen auf:
– Saison {Sommer 2002, Winter 02/03, ...}
– Maße {Kosten, Umsatz, ...}
– Szenario {Plan, Ist-Zustand}
– Kunde {626,62C}
– Qualität {Spitzen-, mittlere, untere Qualität}
– Produkte und Dienstleistungen {Stoffe, Accessoires, ...}
– Mapping
– Zur Veranschaulichung wird ein minimalistisches Mapping beschrie
ben:
Business-Daten-ModellDomänen-KatalogQualität/SpitzeProdukte und Dienstleistungen/Qualität/LuxusProdukte und Dienstleistungen/Typ/BekleidungsstückeProdukte und Dienstleistungen/Grad der Endverarbeitung/EndproduktMaß/EinkommenFirma/ErgebnisseKunde/62C/KindKunde/62C/Kind
– fünf neue Dokumente, klassifiziert entsprechend dem Domänen-Katalog
:
– Dokument 1 "Ausgaben für Teen-Bekleidung":
– Firma >> Ergebnisse
– Kunde >> B2C >> Kind
– Kunde >> Interesse >> Freizeit- und informelle Bekleidung
– Produkte und Dienstleistungen >> Typ >> Bekleidung >>
Accessoires
– Produkte und Dienstleistungen >> Typ >> Bekleidung >>
Bekleidung
– Dokument 2 "H&M":
– Firma >> Ergebnisse
– Kunde >> B2C >> Kind; Kunde >> B2C >> Mann
Kunde >> B2C >> Frau; Kunde >> Interesse >> Freizeit- und
informelle Bekleidung
– Produkte und Dienstleistungen >> Typ >> Accessoires; Produkte
und Dienstleistungen >> Typ >> Bekleidung; Produkte und Dienstleistungen
>> Qualität >> mittlere untere; Produkte und Dienstleistungen >> Qualität
>> mittlere
– Dokument 3 "Hugo Boss":
– Firma >> Ergebnisse
– Kunde >> B2C >> Mann; Kunde >> B2C >> Frau;
Kunde >> Interesse >> Freizeit- und informelle Bekleidung; Kunde >>
Interesse >> formell
– Produkte und Dienstleistungen >> Typ >>; Produkte und Dienstleistungen
>> Typ >> Bekleidung; Produkte und Dienstleistungen >> Qualität
>> hoch
– Dokument 4 "Cinderella Shoes":
– Kunde >> B2C >> Mann; Kunde >> B2C >> Frau;
Kunde >> Interesse >> Freizeit- und informelle Bekleidung; Kunde >>
Interesse >> formell
– Produkte und Dienstleistungen >> Typ >> Bekleidung >>
Fußbekleidung; Produkte und Dienstleistungen >> Qualität >>
hoch
– Dokument 5 "Einzelhandel":
– Firma >> Ergebnisse
– Produkte und Dienstleistungen >> Typ >> Accessoires
– Produkte und Dienstleistungen >> Typ >> Stoffe
– Produkte und Dienstleistungen >> Typ >> Möbel
– Abfrage
Die beiden OLAP-Berichte, die annotiert werden, werden durch Spezifikationsvektoren
bestimmt:
Die erste Anfrage beschreibt einen Bericht, der die Gesamteinnahmen
aus Endprodukten hoher Qualität zeigt. Die zweite Anfrage beschreibt einen
Bericht, der die Einnahmen aus Bekleidungsstücken zeigt, die während des
Winters 2002/03 an Kinder verkauft wurden.
SchritteStrukturelle Analyse
Die Assoziations-Graph-Konstruktion und -Analyse werden hier nicht
explizit beschrieben. Der Assoziations-Graph wird generiert durch die Verbindung
der Elemente des Business-Data-Modells und des Domänen-Katalogs mittels des
Mapping.
Syntaktische Analyse und Kombination
Die nachstehenden Tabellen zeigen die Werte für die Maße
relBDM_DC und relDC_DOC. Für jede Abfrage finden sich
in der Tabelle drei Dimensionen. (Die übrigen Dimensionen führten nicht
zu irgendwelchen relevanten Informationsgegenständen). Die minimale Weglänge
innerhalb des ausgebildeten Graphs von dem OLAP-Element zu einer Klasse ist ebenfalls
gezeigt. Die Ausdrucks-Häufigkeiten sind für die Klassen angezeigt, die
auf die OLAP-Dimensionen abgebildet sind. Mit rel ist die Kombination der beiden
Teil-Relevanzmaße angegeben. Mit &sgr; ist das Gesamt-Relevanzmaß angegeben
(normalisierte Kombination von relBDM_DC und relDC_DOC). Die
Informationsgegenstände (hier: Dokumente) sind in der Reihenfolge ihrer Relevanz
aufgeführt. Die intellektuelle Einstufung ergibt, dass für die Anfrage
1 die Dokumente 3 und 4 relevant sind, während dass für die Anfrage 2
die Dokumente 1, 2 und 3 relevant sind. Diese Einstufung spiegelt sich in dem Ergebnis
der Berechnungen deutlich wieder.
Anspruch[de]
Verfahren zur automatischen Annotation von Mehrdimensionaldatenbank-Berichten
mit Informationsgegenständen einer Datenablage, die Textteile
enthalten, wobei das Schema der mehrdimensionalen Datenbank einen Satz von Dimensionen
aufweist, die jeweils Elemente enthalten, welche durch zielgerichtete Assoziationen
in gegenseitiger Beziehung stehen, wobei das Schema der Datenablage Klassen enthält,
die durch zielgerichtete Assoziationen, mit denen die Informationsgegenstände
assoziiert sind, in gegenseitiger Beziehung stehen, und wobei das Schema der mehrdimensionalen
Datenbank und das Schema der Datenablage durch Mapping-Assoziationen miteinander
verbunden sind, wobei jede Mapping-Assoziation ein Element des Schemas der mehrdimensionalen
Datenbank mit einer Klasse des Schemas der Datenablage verbindet,
wobei das Verfahren folgende Schritte aufweist:
a) Identifizieren von Elementen des Schemas der mehrdimensionalen Datenbank, die
einen gegebenen Mehrdimensionaldatenbank-Bericht definieren,
b) Definieren einer Graph-Struktur zwischen den Elementen des Schemas der mehrdimensionalen
Datenbank und assoziierten Klassen des Schemas der Datenablage mittels der Mapping-Assoziationen,
c) Finden mindestens eines Pfads in der Graph-Struktur zwischen einem gegebenen
Element und Klassen des Schemas der Datenablage mittels einer Strukturanalyse,
d) Evaluieren der Relevanz einer Klasse des Schemas der Datenablage für das
gegebene Element durch Bestimmen (i) der Länge eines Pfads oder von Pfaden
zwischen dem gegebenen Element und der Klasse oder den Klassen gemäß einer
Längen-Maßgabe, und (ii) der Anzahl von Pfaden zwischen dem gegebenen
Element und seiner assoziierten Klassen oder Klassen, wobei (i) je kleiner die Länge,
desto größer die Relevanz ist, und (ii) je mehr Pfade existieren, desto
größer die Relevanz ist,
e) Evaluieren der Relevanz der Informationsgegenstände für die Klasse
oder Klassen mittels einer syntaktischen Analyse der Textteile der Informationsgegenstände,
f) Kumulieren und Normalisieren der Relevanz-Bestimmungen gemäß der strukturellen
und der syntaktischen Analyse der Schritte d) und e), und
g) Ausgeben einer Liste der am meisten relevanten annotierten Informationsgegenstände
und ihrer Relevanzwerte.Verfahren nach Anspruch 1, bei dem der Schritt f) auf der Basis einer
gewichteten Kombination der in den Schritten d) und e) bestimmten Relevanzwerte
durchgeführt wird, wobei die Wichtungsfaktoren wählbar sind.Verfahren nach Anspruch 1 oder 2, bei dem der Schritt b) im Voraus durchgeführt
wird, um die Graph-Struktur zu bestimmen, und um die vorbestimmte Graph-Struktur
zu speichern.Verfahren nach einem der Ansprüche 1 bis 3, bei dem der Schritt
c) im Voraus durchgeführt wird, um sämtliche existierenden Pfade zwischen
sämtlichen Elementen bzw. sämtlichen Klassen zu finden, und um diese vorbestimmten
Pfade zu speichern.Verfahren nach einem der Ansprüche 1 bis 4, bei dem der Schritt
e) im Voraus durchgeführt wird, um die Relevanz sämtlicher Informationsgegenstände
für jeweils sämtliche Klassen zu evaluieren, und um diese evaluierten
Relevanzen zu speichern.