PatentDe  


Dokumentenidentifikation DE602004006485T2 17.01.2008
EP-Veröffentlichungsnummer 0001574969
Titel VERFAHREN ZUR AUTOMATISIERTEN ANMERKUNG VON BERICHTEN MEHRDIMENSIONALER DATENBANKEN MIT INFORMATIONSOBJEKTEN EINES DATENSPEICHERS
Anmelder Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V., 80686 München, DE
Erfinder Becks, Andreas, 52072 Aachen, DE;
Seeling, Christian, 52445 Titz, DE;
Frese, Dino, 52062 Aachen, DE
Vertreter Patentanwälte von Kreisler, Selting, Werner et col., 50667 Köln
DE-Aktenzeichen 602004006485
Vertragsstaaten AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HU, IE, IT, LI, LU, MC, NL, PL, PT, RO, SE, SI, SK, TR
Sprache des Dokument EN
EP-Anmeldetag 02.03.2004
EP-Aktenzeichen 040048019
EP-Offenlegungsdatum 14.09.2005
EP date of grant 16.05.2007
Veröffentlichungstag im Patentblatt 17.01.2008
IPC-Hauptklasse G06F 17/30(2006.01)A, F, I, 20051017, B, H, EP

Beschreibung[de]
HINTERGRUND DER ERFINDUNG Fachgebiet der Erfindung

Die vorliegende Erfindung betrifft ein Verfahren zur automatischen Annotation von Mehrdimensionaldatenbank-Berichten mit Informationsgegenständen einer Datenablage.

Einleitung

Firmen müssen Rahmen ihrer finanziellen Planung und Kontrolle kontinuierlich Information zu Kunden, Konkurrenten, Produkten oder marktrelevanten Ereignissen überwachen, um ihre Situation im globalen Kontext bewerten zu können. Diese heterogenen Informationen finden sich oft in Informationsgegenständen wie etwa unstrukturierten Schriftstücken (z.B. Nachrichtenberichte, Pressemitteilungen, Memos oder Veröffentlichungen der Handelspresse), Multimedia-Dateien (z.B. in MPEG-7 metadata aufgenommene Nachrichten-Videoclips mit Interviews mit Wirtschaftsexperten) oder Bildern (z.B. Verkaufsdiagramme oder Markt-Portfolios). Diese Informationsgegenstände semantisch zu integrieren und sie in Beziehung zu bestimmten Berichts- oder Planungsgegenständen zu setzen, die sich in den internen strukturierten Datenbasen eines Mittelstandsunternehmens befinden, bildet einen zentralen Aspekt für die Schaffung proaktiver Management-Informationssysteme.

Zahlreiche Firmen verwenden zum Speichern geschäftsrelevanter strukturierter Daten (wie z.B. Verkaufszahlen, Anzahl produzierter Einheiten oder Kunden-Master-Daten) und zum Zugriff auf diese Daten Datenbank-Systeme oder Daten-Warehouses. Derartige Geschäftsdaten bilden eine wichtige Basis für die Planungsprozesse und die Performance-Analyse von Firmen. Industrielle Überblicksberichte wie z.B. die BARC Studies oder die OLAP-Bericht-Serie von Nigel Pendse liefern weitgehene Belege dafür, dass Berichts- und Planungs-Dateien derzeit üblicherweise OLAP (Online Analytic Data Processing) mit seinen mehrdimensionalen, hierarchisch strukturierten Datenwürfeln unterstützen.

Andererseits ist eine beträchtliche Menge strategisch relevanter Information in Informationsgegenständen erfasst, die nur über das Internet oder das Intranet zugänglich sind oder von der Firma in Text-Datenbanken (z.B. Inhalts- oder Dokument-Management-Systemen) gehalten werden.

Für die Geschäfts-Analyse und -Planung werden zum Zugreifen auf Geschäftsdaten typischerweise auf OLAP-Technologie basierende Berichts-Tools verwendet. Bislang muss Information, die von Informationsgegenständen wie Text- oder Multimedia-Dokumenten bereitgestellt wird, separat mittels Aufruf- und Filter-Tools aufgerufen und analysiert werden.

Bei einigen Systemen, wie demjenigen, das beschrieben ist in "The Integration of Business Intelligence and Knowledge Management", Cody et al., 2002, werden die Text-Informationsgegenstände mit Geschäftsdaten-Aufzeichnungen in mehrdimensionalen Datenbänken in Beziehung gesetzt. Diese Veröffentlichung beschreibt ein Textanalyse-Rahmenwerk und die Weise, in der dieses in eine mehrdimensionalen Datenbank integriert wird, indem ein Dokument-Warehouse eingeführt wird und die beiden durch gemeinsame Dimensionen verknüpft werden.

Mit der vorgeschlagenen Technik werden automatisch Informationsgegenstände aufgerufen, die mit einem Aspekt des vorliegenden Geschäftsdaten-Modells (z.B. OLAP-Bericht) in Beziehung stehen.

Performance-Analyse und Planung auf dem Textil-Sektor – ein Anwendungsbeispiel

Es sei eine mittelgroße deutsche Textileinzelhandelskette angenommen, welche die Firmen-Performance durch Beobachtung des Ertrags-Statements in dem OLAP-System dieser Firma analysiert. Externe Online-Informationsquellen (z.B. Newsticker, Foren und Magazine) liefern Nachrichten in Textform. Die Nachrichtenartikel enthalten Information zur Performance eines Spielers auf dem Markt, zu Rohmaterialpreisen, Modetrends usw. Bei diesen Informationen handelt es sich um wesentliche Eckpunkte für die Evaluation der eigenen Performance der Firma und somit um unabdingbare Information zum Steuern und Planen von Tasks.

Bei dem OLAP-Berichtssystem weist ein sogenanntes traffic lighting auf einen schwachen Anstieg des Umsatzes und eine starke Abnahme der Margen hin (markierte Bereiche in 1). Dies veranlasst den Analysten, nach Information darüber zu suchen, in welcher Beziehung diese Daten zum Markt stehen. Durch Drücken einer bestimmten Taste auf der Tool-Bar des OLAP-Systems verlangt er dann, dass dieser Bericht mit Hintergrundinformation aus dem Informationsquellen annotiert wird, die extern mittels eines Sets von Kategorien aus einem gegebenen Domänen-Katalog klassifiziert sind. Nachdem er dies getan hat, erscheint das Annotations-Ergebnis-Bild, das zwei Dokumente zu Hugo Boss zeigt. In dem ersten Text wird festgestellt, dass Boss beabsichtigt, seinen Umsatz konstant zu halten, dabei jedoch seinen Profit zu steigern (2). Dies zieht die Aufmerksamkeit des Analysten auf sich, der sich nun entscheidet, weitere annotierte Dokumente zu betrachten.

In einem weiteren Dokument wird die Aussage getroffen, dass der Mode-Discounter Hennes & Mauritz seinen Umsatz im letzten Vierteljahr möglicherweise um 12% verbessert haben könnte, und zwar hauptsächlich aufgrund seines außergewöhnlichen Umsatzes an Freizeitkleidung, insbesondere Jeans und Baumwolljacken, in Deutschland. Der Analyst hat erfasst, dass Konkurrenten insbesondere auf dem Sektor von Freizeitkleidung und informeller Kleidung erfolgreich sind. Ferner hat er Kenntnisse zu den Trends auf diesen Gebieten erlangt. Der Analyst geht zurück auf das OLAP-Berichts-Tool, welches die internen Geschäftsdaten der Firma zeigt, um mehr über die eigene Performance auf dem "Freizeit"-Sektor zu erfahren. Mit Hilfe der Hintergrundinformation kann er dann seine Optionen zur Performance-Verbesserung prüfen.

Relevante Anwendungs-Szenarios

Das oben aufgeführte Anwendungs-Szenario ist nicht speziell in Bezug auf nur diesen bestimmten Sektor zu sehen. Weitgehend ähnliche Planungssituationen lassen sich auch in beliebig gewählten anderen Sektoren finden. Um nur ein weiteres Beispiel anzuführen, lässt sich der Reise- und Tourismus-Sektor vergegenwärtigen, in dem Informationen zu Produkten, Carriern, zur Buchungssituation und zu Kapazitäten typischerweise in mehrdimensionalen Datenbanken gespeichert werden. Das Planen der Lieferungen für bevorstehende Saisonperioden erfordert eine detaillierte Analyse historischer Daten und hochentwickelte statistische Vorhersagen. Eine solide Planung und Voraussage kann jedoch nicht ausschließlich auf internen Daten basieren. Es müssen zusätzlich externe Informationsquellen aus Nachrichtenmagazinen und der Reisepresse einbezogen werden. Zu den wichtigen Fragen, die derzeit erhellt werden müssen, zählen: Beeinflussen Terrorangriffe die Reiseaktivitäten und das Buchungsverhalten bestimmter Kundengruppen? Gibt es Sport-Events (Spiele, Turniere, Jahrestreffen), welche das Reisen zu bestimmten Destinationen attraktiver machen? Welche anderen derzeitigen Events und Publikationen – ungeachtet dessen, ob sie von politischer, kultureller oder wirtschaftlicher Art sind – sind für Voraussagen und Berechnungen relevant?

ÜBERBLICK ÜBER DIE ERFINDUNG

Die vorliegende Erfindung beinhaltet ein Verfahren zur automatischen Annotation von Mehrdimensionaldatenbank-Berichten mit Informationsgegenständen einer Datenablage, die Textteile enthalten, wobei das Schema der mehrdimensionalen Datenbank einen Satz von Dimensionen aufweist, die jeweils Elemente enthalten, welche durch zielgerichtete Assoziationen in gegenseitiger Beziehung stehen, wobei das Schema der Datenablage Klassen enthält, die durch zielgerichtete Assoziationen, mit denen die Informationsgegenstände assoziiert sind, in gegenseitiger Beziehung stehen, und wobei das Schema der mehrdimensionalen Datenbank und das Schema der Datenablage durch Mapping-Assoziationen miteinander verbunden sind, wobei jede Mapping-Assoziation ein Element des Schemas der mehrdimensionalen Datenbank mit einer Klasse des Schemas der Datenablage verbindet, wobei das Verfahren folgende Schritte aufweist:

  • a) Identifizieren von Elementen des Schemas der mehrdimensionalen Datenbank, die einen gegebenen Mehrdimensionaldatenbank-Bericht definieren,
  • b) Definieren einer Graph-Struktur zwischen den Elementen des Schemas der mehrdimensionalen Datenbank und assoziierten Klassen des Schemas der Datenablage mittels der Mapping-Assoziationen,
  • c) Finden mindestens eines Pfads in der Graph-Struktur zwischen einem gegebenen Element und Klassen des Schemas der Datenablage mittels einer Strukturanalyse,
  • d) Evaluieren der Relevanz einer Klasse des Schemas der Datenablage für das gegebene Element durch Bestimmen (i) der Länge eines Pfads oder von Pfaden zwischen dem gegebenen Element und der Klasse oder den Klassen gemäß einer Längen-Maßgabe, und (ii) der Anzahl von Pfaden zwischen dem gegebenen Element und seiner assoziierten Klassen oder Klassen, wobei (i) je kleiner die Länge, desto größer die Relevanz ist, und (ii) je mehr Pfade existieren, desto größer die Relevanz ist,
  • e) Evaluieren der Relevanz der Informationsgegenstände für die Klasse oder Klassen mittels einer syntaktischen Analyse der Textteile der Informationsgegenstände,
  • f) Kumulieren und Normalisieren der Relevanz-Bestimmungen gemäß der strukturellen und der syntaktischen Analyse der Schritte d) und e), und
  • g) Ausgeben einer Liste der am meisten relevanten annotierten Informationsgegenstände und ihrer Relevanzwerte.

Vorzugsweise wird der oben erwähnte Schritt f) auf der Basis einer gewichteten Kombination der in den Schritten d) und e) bestimmten Relevanzwerte durchgeführt, wobei die Gewichtungsfaktoren wählbar sind. Besonders bevorzugt wird der oben erwähnte Schritt b) im Voraus durchgeführt, um die Graph-Struktur zu bestimmen und um die vorbestimmte Graph-Struktur zu speichern. Gemäß einer bevorzugten Ausführungsform wird Schritt c) im Voraus durchgeführt, um sämtliche existierenden Wege zwischen sämtlichen Elementen bzw. sämtlichen Klassen zu finden und um diese vorbestimmten Wege zu speichern. Gemäß einem weiteren Aspekt wird der oben erwähnte Schritt e) im Voraus durchgeführt, um die Relevanzen sämtlicher Informationsgegenstände jeweils für sämtliche der Klassen zu evaluieren und um diese evaluierten Relevanzen zu speichern.

Beschreibung des Annotationsvorgangs

In diesem Abschnitt wird beschrieben, was die Bedingungen und die Bestandteile des Verfahrens gemäß der Erfindung sind, wie diese für das Durchführen der Berechnung verwendet werden, und was am Ende herauskommt.

Grundidee und Bedingungen

Operational strukturierte Daten werden typischerweise in relationalen oder objekt-orientierten Dateien gespeichert. Bei der Verwendung als Basis für Analysen und Entscheidungen werden diese Daten auf einer höheren Abstraktionsebene benötigt. Somit müssen die Daten transformiert, aggregiert oder konsolidiert werden. Die resultierenden Daten werden oft in einer mehrdimensionalen Datenbank gespeichert, die entsprechend den Informationsbedürfnissen des Analysten hierarchisch organisiert ist. In ähnlicher Weise werden Text- oder mehrdimensionale Daten typischerweise in katalogbasierten Informationsablagen gespeichert. Beide, die mehrdimensionalen Datenbänke und die Informationsablagen, haben gemeinsam, dass ein logisches Schema in hierarchischer Form (mono-hierarchisch oder poly-hierarchisch) existiert, welches als Organisationsprinzip für die Daten dient. (Im Folgenden werden die Ausdrücke Datenmodell und Datenschema synonym verwendet.)

Da Text- und Multimedia-Daten oft Hintergrundinformation enthalten, die dazu beitragen, die strukturierten Daten adäquater zu interpretieren, entsteht die Herausforderung, beide Arten von Daten in Relation zueinander zu setzen. Mit der Erfindung wird ein Verfahren zum automatischen Verknüpfen von Text-Daten mit strukturierten Daten erstellt.

Das erfindungsgemäße Verfahren ermöglicht, die existierenden Daten und Schemata in ihrer unmodifizierten Form zu analysieren und in Beziehung zueinander zu setzen. Dennoch kann das Verfahren durch zusätzliche explizite Information über die Beziehung des Schemas der Informationsablage und des Schemas der mehrdimensionalen Datenbank verbessert werden: Falls vorbestimmte Assoziationen (technisch ausgedrückt: Mappings) zwischen den Datenbänken existieren, kann diese Information einbezogen werden, um eine strukturelle Analyse durchzuführen. Die Existenz von Mappings ist nicht unabdingbar, um das Verfahren funktionieren zu lassen, tendiert jedoch dazu, die Ergebnisse zu verbessern. Ferner werden Mappings und Schemata zum Design-Zeitpunkt entwickelt, und nachdem sie spezifiziert worden sind, sind Änderungen nur selten erforderlich.

Zusammenfassend betrachtet sollte die Umgebung, in der das beschriebene Verfahren zum Verknüpfen strukturierter Daten mit Daten von einer Informationsablage angewendet werden kann, mindestens die folgenden Aspekte aufweisen:

  • – eine mehrdimensionale Datenbank mit einem hierarchischen (mono-hierarchischen oder poly-hierarchischen) Datenschema (im Folgenden Business-Data-Modell) genannt, die strukturierte Daten enthält,
  • – eine Informationsablage mit einem hierarchischen (mono-hierarchischen oder poly-hierarchischen) Datenschema (im Folgenden Domänen-Katalog genannt), die Daten enthält,
  • – optional, ein Mapping, das Assoziationen zwischen den Schemata definiert. 3 veranschaulicht das Datenschema und das Mapping für das oben beschriebene Anwendungsbeispiel ("Performance-Analyse und Planung auf dem Textilsektor"). Die Schemata werden noch detailliert beschrieben (vgl. 7 und 8).

Bestandteile, Voraussetzungen Der Domänen-Katalog (DC)

  • – besteht aus hierarchisch (mono-hierarchisch oder poly-hierarchisch) strukturierten Klassen,
  • – wird ausgelegt zur Klassifikation digitaler Informationsgegenstände (z.B. Textdokumente),
  • – kann syntaktisch angereichert werden durch Beschreibungs-Term-Sets, welche die Klassen beschreiben (z.B. Synonym-Sets oder einfach der Kassen-Name); zur multilingualen Annotation ist ein Ausdrucks-Set für jede avisierte Sprache erforderlich,
  • – wird typischerweise ausgelegt und verwendet zum gleichförmigen Ablegen in Ablagen von Informationsgegenständen und zum Zugreifen auf diese Informationsgegenstände,
  • – z. B. Produkt-Katalog, Patentklassifikationsschema, Datei-System oder Themen-Struktur aus einem Content Management System.

Das Business-Data-Modell (BDM)

  • – besteht aus einem Set von Dimensionen. Jede Dimension besteht aus einem Set von Elementen, die durch direkte Assoziationen derart in Beziehung zueinander stehen, dass sämtliche Elemente durch Assoziationen verbunden sind,
  • – wird typischerweise ausgelegt und verwendet zum gleichförmigen Ablegen strukturierter Geschäftsinformation in Datenbänken und zum Zugreifen auf die Information aus den Datenbänken,
  • – wobei ein Beispiel in dem mehrdimensionalen OLAP-Daten-Würfel-Modell besteht.

Das Mapping zwischen dem Domänen-Daten-Katalog und dem Business-Data-Modell

  • – besteht aus Mapping-Assoziationen. Jede Mapping-Assoziation verbindet ein Element des Business-Data-Modells mit einer (semantisch in Beziehung stehenden) Klasse des Domänenen-Katalogs,
  • – kann manuell abgeleitet werden durch einen intellektuellen Spezifizierungsvorgang seitens eines Domänen-Experten oder automatisch generiert werden (z.B. durch Schemen-Integration-Verarbeitung).

Die Ablage kontextualisierter digitaler Informationsgegenstände

  • – weist auf: Objekt-Klassifikation anhand des Domänen-Katalogs (z.B. abgeleitet durch Meta-Tags, ein Klassifikationssystem oder die Stelle des Texts in einem Speichersystem wie etwa DMS oder Datei-System),
  • – weist einen Objekt-Inhalt auf (z.B. einen in natürlicher Sprache abgefassten Text-Teil im Fall von Text-Dokumenten).

Die Werte für die Berechnungs-Parameter. Die wichtigsten Parameter sind:

  • – Eskalations-Tiefe in den hierarchischen Daten-Modellen,
  • – Anteil des auf das Gesamt-Maß ausgeübten Einflusses (1) der strukturellen Analyse (von Daten-Modellen & Mapping) bis zu (2) der syntaktischen Analyse digitaler Informationsgegenstände. Insbesondere dieser Parameter ermöglicht die Annotations-Berechnung für die anderen Informationsgegenstände als die Text-Dokumente (z.B. Multimedia-Objekte) durch Befähigung dazu, ausschließlich die strukturelle Analyse durchzuführen; dies kann erzielt werden, indem die Einwirkung der strukturellen Analyse auf Null gesetzt wird.

Die Abfrage:

  • – ist ein Set von Elementen des Business-Data-Modells,
  • – spezifiziert den Teil des Business-Data-Modells, der annotiert werden soll,
  • – falls das BDM das OLAP-Daten-Würfel-Modell ist, spezifiziert die Abfrage Elemente in jeder Dimension durch einen sogenannten Spezifikations-Vektor, der einen OLAP-Bericht definiert

Falls nur ein einziges Daten-Modell existiert, das für die Beschreibung der Informationsgegenstände sowie auch der strukturellen Geschäftsdaten, verwendet wird, dann sind BDM und DC identisch. In diesem speziellen Fall können die Ausdrücke "Klassen" und "Elemente" im Folgenden als Synonyme betrachtet werden, und bei dem Mapping zwischen den Modellen handelt es sich einfach um die Identität.

Aufgabenstellungen

Unter Anbetracht der Datenschemata (DC und BDM) und des Mapping zwischen ihnen erscheint die schema-basierte Berechnung annotierter Dokumente offensichtlich:

  • 1. Kenntnisnahme der Abfrage und Berechnen des Sets S betroffener Elemente des BDM.
  • 2. Berücksichtigen des Mapping und, aus dem DC, Suchen nach dem Set C von Kategorien, die mit S verknüpft sind.
  • 3. Finden des Sets T von Texten, die mit Kategorien von C kontextualisiert sind.

Eine genauere Betrachtung zeigt, dass dieser schlichte Ansatz zahlreiche Detailprobleme vernachlässigt. Einige plausible Feststellungen sind: Ein BDM-Element, das viele Male in der Abfrage erscheint, könnte wichtiger sein als andere Elemente. Ein BDM-Element, das selbst nicht direkt in die Abfrage einbezogen ist, jedoch in Beziehung zu Elementen der Abfrage steht, könnte auch relevant sein. Eine DC-Klasse, die von den Elementen der Abfrage über zahlreiche Wege des Mapping erreicht werden kann, könnte wichtiger sein als eine andere Klasse, die nur über einen einzigen Weg zugänglich ist. Eine DC-Klasse, die nicht direkt durch das Mapping zugänglich ist, könnte dennoch von einem gewissen Interesse sein. Ein Informationsgegenstand, der durch zahlreiche zur der Abfrage passenden Kategorien beschrieben wird, könnte wichtiger sein als ein anderer Informationsgegenstand, dessen Kontext nur eine dieser Kategorien enthält, etc. Schließlich muss man sich mit der Frage befassen, wie sämtliche dieser Klassen operational unterschieden und zu einem sinnvollen normalisierten Relevanz-Maß kombiniert werden können.

Die obige Beschreibung des 3-schrittigen Vorgangs ist rein qualitativ, wobei über verschiedene Sets geredet wird. Es wird eine Bewertung benötigt, um die oben angeregte intuitive Differenzierung handhaben zu können. Somit besteht die Kernaufgabe darin, herauszufinden, wie gewichtete (eingestufte) Sets generiert und aneinandergefügt werden können. Weitere praktische Fragen, die angesprochen werden sollten, sind: Was muss unternommen werden, falls kein explizites Mapping existiert oder das Mapping schlecht ist? Welche Rolle spielt die Semantik der Daten-Schemata für die Berechnungen?

Bei dem erfindungsgemäßen Verfahren werden Regeln vorgeschlagen (beispielsweise "Je größer die strukturellen Distanzen zwischen den beiden Schema-Elementen sind, desto weniger stehen sie in Relation zueinander"; "Je mehr Wege zwischen den beiden Schemata existieren, desto mehr stehen sie in Beziehung zueinander"; etc.), die durch Formeln formalisiert sind, welche in den Abschnitten zu den "bevorzugten Ausführungsformen" beschrieben sind. Die Regel beschreiben die Eigenschaften der Maßgaben statt die konkreten Maßgaben selbst, um eine flexible Feinabstimmung des Verfahrens auf die spezielle Situationen und Erfordernisse zu ermöglichen. Eine Stärke des vorgeschlagenen Verfahrens besteht in der Leichtigkeit des Annotierens existierender Quellen strukturierter Information aus mehrdimensionalen Datenbänken mit Informationsgegenständen aus existierenden Text- oder Multimedia-Informationsablagen. Das Verfahren beschreibt eine strukturelle und eine syntaktische Analyse, die kombiniert werden können. Ferner bietet das Verfahren eine strukturelle Eskalation in den Daten-Schemata und zahlreiche Parameter zum Einstellen der Gewichtungen.

Die strukturelle Analyse kann entfallen, falls keine Information zu dem Mapping zwischen den Daten-Modellen vorhanden ist. Die syntaktische Analyse kann in multilingualen oder Multimedia-Settings ausgelassen werden, bei denen eine rein strukturelle Analyse aufgrund fehlender oder unzureichender syntaktischer Information sinnvoll sein könnte.

Schritte

Im Folgenden werden die Berechnungsschritte der Annotationstechnik und die Ergebnisse jedes Schritts beschrieben. Das zugrundeliegende Prinzip ist das folgende (vgl. 4 und 5):

Bei der Relevanz von Informationsgegenständen für eine Abfrage handelt es sich um einen gewichteten Mittelwert der strukturellen und syntaktischen Analysen. Die strukturelle Analyse vollzieht die Auswertung des vorbestimmten direkten Mapping zwischen den Daten-Modellen, erweitert um die strukturellen Eigenschaften beider Modelle, was zu der Relevanz der Domänen-Katalog-Klassen für in der Anfrage enthaltene Elemente führt. Die syntaktische Analyse vollzieht die Einschätzung der Relevanz des Text-Teils von Informationsgegenständen für die Klassen, mit denen sie verbunden sind. Zusammengenommen reflektiert die Maßnahme die Relevanz von Informationsgegenständen für die Abfrage, d.h. das Set von Elementen des Business-Data-Modells.

Strukturelle Analyse:

Assoziations-Graph-Konstruktion: In der strukturellen Analyse werden das Business-Data-Modell, der Domänen-Katalog und das Mapping zwischen ihnen unter einem rein strukturellen Gesichtspunkt behandelt. Sie werden zu einer Graph-Wiedergabe transformiert, welche die Anwendung standardisierter Graph-Algorithmen erlaubt, was zu einem gewichteten gerichteten Graph führt. Gewichte können dahingehend erklärt werden, dass sie Assoziationen betonen. Falls ein Gewichten von Randbereichen nicht beabsichtigt ist, können sämtliche Ränder gleichermaßen durch 1 gewichtet werden.

Das Ergebnis ist ein gewichteter gerichteter azyklischer Graph (kurz als DAG bezeichnet), der aus Knoten (Klassen-Knoten und Element-Knoten) und gewichteten gerichteten Rändern besteht (ausgehend von dem Business-Data-Modell, dem Domänen-Katalog und dem Mapping), und der wie folgt definiert ist:

  • a. Assoziationen zwischen den Knoten des Business-Data-Modells werden ausgerichtet (von einem Knoten zu den Unterknoten),
  • b. Assoziationen zwischen den Klassen des Domänen-Katalogs werden ausgerichtet (von einer Klasse zu den Unterklassen),
  • c. Assoziationen des Mappings werden ausgerichtet (von dem Business-Data-Modell zu dem Domänen-Katalog; d.h. ein Knoten kann auf eine Klasse abgebildet werden).

Assoziations-Graph-Analyse: Zum Bewerten der Relevanz jeder Klasse des Domänen-Katalogs für Elemente des Business-Data-Modells, die in einer Abfrage enthalten sind, wird ein Relevanz-Maß angewandt, das für die Anwendung der Technik definiert werden muss. Die folgenden Regeln beschreiben die Intuition, mit der eine derartige Maßgabe zwecks Bewertens der Relevanz einer DC-Klasse für ein BDM-Element geführt werden kann:

  • (1) Je größer die Distanz zwischen einem Element-Knoten und einem Klassen-Knoten in dem Graph ist (ausgedrückt durch die Anzahl der Ränder auf Wegen zwischen der Klasse und dem Element, und durch ihre Gewichte), desto geringer ist die Relevanz der Klasse für das Element.
  • (2) Je mehr Wege zwischen einem Element-Knoten und einem Klassen-Knoten in dem Graph existieren, desto höher ist die Relevanz der Klasse für das Element.

Bevorzugte Ausführungsform: Ein Beispiel eines Relevanz-Maßes ist der Kehrwert der Anzahl von Rändern auf dem Weg minimaler Länge durch den Graph von einem Source-Element-Knoten zu einem Target-Klassen-Knoten. Zur Anwendung dieses Maßes muss der kürzeste Weg zwischen jedem Element-Knoten und jedem Klasse-Knoten berechnet werden. (Diese Berechnung muss nur einmal durchgeführt werden!) Ausgedrückt in graphtheoretischer Terminologie ist dies ein spezielles "Kürzester-Weg-für-sämtliche-Paare"-Problem. Ein weithin bekannter Algorithmus für die Berechnung des kürzesten Wegs in gerichteten Graphen ist Floyd-Algorithmus. Bei dem Ansatz des kürzesten Wegs wird das Prinzip (1) implementiert. Alternativ könnte zum Implementieren der Prinzipien (1) und (2) die Länge sämtlicher Wege von einem Element-Knoten zu einem Klassen-Knoten gemittelt werden, oder es könnten Fluss-Algorithmen verwendet werden.

Oft handelt es sich bei den Daten-Modellen um Spezialisierungs-Hierarchien. Folglich ist beim Verfolgen einer gerichteten Verknüpfung in dem Graph ("Schritt nach unten") impliziert, dass auf einer stärker spezifischen Knoten geschaltet wird. In Abhängigkeit von der Semantik der Daten-Schemata kann es sinnvoll sein, die Behandlung gerichteter Verknüpfung zu lockern, in dem "Schritte nach oben" erlaubt werden, d.h. ein Suchen nach Knoten in der umgekehrten Richtung der Verknüpfungen (was selbstverständlich eine Erhöhung der algorithmischen Komplexität erfordert).

Resultat: Das Ergebnis der strukturellen Analyse besteht aus Relevanzwerten für sämtliche Paare von Klassen und Elementen (relBDM_DC).

Syntaktische Analyse:

Die syntaktische Analyse kann angewandt werden, falls die Informationsgegenstände einen Text-Teil (z.B. eine natürliche Sprache in Text-Dokumenten oder Text-Descriptoren in MPEG-7-Multimedia-Daten) enthalten. Die syntaktische Analyse berechnet die Relevanz des Text-Teils von Informationsgegenständen für die Klassen, mit denen der Informationsgegenstand klassifiziert ist. Somit wird die Entsprechung zwischen dem Textteil eines Informationsgegenstands (z.B. dem Inhalt eines in einer natürlichen Sprache abgefassten Text-Dokuments oder textueller Metadaten eines Multimedia-Objekts) und dem Beschreibungs-Ausdruck-Set einer Klasse (eventuell unter Berücksichtigung der Sprache zum Wählen des entsprechenden Ausdrucks-Sets) berechnet. Dies erfolgt durch Anwendung von Informationsabruf-Relevanz-Maßnahmen: Zu diesen zählen statische, probabilistische oder auf Wissen basierende Verfahren.

Bevorzugte Ausführungsform: Ein Beispiel eines einfachen Relevanz-Maßes ist ein statistisches Maß: Die Relevanz eines Informationsgegenstands für eine DC-Klasse entspricht der Ausdrucks-Häufigkeit des Beschreibungs-Term-Sets der Klasse in dem Text-Teil des Informationsgegenstands. Standard-Sprachverarbeitungstechniken wie z.B. Stemming, Thesauri und Wörterbücher können die Präzision des Maßes verbessern.

Resultat: Das Ergebnis der syntaktischen Analyse ist für jede Klasse des Domänen-Katalogs ein Set von Informationsgegenständen, die der Klasse zugewiesen sind, und ihre Relevanz für die Klasse (relDC_DOC).

Kombination

Die Kombination von Teilergebnissen (relBDM_DC, relDC_DOC) für die Gesamt-Informationsgegenstand-Relevanz wird beeinflusst durch Parameterwerte, die nachstehend zum Teil aufgeführt sind. Für die Klassen, die als relevant für die strukturelle Analyse bewertet werden, werden die (durch eine oder mehrere Klassen) klassifizierten Informationsgegenstände entsprechend den Ergebnissen der syntaktischen Analyse eingestuft: Die Teilergebnisse werden normalisiert, und die gewichtete Kombination wird berechnet. Anzumerken ist, dass die Kombination Null beträgt, falls mindestens eines der Teilergebnisse Null beträgt. Die Informationsgegenstände werden entsprechen dem abnehmenden Relevanzwert sortiert.

Resultat: Das Ergebnis der Kombination (und somit des gesamten Annotationsverfahrens) ist

  • – eine Liste von Identifikatoren annotierter Informationsgegenstände (Gegenstände, die automatisch als relevant für gegebene Set von Elementen des Business-Data-Modells eingestuft werden), sortiert gemäß dem Relevanzwert für jeden Informationsgegenstand, und
  • – ein Relevanzwert zwischen 0 und 1 (metrische Skala) für jeden annotierten Informationsgegenstand, so dass nicht nur eine Rangfolge der Texte, sondern auch die Höhe der Relevanz für sämtliche annotierten Informationsgegenstände definiert werden.

Berechnungs-Parameter

Im Folgenden wird ein Set von Berechnungs-Parametern präsentiert.

  • – Die maximale Eskalationsebene k spezifiziert, wie viele Schritte maximal in einem Daten-Schema verfolgt werden, um Wege zwischen Elementen und Klassen zu finden. Somit beträgt die maximale Weglänge 2k+1. Falls keine Einschränkung für die Eskalationsebene beabsichtigt ist, kann k auf die Größe des größten Wegs in einem Daten-Schema gesetzt werden.
  • – Der Einfluss der Ergebnisse der strukturellen und der syntaktischen Analyse (d.h. relBDM_DC, relDC_DOC) auf die Gesamt-Relevanz wird durch &agr; und &bgr; eingestellt. Die Parameter drücken den Anteil &agr;:&bgr; der Teil-Maße aus. Ein Parameter könnte auf 0 gesetzt werden, falls keine strukturelle (bzw. syntaktische) Information verfügbar ist. Tests zeigen, dass die strukturelle Analyse normalerweise der syntaktischen Analyse überlegen ist. Gute Ergebnisse lassen sich in einer Größenordnung &agr;:&bgr; von 8:1 erzielen. Die optimale Ausgewogenheit zwischen den Unter-Maßen hängt eindeutig von der Qualität des Mapping und den syntaktischen Eigenschaften des Domänen-Katalogs und der Informationsgegenstände ab.

Vorausberechnung:

Sowohl die syntaktische als auch die strukturelle Analyse können teilweise im Voraus berechnet (Vorausberechnung) und in einer Datenbank gespeichert werden. Dies ist möglich, da für Teilergebnisse, die nur von den gegebenen Modellen – Mapping und Ablage – und nicht von einer Abfrage abhängen, die Vorausberechnung die für das Verarbeiten der Abfrage erforderliche Zeit optimieren kann. Wenn sich der Domänen-Katalog, das Mapping oder das Business-Data-Modell ändern, müssen der vorausberechnete Graph sowie die Information über die Weglängen aktualisiert werden, d.h. die strukturelle Analyse muss neu durchgeführt werden. Wenn sich die Informationsgegenstand-Ablage ändert, muss die Relevanz der Informationsgegenstände für die Klassen aktualisiert werden.

Generische Architektur

Als Beispiel wird eine mögliche Architektur für die Realisierung der Annotationsberechnungs-Technik beschrieben, wobei diese Technik als verteilte internet-basierte Kunden-Server-Architektur (vgl. 6) implementiert werden kann.

Der Kern der Architektur ist die Server-Anwendung (Annotation Calculation Module = AC). Metadaten (Domänen-Katalog, Business-Data-Modell, Mapping) werden in XML-Dokumenten gespeichert und sind für das AC zugänglich. Ferner ist die Ablage kontextualisierter Informationsgegenstände (z.B. ein Inhalts-Handhabungssystem) für das AC zugänglich. Das AC ist mit einer relationalen Datenbank verbunden, auf die mittels einer Datenbank-Handhabungs- und -Abfragesprache (z.B. SQL) zugegriffen werden kann. Die Datenbank wird zum Speichern und Aufrufen der vorausberechneten Zwischenergebnisse verwendet (d.h. der Ergebnisse der strukturellen und der syntaktische Analyse). Die Vorausberechung und die Parameterbildung können durch das Administration User Interface gesteuert werden, das auch für das Beibehalten der relationalen Datenbank adressiert werden kann. Die Abfrage wird durch ein externes Klienten-System (z.B. ein Handhabungsinformationssystem mit OLAP-Bericht) erzeugt, welches das AC um die Annotierung der spezifizierten Modelle des Business-Data-Modells ersucht.

KURZBESCHREIBUNG DER ZEICHNUNG

Im Folgenden wird die Erfindung im Zusammenhang mit der Zeichnung detaillierter erläutert.

1 zeigt ein OLAP-UI mit Bericht;

2 zeigt eine Annotations-Ergebnis-Liste;

3 zeigt eine Skizze der Daten-Schemata (Daten-Modelle) für das Textil-Szenario;

4 zeigt die Komponenten, die von der strukturellen und der syntaktischen Analyse berücksichtigt werden;

5 zeigt die Vorbedingungen, den Vorgang und das Ergebnis;

6 zeigt eine generische Architektur;

7 zeigt einen Domänen-Katalog für das Textil-Szenario; und

8 zeigt ein Business-Data-Modell für das Textil-Szenario.

DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN Beispiel für die Anwendung der Technik

In diesem Kapitel wird die Anwendung der Technik in einem begrenzten Szenario aus dem Bereich der Textilindustrie detailliert aufgezeigt. Gemäß diesem Beispiel handelt es sich bei den Informationsgegenständen um unstrukturierte, in einer natürlichen Sprache abgefasste Textdokumente, und bei dem Business-Data-Modell handelt es sich um ein mehrdimensionales OLAP-Daten-Modell.

Bestandteile, Vorbedingungen – Katalog der Domäne

  • – Der Domänen-Katalog weist fünf Hauptzweige auf:
  • – Firma
  • – Kunde
  • – Ereignis
  • – Kontext
  • – Produkte & Dienstleistungen

– Synonym-Sets: Domänen-Katalog-Klasse Beschreibungs-Ausdruck-Set Kunde/BC2/Kind Kind, Teen, Teenager, Jugendlicher, Frühjugendlicher Produkte und Dienstleistungen/Qualität/Luxus Qualität, hohe Qualität, Spitzenqualität Firma/Ergebnisse Geschäftsfakten, Einkommen, Kosten, Umsatz, Ausgaben, Aktiva, Profit, Steuern Produkte und Dienstleistungen/Grad der Endverarbeitung/Endprodukt Endprodukte, Bekleidungsprodukte, Schuhwaren, Schuhe, Stoffe, Accessoires, Möbel, Gewebe, Unterwäsche, Kleidung Produkte und Dienstleistungen/Grad der Endverarbeitung/Endprodukt, Fußbekleidung Fußbekleidung, Schuhwaren, Schuhe, Socken, Laufschuhe, formelle Schuhe, Arbeitsschuhe, Schutzschuhe, Lederschuhe

– Business-Data-Modell – Das OLAP-Daten-Modell weist sechs Dimensionen auf:

  • – Saison {Sommer 2002, Winter 02/03, ...}
  • – Maße {Kosten, Umsatz, ...}
  • – Szenario {Plan, Ist-Zustand}
  • – Kunde {626,62C}
  • – Qualität {Spitzen-, mittlere, untere Qualität}
  • – Produkte und Dienstleistungen {Stoffe, Accessoires, ...}

– Mapping

– Zur Veranschaulichung wird ein minimalistisches Mapping beschrie ben: Business-Daten-Modell Domänen-Katalog Qualität/Spitze Produkte und Dienstleistungen/Qualität/Luxus Produkte und Dienstleistungen/Typ/Bekleidungsstücke Produkte und Dienstleistungen/Grad der Endverarbeitung/Endprodukt Maß/Einkommen Firma/Ergebnisse Kunde/62C/Kind Kunde/62C/Kind

– Ablage kontextualisierter Informationsgegenstände

  • – fünf neue Dokumente, klassifiziert entsprechend dem Domänen-Katalog :

– Dokument 1 "Ausgaben für Teen-Bekleidung":

  • – Firma >> Ergebnisse
  • – Kunde >> B2C >> Kind
  • – Kunde >> Interesse >> Freizeit- und informelle Bekleidung
  • – Produkte und Dienstleistungen >> Typ >> Bekleidung >> Accessoires
  • – Produkte und Dienstleistungen >> Typ >> Bekleidung >> Bekleidung

– Dokument 2 "H&M":

  • – Firma >> Ergebnisse
  • – Kunde >> B2C >> Kind; Kunde >> B2C >> Mann Kunde >> B2C >> Frau; Kunde >> Interesse >> Freizeit- und informelle Bekleidung
  • – Produkte und Dienstleistungen >> Typ >> Accessoires; Produkte und Dienstleistungen >> Typ >> Bekleidung; Produkte und Dienstleistungen >> Qualität >> mittlere untere; Produkte und Dienstleistungen >> Qualität >> mittlere

– Dokument 3 "Hugo Boss":

  • – Firma >> Ergebnisse
  • – Kunde >> B2C >> Mann; Kunde >> B2C >> Frau; Kunde >> Interesse >> Freizeit- und informelle Bekleidung; Kunde >> Interesse >> formell
  • – Produkte und Dienstleistungen >> Typ >>; Produkte und Dienstleistungen >> Typ >> Bekleidung; Produkte und Dienstleistungen >> Qualität >> hoch

– Dokument 4 "Cinderella Shoes":

  • – Kunde >> B2C >> Mann; Kunde >> B2C >> Frau; Kunde >> Interesse >> Freizeit- und informelle Bekleidung; Kunde >> Interesse >> formell
  • – Produkte und Dienstleistungen >> Typ >> Bekleidung >> Fußbekleidung; Produkte und Dienstleistungen >> Qualität >> hoch

– Dokument 5 "Einzelhandel":

  • – Firma >> Ergebnisse
  • – Produkte und Dienstleistungen >> Typ >> Accessoires
  • – Produkte und Dienstleistungen >> Typ >> Stoffe
  • – Produkte und Dienstleistungen >> Typ >> Möbel

– Abfrage

Die beiden OLAP-Berichte, die annotiert werden, werden durch Spezifikationsvektoren bestimmt:

  • – Abfrage 1: Maße = "Einnahmen", Produkt = "BEKLEIDUNG", Qualität = "HOCH", Szenario = "TATSÄCHLICH", Kunde = "SÄMTLICHE", Saison = "SÄMTLICHE"
  • – Abfrage 2: Maße = "Einnahmen", Produkt = "BEKLEIDUNG" + "Acessoires" + "Möbel", Qualität = "SÄMTLICHE", Szenario = "TATSÄCHLICH", Kunde = "KIND", Saison = "WINTER 02/03"

Die erste Anfrage beschreibt einen Bericht, der die Gesamteinnahmen aus Endprodukten hoher Qualität zeigt. Die zweite Anfrage beschreibt einen Bericht, der die Einnahmen aus Bekleidungsstücken zeigt, die während des Winters 2002/03 an Kinder verkauft wurden.

Schritte Strukturelle Analyse

Die Assoziations-Graph-Konstruktion und -Analyse werden hier nicht explizit beschrieben. Der Assoziations-Graph wird generiert durch die Verbindung der Elemente des Business-Data-Modells und des Domänen-Katalogs mittels des Mapping.

Syntaktische Analyse und Kombination

Die nachstehenden Tabellen zeigen die Werte für die Maße relBDM_DC und relDC_DOC. Für jede Abfrage finden sich in der Tabelle drei Dimensionen. (Die übrigen Dimensionen führten nicht zu irgendwelchen relevanten Informationsgegenständen). Die minimale Weglänge innerhalb des ausgebildeten Graphs von dem OLAP-Element zu einer Klasse ist ebenfalls gezeigt. Die Ausdrucks-Häufigkeiten sind für die Klassen angezeigt, die auf die OLAP-Dimensionen abgebildet sind. Mit rel ist die Kombination der beiden Teil-Relevanzmaße angegeben. Mit &sgr; ist das Gesamt-Relevanzmaß angegeben (normalisierte Kombination von relBDM_DC und relDC_DOC). Die Informationsgegenstände (hier: Dokumente) sind in der Reihenfolge ihrer Relevanz aufgeführt. Die intellektuelle Einstufung ergibt, dass für die Anfrage 1 die Dokumente 3 und 4 relevant sind, während dass für die Anfrage 2 die Dokumente 1, 2 und 3 relevant sind. Diese Einstufung spiegelt sich in dem Ergebnis der Berechnungen deutlich wieder.


Anspruch[de]
Verfahren zur automatischen Annotation von Mehrdimensionaldatenbank-Berichten mit Informationsgegenständen einer Datenablage, die Textteile enthalten, wobei das Schema der mehrdimensionalen Datenbank einen Satz von Dimensionen aufweist, die jeweils Elemente enthalten, welche durch zielgerichtete Assoziationen in gegenseitiger Beziehung stehen, wobei das Schema der Datenablage Klassen enthält, die durch zielgerichtete Assoziationen, mit denen die Informationsgegenstände assoziiert sind, in gegenseitiger Beziehung stehen, und wobei das Schema der mehrdimensionalen Datenbank und das Schema der Datenablage durch Mapping-Assoziationen miteinander verbunden sind, wobei jede Mapping-Assoziation ein Element des Schemas der mehrdimensionalen Datenbank mit einer Klasse des Schemas der Datenablage verbindet,

wobei das Verfahren folgende Schritte aufweist:

a) Identifizieren von Elementen des Schemas der mehrdimensionalen Datenbank, die einen gegebenen Mehrdimensionaldatenbank-Bericht definieren,

b) Definieren einer Graph-Struktur zwischen den Elementen des Schemas der mehrdimensionalen Datenbank und assoziierten Klassen des Schemas der Datenablage mittels der Mapping-Assoziationen,

c) Finden mindestens eines Pfads in der Graph-Struktur zwischen einem gegebenen Element und Klassen des Schemas der Datenablage mittels einer Strukturanalyse,

d) Evaluieren der Relevanz einer Klasse des Schemas der Datenablage für das gegebene Element durch Bestimmen (i) der Länge eines Pfads oder von Pfaden zwischen dem gegebenen Element und der Klasse oder den Klassen gemäß einer Längen-Maßgabe, und (ii) der Anzahl von Pfaden zwischen dem gegebenen Element und seiner assoziierten Klassen oder Klassen, wobei (i) je kleiner die Länge, desto größer die Relevanz ist, und (ii) je mehr Pfade existieren, desto größer die Relevanz ist,

e) Evaluieren der Relevanz der Informationsgegenstände für die Klasse oder Klassen mittels einer syntaktischen Analyse der Textteile der Informationsgegenstände,

f) Kumulieren und Normalisieren der Relevanz-Bestimmungen gemäß der strukturellen und der syntaktischen Analyse der Schritte d) und e), und

g) Ausgeben einer Liste der am meisten relevanten annotierten Informationsgegenstände und ihrer Relevanzwerte.
Verfahren nach Anspruch 1, bei dem der Schritt f) auf der Basis einer gewichteten Kombination der in den Schritten d) und e) bestimmten Relevanzwerte durchgeführt wird, wobei die Wichtungsfaktoren wählbar sind. Verfahren nach Anspruch 1 oder 2, bei dem der Schritt b) im Voraus durchgeführt wird, um die Graph-Struktur zu bestimmen, und um die vorbestimmte Graph-Struktur zu speichern. Verfahren nach einem der Ansprüche 1 bis 3, bei dem der Schritt c) im Voraus durchgeführt wird, um sämtliche existierenden Pfade zwischen sämtlichen Elementen bzw. sämtlichen Klassen zu finden, und um diese vorbestimmten Pfade zu speichern. Verfahren nach einem der Ansprüche 1 bis 4, bei dem der Schritt e) im Voraus durchgeführt wird, um die Relevanz sämtlicher Informationsgegenstände für jeweils sämtliche Klassen zu evaluieren, und um diese evaluierten Relevanzen zu speichern.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com