PatentDe  


Dokumentenidentifikation DE60033733T2 06.12.2007
EP-Veröffentlichungsnummer 0001058236
Titel Datenbankabfragesystem basierend auf Spracherkennung
Anmelder Nippon Telegraph and Telephone Corp., Tokio/Tokyo, JP
Erfinder Ohmori, Kumiko, Shinjuku-ku, Tokyo, JP;
Higashida, Masanobu, Shinjuku-ku, Tokyo, JP;
Mizusawa, Noriko, Shinjuku-ku, Tokyo, JP
Vertreter HOFFMANN & EITLE, 81925 München
DE-Aktenzeichen 60033733
Vertragsstaaten DE, FR, GB, IT
Sprache des Dokument EN
EP-Anmeldetag 30.05.2000
EP-Aktenzeichen 001110121
EP-Offenlegungsdatum 06.12.2000
EP date of grant 07.03.2007
Veröffentlichungstag im Patentblatt 06.12.2007
IPC-Hauptklasse G10L 15/22(2006.01)A, F, I, 20051017, B, H, EP
IPC-Nebenklasse G10L 15/28(2006.01)A, L, I, 20051017, B, H, EP   

Beschreibung[de]

Die vorliegende Erfindung bezieht sich auf ein spracherkennunsbasiertes interaktives Informationsabfrageschema, das darauf abzielt, vom Anwender beabsichtigte Information über ein Sprachdialog mit dem Anwender abzufragen.

BESCHREIBUNG DER HINTERGRUNDTECHNIK

In Andreas Kellner et al, „Strategies for Name Recognition in Automatic Directory Assistance Systems", XP-00226-4883, ist eine Erkennung einer großen Anzahl von unterschiedlichen Namen gemäß automatischen Verzeichnisassistenzdiensten und Anwendungen für gesprochene Sprachedialogsysteme beschrieben. Es wird eine Methode des stochastischen Kombinierens von N-Besten Listen untersucht, die von mehreren Anwenderäußerungen abgefragt werden, mit der Telefondatenbank als eine zusätzliche Wissensquelle.

Ferner ist in Dokument EP-A-0 865 014 ein Prozess und eine Vorrichtung beschrieben für die verbale Echtzeit Angabe einer Zieladresse eines Zieladresssystems. Die Sprachaussagen, die von einem Anwender eingegeben werden, werden über eine Spracherkennungsvorrichtung erkannt und gemäß deren Erkennungswahrscheinlichkeit klassifiziert.

Die Sprachaussage mit der größten Erkennungswahrscheinlichkeit wird als die Spracheingabeaussage identifiziert, wobei mindestens eine Sprachaussage ein zulässiger Sprachbefehl ist, der das Arbeiten der Funktionen des Navigationssystems aktiviert, das mit dem Sprachbefehl verbunden ist. Hierbei umfasst mindestens eine Arbeitsfunktion des Navigationssystems einen Eingabedialog. Nach der Aktivierung dieser Arbeitsfunktion wird in Abhängigkeit des Eingabedialogs mindestens ein Lexikon in Echtzeit von der zulässigen Sprachaussage erzeugt, die in mindestens einer Datenbank gespeichert ist, und das erzeugte Lexikon wird als Vokabular in die Spracherkennungsvorrichtung geladen.

Im Allgemeinen ist eine computerbasierte Spracherkennungsbearbeitung eine Bearbeitung zum Abgleichen einer Spracheingabe des Anwenders mit einer Erkennungszieldatenbank und eine Berechnung einer Ähnlichkeit der Spracheingabe mit Bezug auf jedes Wort in der Datenbank als eine Erkennungswahrscheinlichkeit. Die momentane Erkennungstechnologie weist eine Begrenzung der Anzahl der Erkennungszielwörter auf, für die das Erkennungsergebnis innerhalb einer Real-Dialogbearbeitungszeit innerhalb einer Real-Dialogbearbeitungszeit ausgegeben werden kann, und es wird ein beträchtlicher Zeitvertrag benötigt, bis eine Antwort bzw. Reaktion dem Anwender erwidert wird, wenn die Anzahl der Erkennungszielwörter diese Grenze übersteigt. Auch ist eine Erniedrigung der Erkennungsgenauigkeit aufgrund einer Erhöhung der Erkennungszielwörter unvermeidbar. Darüber hinaus ist die Erkennungsgenauigkeit stark abhängig von der Sprachäußerungsumgebung des Sprechers, und eine Erniedrigung der Erkennungsgenauigkeit aufgrund von Umgebungslärm oder einer Erniedrigung der Erkennungsgenauigkeit aufgrund von Unvollständigkeit der Spracheingabe, die von einem Sprecher geäußert wird, kann auftreten selbst in dem Fall, in dem eine Erkennungsvorrichtung eine hohe Leistungsfähigkeit und Genauigkeit aufweist, so dass es keine Garantie dafür gibt, immer eine 100% Genauigkeit zu erreichen.

Das konventionelle spracherkennungsbasierte interaktive Informationsabfragesystem führt die Erkennungsbearbeitung durch unter Verwendung einer Spracherkennungsvorrichtung mit Bezug auf der Spracheingabe eines Anwenders, lässt einen Anwender warten, bis die Bearbeitung beendet ist, und präsentiert dem Anwender sequentiell in einer absteigenden Folge der Erkennungswahrscheinlichkeit Kandidaten, die als ein Erkennungsergebnis erhalten werden, durch Wiederholen der Präsentation der Kandidaten, bis ein Korrekter von dem Anwender bestätigt wird.

In dem Fall des Verwendens der Sprache als Schnittstelle für den Informationsbereitstellungsdienst sind andererseits Echtzeitleistungsfähigkeit und die Genauigkeit von Nöten. Wenn es viele Erkennungszielwörter gibt, wird die Zielinformation klassifiziert durch einen Attributbaum, der gebildet ist durch eine Vielzahl von hierarchischen Niveaus. Attribute mit niedrigerem Niveau weisen eine größere Wahrscheinlichkeit auf, die Anzahl der Attributwerte aufzuweisen, die die Anzahl übersteigt, die innerhalb der Real-Dialogbearbeitungszeit bearbeitet werden können. Um die von dem Anwender beabsichtigte Zielinformation zu bestimmen, gibt es einen Bedarf zum Bestimmen eines Attributwertes auf jedem Niveau, jedoch kann ein Attributwert eines höheren Niveaus automatisch bestimmt werden durch Rückverfolgen des Baums, sobald einmal ein Attributwert ein niedrigeres Niveau bestimmt ist (unter der Voraussetzung, dass der bestimmte Attributwert des niedrigeren Niveaus und der zugehörige Attributwert des niedrigeren Niveaus eine Eins-zu-Eins Entsprechung ohne eine Überlapp aufweisen). Folglich kann man erwarten, dass die Zielinformation in einer kurzen Zeit bestimmt werden kann, wenn es möglich ist, den Attributwert des niedrigeren Niveaus zuerst zu bestimmen.

Jedoch erlaubt die konventionelle Spracherkennung basierend auf einem interaktiven Informationsabfragesystem dem Anwender nicht, den Attributwert mit niedrigerem Niveau zuerst einzugeben in Anbetracht des Erkennungsfehlers und der Anzahl der Wörter, die innerhalb einer Zeit bearbeitet werden können, die nicht die Natürlichkeit des Dialogs mit dem Anwender stört. Es war nämlich notwendig, ein Verfahren zum Einschränken der Erkennungszielwörter auf eine Zahl von Daten anzupassen, die innerhalb der Real-Dialogbearbeitungszeit bearbeitet werden können, durch vorheriges Abfragen des Attributs eines höheren Niveaus, für das die Anzahl der Attributwerte klein ist, und Auffordern der Eingabe, Bestimmen des Attributwertes durch wiederholte Präsentation der Kandidaten, die erhalten werden als ein Ergebnis der Erkennung in einer abfallenden Reihenfolge der Erkennungswahrscheinlichkeit, bis der eingegebene Attributwert bestimmt werden kann, und lediglich Auswählen der Attributwerte, die zu dem bestimmten Attributwert des höheren Niveaus unter den Attributwerten des nächsten Niveaus gehören, als das nächste Erkennungsziel.

Solch ein konventionelles Verfahren kann die Erkennungszielattributwerte des nächsten Niveaus nicht eingrenzen, solange nicht der Attributwert des höheren Niveaus bestimmt ist, so dass die Präsentation der Kandidaten für den Anwender wiederholt wird, bis der Attributwert des höheren Niveaus bestimmt ist. Jedoch wird in diesem konventionellen Verfahren ein Prozess, der die Attributwerteingabeaufforderung beinhaltet, die Kandidatenpräsentation und Bestätigung, bis der Attributwert jedes Attribut bestimmt ist, und das Eingrenzen des Attributwertes des nächsten Niveaus nach der Bestimmung des Attributwertes so oft wiederholt werden müssen wie die Anzahl der involvierten hierarchischen Niveaus, um die Zielinformation zu bestimmen, und diese Anzahl der Wiederholungen ist größer für Zielinformation, die tiefere hierarchische Attributniveaus aufweist, so dass es schwierig war, die Zielinformation effizient zu bestimmen.

In einem System zum Bestimmen einer Zielinformation von einer Informationsdatenbank, die die Anzahl von Wörtern umfasst, die die Anzahl übersteigt, die innerhalb der Real-Dialogbearbeitungszeit überarbeitet werden können, um den Attributwert (eines niedrigeren Niveaus) zu bestimmen, von der die Zielinformation bestimmt werden kann, wird der Anwender während der Erkennungsbearbeitung und des Bestätigungsprozesses zum sequentiellen Präsentieren des Erkennungsergebnisses warten gelassen. Wenn es jedoch schwierig ist, den korrekten Attributwert aufgrund von Erkennungsfehlern problemlos zu erkennen, ist es notwendig, den Bestätigungsprozess viele Male zu wiederholen trotz der Tatsache, dass der Anwender bereits wartengelassen wurde, und dies führte dazu, dass der Dialog unnatürlich wird, und der Anwender einem großen Stress ausgesetzt wird.

Folglich ist es in dem aktuellen System basierend auf aktueller Spracherkennungstechnologie nicht möglich, die Eingabe des Anwenders startend von dem niedrigeren Niveauattributwert zu ermöglichen, so dass eine angemessen genaue Antwort zurückgegeben werden kann, ohne dass der Anwender einige Zeit warten muss, und es ist notwendig vom Anwender zu verlangen, die Eingabe sequentiell von dem Attributwert des höheren Niveaus sequentiell durchzuführen, und die Attributwertbestimmung zu wiederholen. Die Erkennungszielwörter des niedrigeren Niveaus müssen eingegrenzt werden durch Bestimmen des Attributwerts des höheren Niveaus, so dass der Dialog nicht fortschreiten kann, bis der Attributwert des höheren Niveaus bestimmt ist. Mit anderen Worten gibt es einen Bedarf für den Bestätigungsprozess bis es möglich wird, den eingegebenen Attributwert auf jedem Niveau zu bestimmen.

Wenn es möglich ist, den Attributwert des niedrigeren Niveaus zuerst zu bestimmen, kann der Attributwert des höheren Niveaus automatisch bestimmt werden, so dass die Zielinformation effizient bestimmt werden kann, und in Anbetracht dieser Tatsache ist der aktuelle Prozess zum Wiederholen der Abfrage, die Bestimmung und der Bestätigungsprozess, bis die Bestimmung mit Bezug auf jede Abfrage sequentiell von dem höheren Niveau durchgeführt wird, sehr umwegig oder umständlich für den Anwender.

Im Genaueren wird der Anwender gezwungen, die Eingabe des höheren Niveaus einzugeben, da die Eingabe des niedrigeren Niveaus nicht erlaubt ist, die Präsentation und der Bestätigungsprozess müssen wiederholten werden, wenn es nicht möglich ist einen korrekten Attributwert als einen Topkandidaten aufgrund von Erkennungsfehlern zu erhalten, und die Attributwerteingabe und der Bestätigungsprozess müssen so oft wiederholten werden wie die Anzahl der involvierten hierarchischen Niveaus, bis die Zielinformation bestimmt ist (der Attributwert mit dem niedrigsten Niveau wird bestimmt), selbst nach Bestimmen jeder Eingabe durch mehrere Versuche der Präsentation und des Bestätigungsprozesses. Obwohl dies unentbehrliche Prozesse für das System sind, erscheinen diese für den Anwender als sehr umständliche und überflüssige Prozesse, der wiederum natürliche und kurze Dialoge bevorzugt, und dies führt zu einem großen Stress für den Anwender.

Ein Verfahren zum Bestimmen der Zielinformation, während der Stress für den Anwender reduziert wird, das die Eingabe des Anwenders von dem Attributwert des niedrigen Niveaus ermöglicht, kann in Betracht gezogen werden, jedoch setzt dies die Bestimmung des Attributwertes voraus, dass die Anzahl von Erkennungszielwörtern aufweist, die die Anzahl übersteigt, die innerhalb der Real-Dialogbearbeitungszeit bearbeitet werden können.

In der computerbasierten Spracherkennungsbearbeitung ist die Erkennung von Sprachen durch nicht spezifizierte Sprecher oder Sprachen, die mit einer nicht gleichmäßigen Äußerungsgeschwindigkeit geäußert werden, besonders schwierig, und zusätzlich kann die Verschlechterung der Sprachqualität aufgrund von Umgebungsgeräuschen oder dergleichen eine 100% Spracherkennungsgenauigkeit unmöglich machen, so dass die sofortige Bestimmung eines Sprachabfrageschlüssels, der als die Spracheingabe des Anwenders eingegeben wird, schwierig ist.

Um natürliche Dialoge mit dem Anwender zu ermöglichen, ist es in dem spracherkennungsbasierten interaktiven Informationsabfragesystem eine Voraussetzung für das System, eine Antwort bzw. Reaktion auf die Eingabe des Anwenders in Echtzeit zurückzugeben, die nicht für einen menschlichen Sinn unnatürlich erscheint. Jedoch gibt es eine Grenze der Anzahl der Wörter, die innerhalb einer vorgegebenen Zeitperiode spracherkennungsbearbeitet werden können. Wenn das Erkennungsziel eine Groß-Datenbank ist, die die Anzahl von Wörtern umfasst, die nicht innerhalb einer vorbestimmten Zeitperiode bearbeitet werden können, ist es aus diesem Grund schwierig, die gestellte Aufgabe zu erreichen, die durch den Anwender angefordert wurde, innerhalb einer vorbestimmten Zeitperiode durch natürliche Dialoge zwischen dem Anwender und dem System, ohne dabei den Anwender die Bearbeitungszeit bewusst zu machen, die für die Informationsabfrage zu einer Zeit der Spracherkennungsbearbeitung durch das System benötigt wird, wie auch die Unvollständigkeit der Spracherkennungsgenauigkeit durch das System.

Folglich ist es notwendig, den Anwender warten zu lassen, während das System das Erkennungsbearbeitungsergebnis ausgibt, und wenn sich das präsentierte Ergebnis der Erkennungsfehler herausstellt, ist es notwendig den Anwender weiter warten zu lassen, bis ein anderes Erkennungsergebnis präsentiert ist, so dass es schwierig ist, ein System zu konstruieren, das Sprache als Eingangsschnittstelle verwendet, das sowohl Schnelligkeit als auch Genauigkeit äquivalent zu einem auf einen menschlichen Betreiber basierenden System aufweist, gemäß der aktuellen Spracherkennungstechnologie.

In dem konventionellen Abfrageverfahren, das auf die Bestimmung des Abfrageschlüssels zielt, der durch den Anwender angefordert wird mit Bezug auf eine Groß-Datenbank, die nicht in Echtzeit bearbeitet werden kann wegen der Begrenzung der Anzahl von Daten, die in Echtzeit spracherkennungsbearbeitet werden können, wird der Anwender auch dazu gedrängt, einen Abfrageassistentenschlüssel einzugeben, der zu einer Eingrenzung der Abfrageschlüsselkandidaten führen kann, so dass die Erkennungsziele reduziert werden können von der gesamten Größe der Datenbank zu einer Anzahl von Daten, die in Echtzeit bearbeitet werden können, ohne dem Anwender es zu ermöglichen, den angeforderten Abfrageschlüssel direkt einzugeben.

Hier werden die Abfrageassistentenschlüssel ausgewählt, Daten zu sein, die durch die Anzahl von Daten gebildet sind, die in Echtzeit bearbeitet werden können, so dass jeder Abfrageschlüssel, der von dem Anwender anzufordern ist, immer einen Abfrageassistentenschlüssel als dessen Schlüssel mit höherem Niveau aufweist, wobei der Abfrageassistentenschlüssel (Schlüssel mit höherem Niveau) des anzufordernden Abfrageschlüssels für den Anwender einfach und offensichtlich ist, und Schlüssel mit niedrigerem Niveau (die Abfrageschlüssel, die von dem Anwender anzufordern sind), die zu einem Abfrageassistentenschlüssel gehören, durch die Anzahl von Daten gebildet sind, die in Echtzeit bearbeitet werden können, um die Bestimmung des Abfrageschlüssels zu ermöglichen.

Auch wird in dem konventionellen Abfrageverfahren, das auf die Bestimmung des Abfrageschlüssels zielt, der angefordert wird durch den Anwender, der die Spracheingabe verwendet, die Spracherkennungsbearbeitung mit Bezug auf den Abfrageassistentenschlüssel (Schlüssel des höheren Niveaus) als erstes ausgeführt, und die erhaltenen Abfrageassistentenschlüssel-(Schlüssel des höheren Niveaus) Kandidaten werden dem Anwender sequentiell in absteigender Reihenfolge der Erkennungswahrscheinlichkeit präsentiert, bis eine Antwort erhalten wird, die indiziert, eine richtig zu sein. Wenn der Abfrageassistentenschlüssel bestimmt ist, werden die Abfrageschlüssel-(Schlüssel mit niedrigerem Niveau) Kandidaten, die den bestimmten Abfrageassistentenschlüssel als den Schlüssel mit höherem Niveau aufweisen, als die Erkennungszieldaten extrahiert, und die Eingabe des Abfrageschlüssels (Schlüssel mit niedrigerem Niveau), den der Anwender wirklich abfragen möchte, wird dem Anwender aufgedrängt. Ähnlich wie für den Abfrageassistentenschlüssel wird der Abfrageschlüssel bestimmt durch Präsentieren der Abfrageschlüsselkandidaten, die durch die Spracherkennungsbearbeitung erhalten werden, dem Anwender in einer absteigenden Reihenfolge der Erkennungswahrscheinlichkeit, bis eine Antwort erhalten wird, die anzeigt, dass diese eine richtige ist.

Somit hat die aktuelle Spracherkennungstechnologie eine Grenze für die Anzahl der Wörter, für die der Abgleich mit der Spracherkennungsdatenbank, die Erkennungswahrscheinlichkeitsberechnung und die Erkennungsergebnisausgabe in Echtzeit ausgeführt werden können, so dass eine längere Erkennungszeit benötigt wird, wenn die Anzahl der Erkennungszielwörter erhöht wird. In dem Sprachabfragesystem, das Sprache als eine Eingabeschnittstelle verwendet, wenn das Erkennungsziel eine Großdatenbank ist, kann das Wartenlassen des Anwenders während der Spracherkennungsbearbeitung durch das System den Anwender unter Stress setzen, so dass das aktuelle System das Eingrenzen des Erkennungsziels ausführt durch Verwenden der Attributwerte der Attributpunkte, die alle Erkennungszieldaten aufweisen, um in der Lage zu sein, das Erkennungsergebnis in Echtzeit auszugeben.

Jedoch ist die aktuelle Spracherkennungstechnologie so, dass die 100%-ige Spracherkennungsgenauigkeit nicht erreicht werden kann, selbst wenn das Erkennungsziel eingegrenzt wird auf die Anzahl der Wörter, die in Echtzeit bearbeitet werden können. Im Genaueren sind die Erkennung von Sprachen durch nicht spezifizierte Sprecher, Sprachen, die mit einer nicht gleichmäßigen Äußerungsgeschwindigkeit geäußert werden, und Sprachen, die unter einer lauten Umgebung geäußert werden, im Besonderen schwierig, so dass der Bestätigungsprozess zum Bestätigen des Erkennungsergebnisses für den Anwender unentbehrlich ist, um die Eingabesprache zu bestätigen. Der Bestätigungsprozess ist ein Prozess zum sequentiellen Präsentieren der Erkennungskandidaten, die durch die Spracherkennungsbearbeitung erhalten werden, für den Anwender in einer absteigenden Reihenfolge der Erkennungswahrscheinlichkeit. Die Anzahl der Bestätigungsprozesse wird größer für die schlechtere Eingabespracherkennungsgenauigkeit. Jedoch verlangt der Anwender von der Eingabeschnittstelle, eine Handhabung aufzuweisen, die äquivalent ist mit der eines menschlichen Betreibers, so dass die wiederholten Bestätigungsprozesse den Anwender einen Stress aussetzen können.

In der aktuellen Spracherkennung, basierend auf dem interaktiven Informationsabfragesystem, das eine Großdatenbank als das Erkennungsziel verwendet, wird auf die Attributwerteingabe für den Attributpunkt gedrängt, um das Erkennungsziel auf die Anzahl zu reduzieren, die in Echtzeit bearbeitet werden können, und dann wird auf die Abfrageschlüsseleingabe von dem Anwender gedrängt, wenn das Erkennungsziel gemäß der Attributwerte eingegrenzt wird, so dass der Bestätigungsprozess benötigt wird sowohl für den Attributwert als auch den Abfrageschlüssel. Die Attributwerteingabe ist ein unentbehrlicher Prozess für die Realisierung der Echtzeiterkennungsbearbeitung von einem Standpunkt des Systems aus, jedoch ist diese für den Anwender umständlich, da der Abfrageschlüssel, den der Anwender wirklich abfragen möchte, nicht direkt eingegeben werden kann, und die Bestätigungsprozesse werden zweifach wiederholt, einmal für die Attributwertbestimmung und das andere Mal für die Abfrageschlüsselbestimmung, was dem Anwender einem weiteren Stress aussetzt.

Auch möchte das Abfragesystem, das Sprache als Eingabeschnittstelle verwendet, und eine Großdatenbank als das Erkennungs- und Abfrageziel aufweist, schnelle und genaue Antworten für den Anwender bereitstellen, so dass der Anwender eine Illusion des Dialogs mit einem menschlichen Betreiber hat, so dass es notwendig war, ein Abfrageformat anzupassen, dass zur Eingrenzung der Anzahl der Erkennungszielwörter effektiv für das System führt, so dass die Erkennungsbearbeitungszeit und die Erkennungsgenauigkeit kompensiert werden können. Ohne Ermöglichen der Eingabe des Abfrageschlüssels, den der Anwender wirklich direkt anfordern möchte, kann aus diesem Grund der Abfrageassistentenschlüssel, der zu einer Eingrenzung des Abfrageschlüssels führen kann, zuerst bestimmt werden. Jedoch wird der Anwender dazu genötigt, die Eingabe des Abfrageassistentenschlüssels als erstes einzugeben anstelle des Abfrageschlüssels, den der Anwender wirklich anfordern möchte, und wird dann dazu gedrängt, den Abfrageschlüssel lediglich nachdem der Abfrageassistentenschlüssel bestimmt ist, einzugeben, so dass dieser Prozess für den Anwender als ein überflüssiger Prozess erscheinen kann (unentbehrlicher Prozess für das System), vor der Eingabe des Abfrageschlüssels, den der Anwender wirklich anfordern möchte, was wiederum zu einem Stress für den Anwender führen kann.

ZUSAMMENFASSUNG DER ERFINDUNG

Es ist deshalb ein Ziel der vorliegenden Erfindung, ein spracherkennungsbasiertes interaktives Informationsabfrageschema bereitzustellen, das in der Lage ist, die Zielinformation durch Bestimmen der Attributwerte zu bestimmen, ohne den Anwender über die Zeit, die benötigt wird für die Spracherkennungsbearbeitung und die Abfrage, bewusst werden zu lassen, und ohne unnatürliche Dialoge aufgrund von Nichtvollständigkeit der Spracherkennungsbearbeitung mit dem Anwender entstehen zu lassen. In diesem Schema, in einem Prozess zum Bestimmen des Attributwertes, der notwendig ist zum Bestimmen der Zielinformation, kann der Erkennungszielattributwert bestimmt werden, selbst wenn die Anzahl der Attributwerte die Anzahl übersteigt, die innerhalb einer vorbestimmten Zeitperiode bearbeitet werden können, durch Verwenden eines Verfahrens zum Eingrenzen der Erkennungszielwörter, die eine Antwort zurückgeben können mit einem tolerierbaren Niveau der Genauigkeit für den Anwender, ohne dass der Anwender ein Gefühl hat, wartengelassen zu werden, und ein Verfahren zum Bestimmen der Eingabe, dass die Reduzierung des Wegfalls der Bestätigungsprozesse realisieren kann.

Es ist ein anderes Ziel der vorliegenden Erfindung, betreiberfreies spracherkennungsbasiertes interaktives Informationsabfrageschema bereitzustellen, das Sprachdialoge verwendet basierend auf der Dialogsteuerung, die in der Lage ist, den Abfrageschlüssel zu bestimmen, der durch den Anwender über natürliche Dialoge eingegeben wird. In diesem Schema kann der Abfrageschlüssel bestimmt werden unter Verwendung einer Großdatenbank, die Abfragezielwörter aufweist, die nicht innerhalb einer vorbestimmten Zeitperiode bearbeitet werden können, ohne den Anwender über die Zeit für die Spracherkennungsbearbeitung und den Datenbankabgleich bewusst werden zu lassen, und ohne unnatürliche Dialoge mit dem Anwender aufgrund der Unvollständigkeit der Spracherkennungsbearbeitung zu bewirken, so dass die Aufgabe des Bestimmens des Sprachabfrageschlüssels, der durch den Anwender eingegeben wird, in einem betreiberfreien spracherkennungsbasierten interaktiven Informationsabfragesystem realisiert werden kann, ohne den Anwender über die Wartezeiten im Klaren werden zu lassen, über Dialoge, die sowohl eine Schnelligkeit als auch eine Natürlichkeit aufweisen, die äquivalent mit denen eines auf einen menschlichen Betreiber basierten Systems sind.

Es ist ein anderes Ziel der vorliegenden Erfindung, ein spracherkennungsbasiertes interaktives Informationsabfrageschema bereitzustellen, das eine Großdatenbank als ein Erkennungsziel verwendet, das in der Lage ist, einen Abfrageschlüssel zu bestimmen, der durch die Spracheingabe eingegeben wird, während der Stress für den Anwender reduziert wird. In diesem Schema wird der Abfrageschlüssel bestimmt ohne die Attributwertbestimmung auszuführen, so dass der Bestätigungsprozess für den Zweck der Bestimmung des Attributwertes eliminiert wird und der Kreislauf aufgrund des Bestätigungsprozesses eliminiert wird, während die für die Abfrageschlüsselbestimmung benötigte Zeit verkürzt wird.

Es ist ein anderes Ziel der vorliegenden Erfindung, ein spracherkennungsbasiertes interaktives Informationsabfrageschema bereitzustellen, das in der Lage ist, die Abfrage zu realisieren, die sowohl die Geschwindigkeit als auch die Natürlichkeit in der Bestimmung des Abfrageschlüssels von einer Großdatenbank aufweist. In diesem Schema werden die Erkennung als auch die Abfrage ausgeführt, ohne den Anwender über die Wartezeit und die Unvollständigkeit der Erkennungsgenauigkeit während der Erkennung im Klaren werden zu lassen, selbst wenn der Abfrageschlüssel, den der Anwender tatsächlich anfordern möchte, direkt am Anfang eingegeben wird, durch Verwenden des Bias in den Zugangsfrequenzen der Daten in der Großdatenbank in der Abfrage, die auf die Bestimmung des Abfrageschlüssels zielt, der durch den Anwender eingegeben wird unter Verwendung der Großdatenbank als das Erkennungsziel.

Gemäß der vorliegenden Erfindung werden die oben dargestellten Ziele durch ein Verfahren der spracherkennungsbasierten interaktiven Informationsabfrage erreicht, die die Eigenschaften von Anspruch 1 aufweist, einer dazugehörigen Vorrichtung, die die Eigenschaften von Anspruch 17 aufweist, und ein zugehöriges computerverwendbares Medium, das die Eigenschaften aus Anspruch 33 aufweist.

Andere Eigenschaften und Vorteile der vorliegenden Erfindung werden durch die folgende Beschreibung in Verbindung mit den beigefügten Zeichnungen ersichtlich.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

1 ist ein Blockdiagramm, das eine exemplarische Konfiguration einer spracherkennungsbasierten interaktiven Informationsabfragevorrichtung in der ersten Ausführungsform der vorliegenden Erfindung zeigt.

2 ist ein Diagramm, das eine exemplarische Informationsdatenbank zeigt, die in der spracherkennungsbasierten interaktiven Informationsabfragevorrichtung aus 1 verwendet wird.

3 ist ein Flussdiagramm für eine Informationsbestimmungsbearbeitungsprozedur in der spracherkennungsbasierten interaktiven Informationsabfragevorrichtung aus 1.

4 ist ein Diagramm, das eine exemplarische Informationsdatenbank in einem konkreten Beispiel für ein interaktives Informationsabfrageverfahren in der ersten Ausführungsform der vorliegenden Erfindung zeigt.

5 ist ein Diagramm, das ein exemplarisches Erkennungsergebnis mit Bezug auf priorisierte Erkennungszielwörter in einem konkreten Beispiel eines interaktiven Informationsabfrageverfahrens in der ersten Ausführungsform der vorliegenden Erfindung zeigt.

6 ist ein Diagramm, das ein exemplarisches Erkennungsergebnis für ein zugehöriges Attribut (Präfektur) in einem konkreten Beispiel eines interaktiven Informationsabfrageverfahrens in der ersten Ausführungsform der vorliegenden Erfindung zeigt.

7 ist ein Diagramm, das ein exemplarisches Ergebnis des Hinzufügens eines Erkennungsergebnisses mit Bezug auf nicht priorisierte Erkennungszielwörter in einem konkreten Beispiel eines interaktiven Informationsabfrageverfahrens in der ersten Ausführungsform der vorliegenden Erfindung zeigt.

8 ist ein Diagramm, das eine exemplarische Gegenprobe von Attributwertkandidaten und zugehöriger Information in einem konkreten Beispiel eines interaktiven Informationsabfrageverfahrens in der ersten Ausführungsform der vorliegenden Erfindung zeigt.

9 ist ein Blockdiagramm, das eine exemplarische Konfiguration einer spracherkennungsbasierten interaktiven Informationsabfragevorrichtung in dem weiteren Beispiel zeigt, das nicht in Übereinstimmung mit der vorliegenden Erfindung ist.

10 ist ein Diagramm, das eine exemplarische Spracherkennungsdatenbank zeigt, die ist der spracherkennungsbasierten interaktiven Informationsabfragevorrichtung aus 9 verwendet wird.

11 ist ein Flussdiagramm für eine interaktive Informationsabfragebearbeitungsprozedur in der spracherkennungsbasierten interaktiven Informationsabfragevorrichtung aus 9.

12 ist ein Diagramm, das eine exemplarische Spracherkennungsdatenbank in einem City/Stadtbestimmungssystem zeigt, das ein konkretes Beispiel eines interaktiven Informationsabfrageverfahrens in dem weiteren Beispiel ist.

13 ist ein Diagramm, das eine exemplarische Hochfrequenzzugangsdatengruppe in einem City/Stadtbestimmungssystems zeigt, was ein konkretes Beispiel eines interaktiven Informationsabfrageverfahrens in dem weiteren Beispiel ist.

14 ist ein Diagramm, das ein exemplarisches Sprachabfrageschlüsselerkennungsergebnis in dem Fall des Bestimmens von „Yokohama" in einem City/Stadtbestimmungssystems ist, was ein konkretes Beispiel eines interaktiven Informationsabfrageverfahrens in dem weiteren Beispiel ist.

15 ist ein Diagramm, das ein exemplarisches Sprachabfrageschlüsselerkennungsergebnis in dem Fall des Bestimmens von „Yokokawa" ist, unter Verwendung einer Hochfrequenzzugangsdatengruppe als ein Erkennungsziel in einem City/Stadtbestimmungssystems, was ein konkretes Beispiel eines interaktiven Informationsabfrageverfahrens in dem weiteren Beispiel ist.

16 ist ein Diagramm, das ein exemplarisches Sprachabfrageschlüsselerkennungsergebnis in dem Fall des Bestimmens von „Yokokawa" zeigt, das Citys oder Städte in Gunma als ein Erkennungsziel in einem City/Stadtbestimmungssystems verwendet, was ein konkretes Beispiel eines interaktiven Informationsabfrageverfahrens in dem weiteren Beispiel ist.

DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN

Mit Bezug auf 1 bis 8 wird die erste Ausführungsform, die auf das oben beschriebene erste Schema der vorliegenden Erfindung gerichtet ist, detailliert beschrieben.

1 zeigt eine exemplarische Konfiguration einer spracherkennungsbasierten interaktiven Informationsabfragevorrichtung (die auch kurz bezeichnet wird als interaktive Informationsabfragevorrichtung) in der ersten Ausführungsform der vorliegenden Erfindung. Diese interaktive Informationsabfragevorrichtung 1 umfasst eine Spracheingabeeinheit 2, eine Sprachidentifizierungseinheit 3, eine Dialogsteuerungseinheit 4 und eine Sprachausgabeeinheit 5. Die Sprachidentifizierungseinheit 3 umfasst ferner eine Spracherkennungseinheit 3-1 und eine Spracherkennungsergebnis-Ausgabeeinheit 3-2. Die Dialogsteuerungseinheit 4 umfasst ferner eine Ergebnisanpassungseinheit 4-1, eine Dialogführungseinheit 4-2 und eine Abfrage- und Antworterzeugungseinheit 4-3. Die Sprachidentifizierungseinheit 3 verwendet eine Spracherkennungsvorrichtung 6, und die Sprachausgabeeinheit 5 verwendet eine Sprachausgabevorrichtung 8. Die Spracherkennungsbearbeitung für die eingegebene Sprache bei der Sprachidentifizierungseinheit 3 und die Ergebnisanpassungseinheit 4-1 und die Dialogführungseinheit 4-2 der Dialogsteuerungseinheit 4 verwenden eine Systemdatenbank 7. Die Systemdatenbank 7 umfasst eine Informationsdatenbank 7-1, die Zielinformation aufzeichnet, die durch den Anwender beabsichtigt ist, und eine Vorlagendatenbank vom JA/NEIN Typ 7-2.

2 zeigt einen exemplarischen Überblick über die Informationsdatenbank 7-1, die eine Vielzahl von Attributen und deren Attributwerte in Form eines Satzes von Attributdatenbanken für entsprechende Attribute umfasst, wobei unterschiedliche Attribute unterschiedliche Anzahlen von Attributwerten aufweisen dürfen. Die interaktive Informationsabfragevorrichtung 1 definiert Wichtigkeitsniveaus gemäß statistische Information, so wie Zugangsfrequenzen mit Bezug auf Attributwertkandidaten für jedes Attribut, und wählt eine vorbestimmte Anzahl von Attributwerten aus, von denen ausgegangen wird, dass diese in der Lage sind, spracherkennungsbearbeitet zu werden innerhalb einer Real-Dialogbearbeitungszeit, in einer Reihenfolge der Wichtigkeitsniveaus als priorisierte Erkennungszielwörter. Die übrigen nicht priorisierten Erkennungszielwörter werden in Unterdivisioneneinheiten von der Anzahl der Wörter aufgezeichnet, die durch das System in Anbetracht des parallelen Ausführens der Erkennungsbearbeitung für den Dialog mit dem Anwender spezifiziert sind, so dass die Anzahl, die durch die Spracherkennungsbearbeitung in einer Real-Dialogbearbeitungszeit bearbeitet werden können, oder die Anzahl, die durch die Spracherkennungsbearbeitung in einer dazugehörigen Real-Informationsabfragedialogzeit in einer Reihenfolge der Wichtigkeitsniveaus bearbeitet werden können.

Es ist zu beachten, dass die Real-Dialogbearbeitungszeit definiert wird durch das System als eine Zeit, die benötigt wird durch den Sprachdialog mit dem Anwender, von der ausgegangen wird, dass diese keinen Stress für den Anwender bewirkt, und die den Anwender kein Gefühl der Unnatürlichkeit vermittelt.

Diese Ausführungsform wird den Fall beschreiben, in dem die interaktive Informationsabfragevorrichtung 1 den Anwender über ein Attribut abfragt, das die Anzahl von Attributwerten aufweist, die die Anzahl übersteigt, die in einer Real-Dialogbearbeitungszeit bearbeitet werden können, und die die Zielinformationsbestimmung effizient ermöglicht, durch Berücksichtigen der Präferenzen des Anwenders unter den Attributen, die die Zielinformation bilden.

3 zeigt eine Bearbeitungsprozedur für die Zielinformationsbestimmung durch die interaktive Informationsabfragevorrichtung 1 dieser Ausführungsform.

Wenn der Anwender ein Attribut aus der anzufordernden Zielinformation auswählt (Schritt S1), fordert die interaktive Informationsabfragevorrichtung 1 den Anwender auf, einen Attributwert des Attributs einzugeben (Schritt S2), und wenn ein Attributwert des angeforderten Attributs durch den Anwender bei der Spracheingabeeinheit 2 eingegeben wird, wird die Spracheingabe zu der Sprachidentifizierungseinheit 3 gesendet, wo die Prioritätserkennungsbearbeitung für die empfangene Anwendereingabe ausgeführt wird bei der Spracherkennungseinheit 3-1 unter Verwendung der Spracherkennungsvorrichtung 6 (Schritt S3). Hier wählt die Spracherkennungsvorrichtung 6 eine zu verwendende Datenbank als das Erkennungsziel von der Systemdatenbank 7 aus gemäß einer Stufe der Beareitung durch die interaktive Informationsabfragevorrichtung 1. Die Informationsdatenbank 7-1 wird nämlich für eine Attributwerteingabe oder eine Antwort zu einer zugehörigen Informationsabfrage ausgewählt, und die JA/NEIN Typ Vorlagendatenbank 7-2 wird ausgewählt für eine Anwenderantwort in dem Bestätigungsprozess. Wenn die Informationsdatenbank 7-1 genannt ist, wird die Erkennungsbearbeitung ausgeführt unter Verwendung von Attributwerten des Attributs, das ein Ziel der Abfrage in der Datenbank als die Erkennungswörter ist.

Die Spracherkennungseinheit 3-1 führt die Erkennungsbearbeitung für die Attributwerte aus, die als die priorisierten Erkennungszielwörter des angeforderten Attributs in der Informationsdatenbank 7-1 spezifiziert sind. Die Spracherkennungsergebnis-Ausgabeeinheit 3-2 erhält das Erkennungsergebnis und sendet dieses zu der Dialogsteuerungseinheit 4.

Die Ergebnisanpassungseinheit 4-1 der Dialogsteuerungseinheit 4 weist das Erkennungsergebnis für die priorisierten Erkennungszielwörter auf und sendet dieses zu der Dialogführungseinheit 4-2. Die Dialogführungseinheit 4-2 bewertet, ob das empfangene Erkennungsergebnis eine vorbestimmte Bedingung erfüllt, die in Ausdrücken der Erkennungswahrscheinlichkeit definiert ist zum Bewerten, ob der Attributwert bestimmt werden kann lediglich durch den Bestätigungsprozess mit dem Anwender, oder nicht (Schritt 54), und wenn diese Bedingung erfüllt ist, ordnet die Dialogführungseinheit 4-2 der Abfrage- und Antworterzeugungseinheit 4-3 an, den Bestätigungsprozess auszuführen. Die Abfrage- und Antworterzeugungseinheit 4-3 erzeugt dann eine Abfragenachricht für den Bestätigungsprozess und sendet diese zu der Sprachausgabeeinheit 5, und die Sprachausgabeeinheit 5 gibt die Abfragenachricht für den Bestätigungsprozess aus, während dem Anwender Kandidaten präsentiert werden, und fordert eine Antwort auf die Bestätigungsabfrage (Schritt S5).

Die Spracheingabeeinheit 2 empfängt eine Antwort von dem Anwender auf die Bestätigungsabfrage und sendet diese zu der Sprachidentifizierungseinheit 3, und die Spracherkennungseinheit 3-1 erkennt die Anwenderantwort durch Verwenden die JA/NEIN Typ Vorlagendatenbank 7-2 als das Erkennungsziel und sendet das Erkennungsziel zu der Dialogsteuerungseinheit 4 (Schritt S6).

Die Ergebnisanpassungseinheit 4-1 sendet das empfangene Erkennungsergebnis zu der Dialogführungseinheit 4-2, und die Dialogführungseinheit 4-2 bewertet, ob die Anwenderantwort eine Bestätigung bezeichnet oder nicht (Schritt S7). Wenn die eine Antwort bezeichnende Bestätigung erhalten ist, ordnet die Dialogführungseinheit 4-2 der Abfrage- und Antworterzeugungseinheit 4-3 an, eine Antwortnachricht zu erzeugen, um den Attributwertbestimmungserfolg anzuzeigen, und diese Antwortnachricht wird von der Sprachausgabeeinheit 5 ausgegeben, und der Attributwert ist bestimmt (Schritt S8). Wenn es ein anderes Attribut gibt, das bestimmt werden muss, um die Zielinformation zu bestätigen, wird die gleiche Bearbeitung wiederholt, und dann wird die Zielinformation bestätigt.

Andererseits, wenn die Negierung indizierende Antwort mit Bezug auf die Bestätigungsabfrage erhalten wird (Schritt S7, NEIN), oder wenn die vorbestimmte Bedingung zum Bewerten, dass der Attributwert bestimmt werden kann, lediglich durch den Bestätigungsprozess mit dem Anwender nicht erfüllt ist (Schritt S4 NEIN), bestimmt die Dialogführungseinheit 4-2, dass die zugehörige Informationsabfrage ausgeführt wird, und wählt ein abzufragendes Attribut als die zugehörige Information von der Informationsdatenbank 7-1 in der Systemdatenbank 7 aus (Schritt S9). Die Abfrage- und Antworterzeugungseinheit 4-3 erzeugt eine Abfragenachricht zum Abfragen der ausgewählten zugehörigen Information und sendet diese zu der Sprachausgabeeinheit 5, um den Anwender aufzufordern, einen Attributwert einzugeben (Schritt S10).

Wenn bestimmt ist, die zugehörige Informationsabfrage auszuführen, ordnet die Dialogführungseinheit 4-2 auch der Sprachidentifizierungseinheit 3 an, die Erkennungsbearbeitung für die Sätze der verbleibenden nicht priorisierten Erkennungszielwörter auszuführen, die in Einheiten der Zahl unterteilt sind, die durch das System spezifiziert sind, und die Spracherkennungseinheit 3-1 startet die Erkennungsbearbeitung für jeden Satz von nicht priorisierten Erkennungszielwörtern (Schritt S11). Die Spracherkennungsergebnis-Ausgabeeinheit 3-2 sendet das Erkennungsergebnis für jeden Satz der nicht priorisierten Erkennungszielwörter, wenn immer dieses erhalten wird, zu der Dialogsteuerungseinheit 4, wo dieses hinzugefügt wird zu dem Erkennungsergebnis für die priorisierten Erkennungszielwörter, die in der Ergebnisanpassungseinheit 4-1 bereitgehalten werden.

Während die Erkennungsbearbeitung für die nicht priorisierten Erkennungszielwörter im Inneren der interaktiven Informationsabfragevorrichtung 1 durchgeführt wird, wird die Abfragenachricht zum Abfragen der zugehörigen Information von der Sprachausgabeneinheit 5 an den Anwender ausgegeben. Die Spracheingabeneinheit 2 empfängt eine Anwenderantwort auf die zugehörige Informationsabfrage und sendet diese zu der Sprachidentifizierungseinheit 3, die dann die Prioritätserkennungsbearbeitung für diese Anwenderantwort ausführt (Schritt S12).

Die vorbestimmte Anzahl von Attributwerten, die einen Satz von nicht priorisierten Erkennungszielwörter bildet, wird so definiert, dass die Erkennungsbearbeitung bereits zumindest für den ersten Satz an diesem Punkt beendet ist (umfassend die vorbestimmte Anzahl von Attributwerten).

Die Sprachidentifizierungseinheit 3 prüft den Fortschritt der zugehörigen Informationsabfrage, wenn immer die Erkennungsbearbeitung für einen Satz beendet ist, während die Erkennungsbearbeitung für die nicht priorisierten Erkennungszielwörter. Wenn der Dialog für die zugehörige Informationsabfrage fortfährt, wird das Erkennungsergebnis für den Satz der nicht priorisierten Erkennungszielwörter zu der Dialogsteuerungseinheit 4 gesendet und zu dem Erkennungsergebnis für diese Attributwerte hinzugefügt, für die die Erkennung soweit beendet ist, die in der Ergebnisanpassungseinheit 4-1 enthalten sind. Hier werden die Erkennungsbearbeitung und das Hinzufügen des Erkennungsergebnisses für so viele Sätze von nicht priorisierten Erkennungszielwörter wie möglich ausgeführt, bis die Antwort auf die zugehörige Informationsabfrage von der Spracheingabeeinheit 2 gesendet wird.

Wenn die Anwenderantwort auf die zugehörige Informationsabfrage bei der Sprachidentifizierungseinheit 3 empfangen wird, startet die Spracherkennungseinheit 3-1 die Erkennungsbearbeitung für die zugehörige Information (Attributwert) als das Erkennungsziel unter Verwendung der Informationsdatenbank 7-1 der Systemdatenbank 7. Die Spracherkennungsergebnis-Ausgabeeinheit 3-2 sendet das Erkennungsergebnis für die Antwort zu der zugehörigen Informationsabfrage zu der Dialogsteuerungseinheit 4.

Die Ergebnisanpassungseinheit 4-1 der Dialogsteuerungseinheit 4 prüft das empfangene Erkennungsergebnis für die zugehörige Information gegen, und das Erkennungsergebnis für die Attributwerte, für die die Erkennungsergebnisse bis zu diesem Punkt erhalten wurden, wurden hinzugefügt (Schritt S13). Zu einer Zeit des Gegenprüfens wird die Wahrscheinlichkeit jedes Attributwertkandidaten, der ein Korrekter sein soll, erneut berechnet durch Anwenden einer geeigneten Operation der Erkennungswahrscheinlichkeit jedes Attributwertkandidaten.

Die Dialogführungseinheit 4-2 bewertet, ob die vorbestimmte Bedingung zum Bewerten, das der Attributwert bestimmt werden kann lediglich durch den Bestätigungsprozess mit dem Anwender gemäß der neu berechneten Wahrscheinlichkeit (Schritt S14), und ordnet der Abfrage und Antworterzeugungseinheit 4-3 an, die Kandidatenpräsentation und die Bestätigungsabfrage (Schritt S5) oder weitere zugehörige Informationsabfrage (Schritt S9) in Abhängigkeit von dem Bewertungsergebnis auszuführen. Wenn die Präsentation des gegen geprüften Ergebnisses negiert wird, wird die zugehörige Informationsabfrage auch ausgeführt. Während der Erkennungsbearbeitung für die Antwort auf die zugehörige Informationsabfrage wird die Erkennungsbearbeitung für den Satz der nicht priorisierten Erkennungszielwörter ausgesetzt.

Wenn es einen verbleibenden Satz von nicht priorisierten Erkennungszielwörtern gibt, die noch nicht erkennungsbearbeitet wurden, wird die Erkennungsbearbeitung und das Ergebnis hinzufügen für den verbleibenden Satz fortgeführt, wenn bestimmt ist, die zugehörige Informationsabfrage durchzuführen. Hier wird jedoch zu einer Zeit des Gegenprüfens des Erkennungsergebnisses für die nicht priorisierten Erkennungszielwörter bei der Ergebniseinstellungseinheit 4-1 der Dialogsteuerungseinheit 4, wenn es die zugehörige Information gibt, die bereits durch die frühere zugehörige Informationsabfrage erhalten wurde, das Erkennungsergebnis für die Attributwertkandidaten hinzugefügt, nachdem Gegenprüfen mit der bereits erhaltenen zugehörigen Information durchgeführt wurde.

Durch Wiederholen dieser Serien von Operationen bis der Attributwert bestimmt werden kann, wird die Zielinformation bestätigt.

Im Folgenden wird das interaktive Informationsabfrageverfahren dieser Ausführungsform für ein konkretes Beispiel beschrieben. Hier wird der Fall des Anwendens des interaktiven Informationsabfrageverfahrens dieser Ausführungsform auf eine Eingabeschnittstelle für „Adressbestimmungssystem" beschrieben. In diesem Beispiel ist die Zielinformation eine Adresse (in Japan).

Die Anzahl von Adresskandidaten für das gesamte Japan übersteigt die Anzahl, die in der Real-Dialogbearbeitungszeit bearbeitet werden können, so dass die zu verwendende Informationsdatenbank in der Adressbestimmung hierarchisch strukturiert ist, so dass die Präfekturen (47 Attributwerte), Citys oder Städte in den Präfekturen (4100 Attributwerte) und Abschnitte in den Citys oder Städten (180000 Attributwerte) als die Attribute verwendet werden, die die Adresse bilden, durch Einstellen der Präfekturen auf das höchste Niveau, der Citys oder Städte auf das nächste Niveau und der Abschnitte auf das niedrigste Niveau. Ein Beispiel der zu verwendenden Informationsdatenbank in der Adressbestimmung ist in 4 gezeigt.

Die aktuelle Spracherkennungstechnologie ist so, dass es unmöglich ist, die Erkennungsbearbeitung für 4100 Kandidaten für die Citys oder Städte und 180000 Kandidaten für die Abschnitte in der Real-Dialogbearbeitungszeit zu komplettieren. Aus diesem Grund hat das konventionelle Verfahren keine Wahl, sondern muss ein Verfahren anpassen, in dem die Präfektur zuerst abgefragt wird, wobei die Bestätigung wiederholt wird, bis die Präfektur bestimmt ist, anschließend wird das Erkennungsziel begrenzt auf die Citys oder Städte in dieser Präfektur, und die City oder Stadt wird als nächstes abgefragt und bestimmt. Jedoch ist es aus der Sicht des Anwenders umständlich, sequentiell über den Namen der Präfektur abgefragt zu werden, und in dem Fall des Spezifizierens des Abschnitts ist es notwendig, die Eingabeabfrage mindestens drei Mal für die Präfektur, die City oder Stadt und den Abschnitt durchzuführen, wie auch die Wiederholung des Bestätigungsprozesses bis jede Eingabe bestimmt ist.

In diesem Beispiel wird der Fall des Spezifizierens hinauf bis zur City oder Stadt der Adresse berücksichtigt. Die interaktive Informationsabfragevorrichtung definiert die Wichtigkeitsniveaus mit Bezug auf die Citys oder Städte gemäß deren früheren Zugriffsfrequenzen, deren Größe (Bevölkerung), etc., und wählt Top 100 Citys oder Städte aus, von denen erwartet oder ausgegangen wird, dass diese in der Real-Dialogbearbeitungszeit bearbeitet werden können, als die Prioritätserkennungszielwörter.

Dann wird von dem Anwender die Eingabe des Namens der City oder der Stadt gefordert. Gemäß dem Erkennungsergebnis für die City oder Stadt wird bewertet, ob die City oder Stadt bestimmt werden kann lediglich durch den Bestätigungsprozess mit dem Anwender. In diesem Fall wird die Bewertung durchgeführt gemäß der Anzahl der Abfrageschlüsselkandidaten, die die Erkennungswahrscheinlichkeit aufweisen, die größer ist als eine vorbestimmte Grenze, die erhalten wird durch Vergleichen der Erkennungswahrscheinlichkeit und der vorbestimmten Grenze. Wenn die Anzahl der Abfrageschlüsselkandidaten, die die Erkennungswahrscheinlichkeit aufweisen, die größer ist als die vorbestimmte Grenze, größer oder gleich 2 aber nicht 0 ist, wird bewertetet, dass der Abfrageschlüssel lediglich bestimmt werden kann durch den Bestätigungsprozess, so dass der Bestätigungsprozess durch Präsentieren der Kandidaten ausgeführt wird. Wenn die Anzahl der Kandidaten, die die Erkennungswahrscheinlichkeit aufweisen, die größer als die vorbestimmte Grenze sind, 0 oder größer als 2 ist, wird die zugehörige Informationsabfrage ausgeführt.

Die übrigen 4000 nicht priorisierten Erkennungszielwörter werden in 8 Sätze von jeweils 500 in einer Reihenfolge der Wichtigkeitsniveaus aufgeteilt gemäß der spezifizierten Dialogzeit, die benötigt wird für die zugehörige Informationsabfrage. In diesem Beispiel wird die Erkennungsbearbeitung und das Ergebnishinzufügen ausgeführt durch Verwenden der Dialogzeit, während der die Abfrageschlüsselbestimmung, die zu der Abfrage gehört, ausgeführt wird. Hier ist es möglich davon auszugehen, dass die Erkennungswahrscheinlichkeit für 2000 Kandidaten (4 Sätze) in einer zugehörigen Informationsabfrage-Dialogzeit komplettiert werden kann.

Nun wird der Fall des Bestätigens der Anwendereingabe „Chigasaki, Kanagawa" beschrieben. Der Anwender gibt den Namen der City „Chigasaki" der Adresse ein, die der Anwender anfordern möchte. Unter der Annahme, dass das Wichtigkeitsniveau von Chigasaki das 500ste von oben ist, ist Chigasaki nicht in den priorisierten Erkennungszielwörtern enthalten.

Wenn der Sprachabfrageschlüssel von „Chigasaki" von der Spracheingabeeinheit 2 eingegeben wird, führt die Spracherkennungseinheit 3-1 der Sprachidentifizierungseinheit 3 die Spracherkennungsbearbeitung mit Bezug auf die 100 priorisierten Erkennungszielwörter (Citys oder Städte) in der Informationsdatenbank 7-1 aus.

Die Spracherkennungsergebnis-Ausgabeeinheit 3-2 sendet das Erkennungsergebnis für die priorisierten Erkennungszielwörter zu der Dialogsteuerungseinheit 4. Ein Beispiel des Erkennungsergebnisses ist in 5 gezeigt. Die Ergebnisanpassungseinheit 4-1 stellt dieses Erkennungsergebnis bereit und sendet dieses zu der Dialogführungseinheit 4-2. Die Dialogführungseinheit 4-2 vergleicht die berechnete Erkennungswahrscheinlichkeit mit der vorbestimmten Grenze für die 100 Citys oder Städte, die die priorisierten Erkennungszielwörter sind. In diesem Beispiel wird für die vorbestimmte Grenze 1000 angenommen. Wie aus 5 ersichtlich, gibt es keine City- oder Stadtkandidaten, die eine Erkennungswahrscheinlichkeit aufweisen, die größer ist als die vorbestimmte Grenze in diesem Fall.

Folglich bestimmt die Dialogführungseinheit 4-2, dass die zugehörige Informationsabfrage auszuführen ist, und wählt das zu verwendende Attribut als die zugehörige Information von der Informationsdatenbank 7-1 aus. In diesem Beispiel wird die hierarchisch benachbarte Präfektur als das Attribut ausgewählt. Wenn bestimmt ist, dass die zugehörige Informationsabfrage auszuführen ist, startet die Spracherkennungseinheit 3-1 die Erkennungsbearbeitung für die verbleibenden nicht priorisierten Erkennungszielwörter. Hier wird die Erkennungsbearbeitung ausgeführt für jeden Satz von 500 Citys oder Städten, die die nicht priorisierten Erkennungszielwörter sind. Die Spracherkennungsergebnis-Ausgabeeinheit 3-2 sendet das Erkennungsergebnis für jeden Satz von 500 Citys oder Städten zu der Ergebnisanpassungseinheit 4-1 der Dialogsteuerungseinheit 4 und fügt dieses zu dem Erkennungsergebnis für die 100 Citys oder Städte hinzu, die die pirorisierten Erkennungszielwörter sind. In diesem Beispiel wird der Name der Präfektur abgefragt als die zugehörige Informationsabfrage, und von der Erkennungsbearbeitung für 2000 Kandidaten (4 Sätze) wird angenommen, dass diese komplettiert wird bis die Antwort des Anwenders „Kanakawa" eingegeben wird. Ein exemplarisches Ergebnis, das erhalten wird durch Hinzufügen des Erkennungsergebnisses für 4 Sätze der nicht priorisierten Erkennungszielwörter ist in 6 gezeigt.

Die Dialogführungseinheit 4-2 ordnet dann der Abfrage- und Antworterzeugungseinheit 4-3 an, die zugehörige Informationsabfrage zum Abfragen des Namens der Präfektur zu erzeugen, und die Abfragenachricht wird von der Sprachausgabeeinheit 5 ausgegeben.

Wenn die Antwort des Anwenders „Kanakawa" von der Spracheingabeeinheit 2 eingegeben wird, wird die Erkennungsbearbeitung für die nicht priorisierten Erkennungszielwörter ausgesetzt. In der Sprachidentifizierungseinheit 3 wird die eingegebene Präfektur bei der Spracherkennungseinheit 3-1 erkannt, und das Ergebnis wird von der Spracherkennungsergebnis-Ausgabeeinheit 3-2 zu der Ergebnisanpassungseinheit 4-1 der Dialogsteuerungseinheit 4 gesendet. Ein Beispiel des Erkennungsergebnisses für die Präfektur ist in 7 gezeigt.

Bei diesem Punkt weist die Ergebnisanpassungseinheit 4-1 das Ergebnis für 2100 Citys oder Städte auf (100 prioriserte Erkennungszielwörter + 2000 nicht priorisierte Erkennungszielwörter, die erkennungsbearbeitet werden während der zugehörigen Informationsabfrage Dialogzeit), für die die Erkennungsbearbeitung soweit komplettiert ist (6).

Die Ergebnisanpassungseinheit 4-1 bezieht sich auf die Informationsdatenbank 7-1 und prüft die Erkennungsergebnisse für die City- oder Stadtkandidaten und die Präfekturkandidaten gegen. In diesem Beispiel ist die Bearbeitung des Gegenprüfens definiert, eine Multiplikation der Erkennungswahrscheinlichkeiten der zugehörigen Attributwerte zu sein. Mit anderen Worten wird für jeden City- oder Stadtkandidaten die Präfektur, zu der dieser City- oder Stadtkandidat gehört, bewertet durch sich auf die Informationsdatenbank 7-1 beziehen, und die Erkennungswahrscheinlichkeit von diesem City- oder Stadtkandidaten wird multipliziert mit der Erkennungswahrscheinlichkeit der zugehörigen Präfektur. Das Multiplikationsergebnis wird dann als eine neue Erkennungswahrscheinlichkeit bereitgehalten. Ein exemplarisches Beispiel dieses Gegenprüfens ist in 8 gezeigt.

Wie aus dem Ergebnis der in 8 gezeigten Multiplikation ersichtlich ist, weisen die Top 2 Abfrageschlüsselkandidaten „Chigasaki, Kanagawa" und „Takamatus, Kagawa" die gegengeprüfte Wahrscheinlichkeit größer als die Grenze (1 000 000) auf. Die Dialogführungseinheit 4-2 bestimmt, dass der Bestätigungsprozess durch Präsentieren dieser zwei Kandidaten sequentiell auszuführen ist, und ordnet der Abfrage- und Antworterzeugungseinheit 4-3 an, die Bestätigungsabfragenachricht zu erzeugen. Wenn die Antwort auf die Präsentation von „Chigasaki, Kanagawa", die von der Sprachausgabeeinheit 5 ausgegeben wird, von der Spracheingabeeinheit 2 eingegeben wird, führt die Sprachidentifizierungseinheit 3 die Erkennungsbearbeitung aus unter Verwenden der JA/NEIN Typ Vorlagendatenbank 7-2 als das Erkennungsziel. Als ein Ergebnis der Erkennung wird die Antwort, die eine Bestätigung anzeigt, erhalten, so dass die Dialogführungseinheit 4-2 bewertet, dass die Ziel-City oder Stadt als „Chigasaki" bestimmt ist, und gibt eine Benachrichtigung dieser Tatsache von der Sprachausgabeeinheit 5 aus. Hier kann die Präfektur automatisch von der City oder Stadt abgeleitet werden gemäß den Beziehungen unter den Attributen in der Informationsdatenbank 7-1, so dass die Zieladresse an diesem Punkt bestätigt wird.

Gemäß dem ersten Schema der vorliegenden Erfindung, die in dieser Ausführungsform beschrieben ist, sind die Wichtigkeitsniveaus definiert mit Bezug auf die Attributwerte in der Zahl, die die Zahl übersteigt, die in der realen Dialogbearbeitungszeit bearbeitet werden können, und die Attributwerte mit den höheren Wichtigkeitsniveaus in der Zahl, die in der realen Dialogbearbeitungszeit bearbeitet werden können, werden ausgewählt, und die Prioritätserkennungsbearbeitung für diese wird ausgeführt. Auf diese Art und Weise kann die Zahl der Erkennungszielwörter scheinbar eingegrenzt werden, so dass es keinen Grund gibt, den Anwender warten zu lassen, und darüber hinaus kann das Erkennungsergebnis, das ein tolerierbares Niveau der Genauigkeit für den Anwender aufweist, als die Erkennungszielwörter erwartet werden.

In dem Fall, wo die Wichtigkeitsniveaus definiert werden gemäß der früheren Zugangsfrequenzen, wird zusätzlich die Wahrscheinlichkeit für die Eingabe des Anwenders, die der Attributwert ist, mit der im hohen Wichtigkeitsniveaus größer, wenn die Zugangsfrequenzen das größeres Bias aufweisen. In dem oben beschriebenen konkreten Beispiel ist beispielsweise im Vergleich zu dem konventionellen Verfahren, in dem es lediglich möglich ist, die Präfektur und dann die City oder Stadt in dieser Reihenfolge zu bestimmen, dem Anwender ermöglicht, die City oder Stadt von Beginn an einzugeben, und die Präfektur mit dem höheren Niveau kann auch bestimmt werden, sobald die City oder Stadt einmal bestimmt ist, so dass es möglich ist, die Abfragebearbeitung zu beenden lediglich durch die Eingabe der City oder Stadt. Auf diese Art und Weise ist es möglich zu erwarten, dass eine Reduzierung der Anzahl der Äußerungen des Anwenders und die Verkürzung der Gesamtdialogzeit erreicht werden.

Selbst wenn die Eingabe des Anwenders in dem nicht priorisierten Erkennungszielwort ist, kann die Erkennungsbearbeitung für die nicht priorisierten Erkennungszielwörter ausgeführt werden durch Verwenden der zugehörigen Informationsabfragedialogzeit, wobei das erhaltene Erkennungsergebnis hinzugefügt wird zu dem bereits erhaltenen Erkennungsergebnis, und die Attributwertkandidaten werden eingegrenzt gemäß der Relevanz mit Bezug auf die erhaltene zugehörige Information, so dass es möglich wird, die Erkennungsbearbeitung für die Attributwerte auszuführen in der Zahl, die die Zahl übersteigt, die in der Real-Bearbeitungszeit bearbeitet werden können, und die Unvollständigkeit der Spracherkennungsgenauigkeit zu kompensieren, ohne dass diese dem Anwender bewusst wird. Im Vergleich zum konventionellen Verfahren, in dem der Bestätigungsprozess wiederholt wird bis der Korrekte bestimmt ist, wird die zugehörige Informationsabfrage ausgeführt, so dass es so erscheint, dass der Attributwert bestimmt ist über die natürlichen Dialoge vom Blickpunkt des Anwenders aus, und es wird auch möglich, dem Anwender zu erlauben, den Attributwert direkt einzugeben, der anscheinend geeigneter ist zum effizienten Bestimmen der Zielinformation vom Blickpunkt des Anwenders aus (der Attributwert ist mehr in Übereinstimmung mit der Präferenz des Anwenders).

In dem oben beschriebenen konkreten Beispiel wurde der Fall des Bestimmens der Adresse der City oder Stadt beschrieben, aber in dem Fall des Spezifizierens des Abschnitts ist es möglich den Abschnitt von 180000 Abschnitts-Kandidaten zu bestimmen durch Ausführen der ähnlichen Dialogbearbeitung unter Verwenden der Präfektur und der City oder Stadt als die zugehörige Information und der Abschnitte als die Erkennungszielattributwerte.

Zusätzlich ist es auch möglich, die Spracheingabe der Attributwerte für mehrere Attribute zu verwenden durch Auswählen der priorisierten Erkennungszielwörter über mehrere Attribute (Niveaus) von der gesamten Informationsdatenbank, ohne sich auf ein spezifisches Attribut zu begrenzen. Durch Definieren der Wichtigkeitsniveaus mit Bezug auf alle Präfekturen, der Citys oder Städte und der Abschnitte, und Auswählen der priorisierten Erkennungszielwörter von allen Niveaus, wird es auf diese Art und Weise möglich, den Eingabeattributwert von allen Niveaus zu bestimmen, ohne dass das Attribut das zuerst durch den Anwender einzugeben ist, von der Systemseite aus zu spezifizieren ist. Durch Nichtspezifizieren des Attributs, das zuerst durch den Anwender einzugeben ist, von der Systemseite aus, wird es möglich die interaktive Informationsabfrage zu realisieren, die noch mehr in Übereinstimmung mit der Präferenz des Anwenders ist.

Es ist zu berücksichtigen, dass die Adressbestimmung des oben beschriebenen konkreten Beispieles verwendet werden kann für eine Adresseingabe in der Produktlieferung, der Telefonnummernsuche, oder der Postleitzahlensuche, und das interaktive Informationsabfrageverfahren dieser Ausführungsform ist einfach anwendbar auf die Ticketreservierung, die Zielortssuche durch ein globales Fahrzeug-Positionsierungs-Bestimmungssystem und der Standortsbestimmung. Zusätzlich ist dieses interaktive Informationsabfrageverfahren auch anwendbar auf die Namenssuche durch Bereitstellen einer Vielzahl von Attributen so wie der Adresse, das Geschlecht, den Beruf, das Alter, die Telefonnummer, etc. als die zugehörige Attributinformation und Verwenden dieser in geeigneter Kombination.

Nun bezugnehmend auf 9 bis 16 wird ein weiteres Beispiel, das nicht in Übereinstimmung mit der vorliegenden Erfindung ist, detailliert beschrieben.

9 zeigt eine exemplarische Konfiguration einer Spracherkennung basiert auf einer interaktiven Informationsabfragevorrichtung in dem weiteren Beispiel. Diese interaktive Informationsabfragevorrichtung 201 umfasst eine Spracheingabeeinheit 202, eine Erkennungszieldatenextraktionseinheit 203, eine Spracherkennungseinheit 204, eine Erkennungskandidatenausgabeeinheit 205 und eine Sprachausgabeeinheit 206. Die Erkennungszieldatenextraktionseinheit 203 verwendet eine Erkennungsdatenbank 207, die eine Spracherkennungsdatenbank 207-1 und eine Antwortdatenbank 207-2 umfasst. Die Spracherkennungseinheit 204 verwendet eine Spracherkennungsvorrichtung 208, und die Sprachausgabeeinheit 206 verwendet eine Sprachausgabevorrichtung 209.

10 zeigt einen exemplarischen Überblick über die Spracherkennungsdatenbank 207-1, die auf einem Aufzeichnungsmedium aufzuzeichnen ist.

Die Spracherkennungsdatenbank 207-1 ist in zwei hierarchischen Niveaus für generische Konzepte und spezifische Konzepte gebildet, wobei der von dem Anwender anzufordernde Abfrageschlüssel Daten eines niedrigeren Niveaus sind. Das höhere Niveau weist die Anzahl von Wörtern auf, die in Real-Zeit bearbeitet werden können, während das niedrigere Niveau eine große Anzahl von Wörtern aufweist, die nicht in der Real-Zeit bearbeitet werden können. Alle Daten des niedrigeren Niveaus weisen eine Abhängigkeit in Bezug auf Daten eines höheren Niveaus auf, und die Anzahl der Daten des niedrigeren Niveaus, die von Daten eines höheren Niveaus abhängen, wird auf eine Zahl eingestellt, die in Real-Zeit bearbeitet werden können. Durch Verwenden des Bias in den Zugangsfrequenzen für die große Anzahl von Daten des niedrigeren Niveaus werden so viele Daten des niedrigeren Niveaus wie die Anzahl, die in der Real-Zeit bearbeitet werden können, in einer absteigenden Reihenfolge von der Zugangsfrequenz ausgewählt, und werden mit „H" markiert, um eine Hochfrequenz-Zugangsdatengruppe zu bilden, die in einem anderen Speicher separat von den Daten des niedrigeren Niveaus, die mit „L" markiert sind, gespeichert zu werden.

In der interaktiven Informationsabfragevorrichtung 201, wenn die Sprache durch den Anwender bei der Spracheingabeeinheit 202 eingegeben wird, wird die Identifizierung von als das Erkennungsziel auszuwählenden Daten an der Erkennungszieldatenextraktionseinheit 203 gemäß der Spracheingabe ausgeführt.

11 zeigt eine Bearbeitungsprozedur dieser interaktiven Informationsabfragevorrichtung 201 in diesem Beispiel.

Wenn der Abfrageschlüssel durch den Anwender bei der Spracheingabeeinheit 202 eingegeben wird (Schritt S51), spezifiziert die Erkennungszieldatenextraktionseinheit 203 die Hochfrequenzzugangsdatengruppe als die Erkennungszieldaten unter den Daten des niedrigeren Niveaus in der Spracherkennungsdatenbank 207-1, für die die Erkennung und die Abfrage auszuführen sind mit höherer Priorität zuerst (Schritt S52).

Dann wird die Spracherkennungsbearbeitung an der Spracherkennungseinheit 204 ausgeführt (Schritt S53), und das Erkennungsergebnis wird an der Erkennungskandidatenausgabeeinheit 205 ausgegeben (Schritt S54). An diesem Punkt werden die Erkennungskandidaten ausgegeben in einer absteigenden Reihenfolge der berechneten Erkennungswahrscheinlichkeit. Die Sprachausgabeeinheit 206 gibt die Bestätigungsabfrage aus, während die ausgegebenen Abfrageschlüsselkandidaten in einer absteigenden Reihenfolge der Erkennungswahrscheinlichkeit an den Anwender ausgegeben werden (Schritt S55). Hier wird die Anzahl der Häufigkeit, wie oft die Bestätigungsabfrage ausgegeben werden kann, in dem Bestätigungsprozess im Voraus durch die interaktive Informationsabfragevorrichtung 201 spezifiziert.

Wenn eine Antwort auf die Bestätigungsabfrage von der Spracheingabeeinheit 202 eingegeben wird (Schritt S56), spezifiziert die Erkennungszieldatenextraktionseinheit 203 die Antwortdatenbank 207-2 der Erkennungsdatenbank 207 als die Erkennungszieldaten, und wenn die Antwort „Ja" an der Spracherkennungseinheit 204 und an der Erkennungskandidatenausgabeeinheit 205 erkannt wird, wird der Abfrageschlüsselbestimmungserfolg dem Anwender bei der Sprachausgabeeinheit 206 angezeigt (Schritt S57).

Wenn die vorbestimmte Anzahl von Bestätigungsabfragen für die Abfrageschlüsselkandidaten alle durch den Anwender negiert werden (die Antwort „Nein" wird bei der Spracherkennungseinheit 204 und der Erkennungskandidatenausgabeeinheit 205 erkannt) (Schritt S58 NEIN), führ die Sprachausgabeeinheit 206 die zugehörige Abfrage zum Abfragen eines generischen Konzepts des Abfrageschlüssels, der in den Daten des höheren Niveaus enthalten ist, für den Anwender aus (Schritt S59).

Wenn die Antwort auf die zugehörige Abfrage von der Spracheingabe 202 eingegeben wird und von der Spracherkennungseinheit 204 erkannt wird, extrahiert die Erkennungszieldatenextraktionseinheit 203 die Daten des niedrigeren Niveaus, die abhängig sind von dem erkannten generischen Konzept, als das Erkennungsziel von der Spracherkennungsdatenbank 207-1, und dann wird der Abfrageschlüssel, der ursprünglich durch den Anwender eingegeben wurde, bei der Spracherkennungseinheit 204 wieder erkannt (Schritt S60). Dann wird die Bestätigungsabfrage für die Abfrageschlüsselkandidaten, die in einer absteigenden Reihenfolge der Erkennungswahrscheinlichkeit bei der Erkennungskandidatenausgabeeinheit 205 ausgegeben werden, von der Sprachausgabeeinheit 206 ausgegeben (Schritt S61). Der Bestätigungsprozess wird wiederholt bis die Antwort „Ja" von dem Anwender erhalten wird mit Bezug auf die Bestätigungsabfrage (Schritt S62). Wenn die Antwort „Ja" erkannt wird, wird der Abfrageschlüsselbestimmungserfolg dem Anwender angezeigt (Schritt S63).

Im Folgenden wird das interaktive Informationsabfrageverfahren dieses Beispiels für ein konkretes Beispiel beschrieben. Hier wird der Fall des Anwendens des interaktiven Informationsabfrageverfahrens dieses Beispiels auf die Bestimmung einer Adresse von Citys oder Städten in Japan beschrieben.

Bei der City/Stadtbestimmung wird davon ausgegangen, dass die Anzahl der Häufigkeit, wie oft die Bestätigungsabfrage in dem Bestätigungsprozess ausgegeben werden kann, für die Abfrageschlüsselkandidaten in einer absteigenden Reihenfolge der Erkennungswahrscheinlichkeit auf 3 eingestellt wird, wenn das Erkennungsziel die Hochfrequenzzugangsdatengruppe ist.

12 zeigt eine exemplarische Spracherkennungsdatenbank, die in der City/Stadtbestimmung zu verwenden ist. Hier sind die Citys oder Städte, die die Abfrageschlüssel sein können, die Daten des niedrigeren Niveaus in der Spracherkennungsdatenbank, und die Präfekturen in Japan werden ausgewählt als die Daten des höheren Niveaus. Es gibt in Japan 47 Präfekturen, was die Anzahl ist, die in Real-Zeit bearbeitet werden kann, wobei jede City oder Stadt eine Präfektur hat, zu die diese gehört, und die Anzahl von Citys oder Städten, die zu einer Präfektur gehören, ist höchstens 50, was in Real-Zeit bearbeitet werden kann. Die Zugangsfrequenzen im Fall des Verwendens der City/Stadtbestimmung für Telefonnummernleitung oder dergleichen werden verwendet als die Zugangsfrequenzen für die Citys oder Städte, und 50 (die Anzahl, die in Real-Zeit bearbeitet werden kann) Citys oder Städte in einer absteigenden Reihenfolge der Zugangsfrequenz werden spezifiziert als die Hochfrequenzzugangsdatengruppe. 13 zeigt ein Beispiel von Citys oder Städten, die eine Hochfrequenzzugangsdatengruppe bilden.

Als erstes wird der exemplarische Fall des Bestimmens von „Yokohama" beschrieben.

Wenn von der Spracheingabeeinheit 202 „Yokohama" eingegeben wird, extrahiert die Erkennungszieldatenextraktionseinheit 203 die Citys oder Städte, die zu der Hochfrequenzzugangsdatengruppe gehören (so wie Sapporo, Hakodate, Chuo, Kagoshima, etc., in 12) als die Erkennungszieldaten zusammen mit den Daten des niedrigeren Niveaus in der Spracherkennungsdatenbank 207-1. Hier sind „Yokohama" Daten, die in der Hochfrequenzzugangsdatengruppe enthalten sind. Das Ergebnis der Spracherkennungsbearbeitung an der Spracherkennungseinheit 204 wird bei der Erkennungskandidatenausgabeeinheit 205 in einer absteigenden Reihenfolge der Erkennungswahrscheinlichkeit ausgegeben. 14 zeigt ein exemplarisches Ausgabeergebnis, in dem der erste Kandidat „Yokosuka" ist, der zweite Kandidat ist „Yokohama", der dritte Kandidat ist „Yotsugi", und so weiter.

Die Sprachausgabeeinheit 208 gibt die Bestätigungsabfrage für die Abfrageschlüsselkandidaten in einer absteigenden Reihenfolge der Erkennungswahrscheinlichkeit an den Anwender aus. Da „Yokohama" der zweite Kandidat in 14 ist, kann „Yokohama" als korrekt durch zwei Bestätigungsabfragen bestimmt werden.

Als nächstes wird ein anderer exemplarischer Fall des Bestimmens von „Yokokawa" beschrieben. Hier sind „Yokokawa" Daten, die nicht in der Hochfrequenzzugangsdatengruppe enthalten sind.

Wenn „Yokokawa" von der Spracheingabeeinheit 202 eingegeben wird, extrahiert die Erkennungszieldatenextraktionseinheit 203 die Hochfrequenzzugangsdatengruppe als die Erkennungszieldaten, und die Spracherkennungsbearbeitung wird ausgeführt an der Spracherkennungseinheit 204. 38 zeigt ein exemplarisches Ergebnis, das von der Erkennungskandidatenausgabeeinheit 205 ausgegeben wird.

Dann gibt gemäß dem Ergebnis aus 15 die Sprachausgabeeinheit 206 die Bestätigungsabfrage für die Abfrageschlüsselkandidaten „Yokohama", „Yokosuka" und „Yokoyama" in dieser Reihenfolge aus. In diesem Fall wird die Antwort „Nein" von der Spracheingabe 202 für alle die Bestätigungsabfragen eingegeben, so dass die interaktive Informationsabfragevorrichtung 201 den Anwender dazu auffordert, die Präfektur von der Sprachausgabeeinheit 206 einzugeben, zu der der Abfrageschlüssel „Yokowaka" gehört. Wenn die Antwort des Anwenders „Gunma" von der Spracheingabeeinheit 202 eingegeben wird, extrahiert die Erkennungszieldatenextraktionseinheit alle Daten des niedrigeren Niveaus, die zu Gunma gehören, d. h. 41 Citys oder Städte in Gunma, als die Erkennungszieldaten. Dann wird die Spracherkennungsbearbeitung für „Yokokawa" wieder an der Spracherkennungseinheit 204 ausgeführt, und die Abfrageschlüsselkandidaten werden von der Erkennungskandidatenausgabeeinheit 205 ausgegeben. 16 zeigt ein exemplarisches Ausgabeergebnis in diesem Fall.

Dann wird die Bestätigungsabfrage für die Abfrageschlüsselkandidaten in einer absteigenden Reihenfolge der Erkennungswahrscheinlichkeit bei der Sprachausgabeeinheit 206 ausgegeben. Da „Yokowaka" der erste Kandidat in 16 ist, kann „Yokokawa" als korrekt durch eine Bestätigungsabfrage bestimmt werden.

Wie aus der oberen Beschreibung ersichtlich ist, gibt es in dem Fall des Verwendens einer großen Anzahl von Spracherkennungszielwörtern eine Grenze für die Anzahl von Wörtern, die in Real-Zeit bearbeitet werden können, und die Erkennungsgenauigkeit wird verringert für die große Anzahl von Wörtern gemäß der aktuellen Spracherkennungstechnologie, so dass konventionelle Systeme den Anwender dazu zwingen, zuerst einen effizienten Abfrageassistentenschlüssel einzugeben, durch den das Erkennungsziel eingegrenzt werden kann auf eine kleine Anzahl von Abfrageschlüsselwörtern, die durch das System mit einer guten Genauigkeit in realer Zeit berücksichtigt werden können, anstelle des Abfrageschlüssels, die der Anwender tatsächlich anfordern möchte.

Gemäß dem weiteren Beispiel ist die Spracherkennungsdatenbank in zwei hierarchischen Niveaus gebildet, wobei die Abfrageschlüssel, die durch den Anwender angefordert werden können, eingestellt sind als die Daten des niedrigeren Niveaus, und die Abfrageassistentenschlüssel in der Zahl der Wörter, die in Real-Zeit mit Bezug auf die Daten des niedrigeren Niveaus, auf die die sie sich bezieht, bearbeitet werden können, als die Daten des höheren Niveaus eingestellt werden. Darüber hinaus werden die Daten des höheren Niveaus so ausgewählt, dass die Anzahl der Daten des niedrigeren Niveaus (Abfrageschlüsselkandidaten), die abhängig sind von Daten eines höheren Niveaus, die Anzahl ist, die in realer Zeit bearbeitet werden kann, und die Anzahl der Daten des niedrigeren Niveaus mit hohen Zugangsfrequenzen, die in realer Bearbeitungszeit bearbeitet werden können, werden separat in einem anderen Speicher gespeichert, so dass die Hochfrequenzzugangsdatengruppe ausgewählt wird als das Abfrage- und Erkennungsziel mit einer höheren Priorität.

Durch Verwenden dieser spezifisch erfundenen Datenbankkonfiguration, wenn der Abfrageschlüssel in der Hochfrequenzzugangsdatengruppe enthalten ist, kann die Abfrageschlüsselbestimmung in Real-Zeit realisiert werden lediglich unter Verwendung der Eingabe des Abfrageschlüssels, die der Anwender tatsächlich anfordern möchte, ohne irgendeine zugehörige Abfrage zum Abfragen des generischen Konzepts als den Abfrageassistentenschlüssel auszuführen. Selbst wenn der Abfrageschlüssel nicht in der Hochfrequenzzugangsdatengruppe enthalten ist, wird der Abfrageschlüssel, den der Anwender tatsächlich anfordern möchte, zuerst eingegeben, und dann wird das assistierende generische Konzept eingegeben, was von dem Blickpunkt des Anwenders her normal ist, anstelle des Forcierens des Anwenders von der Assistenzabfrage zum Abfragen des generischen Konzepts zuerst zu starten, um das selektive Eingrenzen in dem System, wie in dem konventionellen System, zu realisieren.

Gemäß dem ersten Schema der vorliegenden Erfindung wird es wie beschrieben möglich, ein spracherkennungsbasiertes interaktives Informationsabfrageschema bereitzustellen, dass in der Lage ist, die Zielinformation durch Bestimmen der Attributwerte zu bestimmen, ohne den Anwender über die benötigte Zeit für die Spracherkennungsbearbeitung und die Abfrage in Kenntnis zu setzen, und ohne unnatürliche Dialoge mit dem Anwender aufgrund von Unvollständigkeit der Spracherkennungsbearbeitung zu verursachen. Bei einem Prozess zum Bestimmen des Attributwerts, der notwendig ist, um die Zielinformation zu bestimmen, kann in diesem Schema der Erkennungszielattributwert bestimmt werden, selbst wenn die Anzahl der Attributwerte die Anzahl übersteigt, die innerhalb einer vorbestimmten Zeit bearbeitet werden können, durch Verwenden eines Verfahrens zum Eingrenzen der Erkennungszielwörter, die eine Antwort mit einem tolerierbaren Genauigkeitsniveau für den Anwender zurückgeben können, ohne den Anwender das Gefühl zu geben, wartengelassen zu werden, und ein Verfahren zum Bestimmen der Eingabe, das eine Reduzierung des Auslassens der Bestätigungsprozesse realisiert.

Auch wird es gemäß dem weiteren Beispiel möglich, ein spracherkennungsbasiertes interaktives Informationsabfrageschema bereitzustellen, das in der Lage der Abfrage ist, das sowohl Schnelligkeit als auch Natürlichkeit beim Bestimmen des Abfrageschlüssels von einer großen Datenbank aufweist. In diesem Schema werden die Erkennung und die Abfrage ausgeführt, ohne den Anwender über die Wartezeit und die Unvollständigkeit der Erkennungsgenauigkeit während der Erkennung in Kenntnis zu setzen, selbst wenn der Abfrageschlüssel, den der Anwender tatsächlich anfordern möchte, direkt bei Beginn eingegeben wird, durch Verwenden des Bias in den Zugangsfrequenzen der Daten in der Groß-Datenbank in der Abfrage, die auf die Bestimmung des Abfrageschlüssels zielt, die durch den Anwender eingegeben wird unter Verwendung der Groß-Datenbank als das Erkennungsziel.

Gemäß dem spracherkennungsbasierten interaktiven Informationsabfrageschema der vorliegenden Erfindung kann daher die Uneindeutigkeit in dem Erkennungsergebnis der anfangs eingegebenen Spracheingabe und der Uneindeutigkeit des Erkennungsergebnisses der anschließend eingegebenen Spracheingabe in Reaktion auf die zugehörige Informationsabfrage simultan aufgelöst werden durch den Gegenprüfungsprozess zum Überprüfen der Relevanz dieser Erkennungsergebnisse, und dies ist ein Faktor, der beiträgt zu der Leistungsfähigkeit einer geeigneten Antwort für den Anwender innerhalb einer kurzen Zeit.

Es ist anzumerken, dass die oben beschriebenen Ausführungsformen gemäß der vorliegenden Erfindung geeignet implementiert werden können unter Verwendung eines konventionellen Allzweckdigitalcomputers, der gemäß den Lehren der vorliegenden Spezifikation programmiert ist, wie es dem Fachmann der Computertechnik gewahr ist. Geeignete Softwarecodierung kann einfach durch fachmännische Programmierer basierend auf den Leeren der vorliegenden Offenbarung bereitgestellt werden, wie es für den Fachmann der Softwaretechnik einfach ersichtlich ist.

Im Genaueren kann die interaktive Informationsabfragevorrichtung aus jedem der oben beschriebenen Ausführungsbeispiele in Form eines Softwarepakets geeignet implementiert werden.

Ein solches Softwarepaket kann ein Computerprogrammprodukt sein, das ein Speichermedium einsetzt, umfassend gespeicherten Computercode, der verwendet wird zum Programmieren eines Computers zum Ausführen der offenbarten Funktion und des Zwecks der vorliegenden Erfindung. Das Speichermedium kann umfassen, ist aber nicht begrenzt auf, jeglichen Typ von konventionellen Disketten, optischen Platten, CD-ROMs, magnetooptischen Platten, ROMs, RAMs, EPROMs, EEPROMs, magnetischen oder optischen Karten, oder irgendwelche andere geeignete Medien zum Speichern von elektronischen Instruktionen.

Es ist auch anzumerken, dass neben den bereits oben erwähnten vielen Modifikationen und Variationen der oberen Ausführungsformen durchgeführt werden können, ohne sich von den neuen und vorteilhaften Eigenschaften der vorliegenden Erfindung zu entfernen. Folglich sind alle solche Modifikationen und Variationen im Bereich der angefügten Ansprüche enthalten.


Anspruch[de]
Ein Verfahren der spracherkennungsbasierten interaktiven Informationsabfrage zum Ermitteln und Abfragen einer Zielinformation eines Anwenders durch Bestimmen eines Abfrageschlüssels, der durch den Anwender eingegeben wird, der eine Spracherkennungsbearbeitung verwendet, umfassend die Schritte:

(a) Speichern von Abfrageschlüsselkandidaten, die eine Zahl von Daten bilden, die nicht von der Spracherkennungsverarbeitung in einer vorgeschriebenen Zeit verarbeitet werden können, als Erkennungszielwörter in einer Spracherkennungsdatenbank, wobei die Erkennungszielwörter aufgeteilt werden in priorisierte Erkennungszielwörter, die eine Zahl von Daten bilden, die durch die Spracherkennungsverarbeitung in der vorgeschriebenen Verarbeitungszeit verarbeitet werden können, und die relativ höhere Wichtigkeitsniveaus aufweisen basierend auf statistischen Informationen, die für die Erkennungszielwörter definiert sind, und nicht priorisierte Erkennungszielwörter, die andere sind als die priorisierten Erkennungszielwörter;

(b) Auffordern (S2) des Anwenders durch einen Sprachdialog mit dem Anwender, eine Spracheingabe einzugeben, die den Abfrageschlüssel angibt, und Ausführen der Spracherkennungsverarbeitung (S3) für die Spracheingabe mit Bezug auf die priorisierten Erkennungszielwörter, um ein Erkennungsergebnis zu erhalten;

(c) Ausführen (S5) eines Bestätigungsprozesses unter Verwendung eines Sprachdialogs mit dem Anwender gemäß dem Erkennungsergebnis, um den Abfrageschlüssel zu bestimmen, wenn das Erkennungsergebnis eine vorgeschriebene Bedingung erfüllt, zum Bewerten, dass der Abfrageschlüssel lediglich durch einen Bestätigungsprozess mit dem Anwender bestimmt werden kann;

(d) Ausführen (S10) einer zugehörigen Informationsabfrage unter Verwendung eines Sprachdialogs mit dem Anwender, um den Anwender aufzufordern, eine andere Spracheingabe einzugeben, die eine dazugehörige Information des Abfrageschlüssels angibt, wenn das Erkennungsergebnis nicht die vorgeschriebene Bedingung befriedigt;

(e) Ausführen (S12) der Spracherkennungsverarbeitung für die andere Spracheingabe, um ein anderes Erkennungsergebnis zu erhalten, und Einstellen des Erkennungsergebnisses gemäß dem anderen Erkennungsergebnis, um ein angepasstes Erkennungsergebnis zu erhalten; und

(f) Wiederholen des Schrittes (c) oder der Schritte (d) und (e) unter Verwendung des angepassten Erkennungsergebnisses anstelle des Erkennungsergebnisses bis der Abfrageschlüssel bestimmt ist;

dadurch gekennzeichnet, dass

der Schritt (d) auch die Spracherkennungsverarbeitung ausführt (S11) für die Spracheingabe mit Bezug auf so viele der nicht priorisierten Erkennungszielwörter wie eine Zahl von Daten, die verarbeitet werden durch die Spracherkennungsverarbeitung in der vorgeschriebenen Bearbeitungszeit, um ein zusätzliches Erkennungsergebnis zu erhalten, während die zugehörige Informationsabfrage unter Verwendung des Sprachdialogs mit dem Anwender ausgeführt wird; und

der Schritt (e) auch das Erkennungsergebnis anpasst (S13) durch Hinzufügen des zusätzlichen Erkennungsergebnisses.
Das Verfahren nach Anspruch 1, wobei die nicht priorisierten Erkennungszielwörter unterteilt werden in eine Vielzahl von Gruppen, wobei jede eine Zahl von Erkennungszielwörter enthält, die durch die Spracherkennungsverarbeitung in der vorgeschriebenen Zeit verarbeitet werden können; und der Schritt (d) die Spracherkennungsverarbeitung für die Spracheingabe mit Bezug auf die Vielzahl von Gruppen in der Reihenfolge der Wichtigkeitsniveaus der Erkennungszielwörter ausführt, die in jeder Gruppe enthalten sind. Das Verfahren nach Anspruch 1, wobei das Erkennungsergebnis Erkennungsabfrageschlüsselkandidaten und deren Erkennungswahrscheinlichkeiten angibt, und das andere Erkennungsergebnis erkennungsbezogene Informationskandidaten und deren Erkennungswahrscheinlichkeiten angibt; und der Schritt (e) das Erkennungsergebnis anpasst (S13) durch Berechnen neuer Erkennungswahrscheinlichkeiten für die Erkennungsabfrageschlüsselkandidaten gemäß Erkennungswahrscheinlichkeiten für die Erkennungsabfrageschlüsselkandidaten, die angegeben werden in dem Erkennungsergebnis, und Erkennungswahrscheinlichkeiten für die erkennungsbezogenen Kandidaten, die in dem anderen Erkennungsergebnis angegeben werden. Das Verfahren nach Anspruch 3, wobei der Schritt (e) die neuen Erkennungswahrscheinlichkeiten für die Erkennungsabfrageschlüsselkandidaten berechnet durch Multiplizieren einer Erkennungswahrscheinlichkeit von jedem Erkennungsabfrageschlüsselkandidaten mit einer Erkennungswahrscheinlichkeit eines entsprechenden Erkennungsabfrageschlüsselkandidaten. Das Verfahren nach Anspruch 1, wobei das Erkennungsergebnis Erkennungsabfrageschlüsselkandidaten und deren Erkennungswahrscheinlichkeiten angibt; und der Schritt (c) bewertet (S14), dass das Erkennungsergebnis die vorgeschriebene Bedingung befriedigt, wenn eine Zahl von führenden Erkennungsabfrageschlüsselkandidaten, die Erkennungswahrscheinlichkeiten aufweisen, die eine vorgeschriebene Wahrscheinlichkeitsgrenze übersteigen, kleiner oder gleich einer vorgeschriebenen Zahl ungleich Null ist. Das Verfahren nach Anspruch 1, wobei die in Schritt (a) verwendeten statistische Informationen Zugriffsfrequenzen der Erkennungsschlüsselkandidaten sind. Das Verfahren nach Anspruch 1, wobei die in Schritt (a) verwendete vorgeschriebene Verarbeitungszeit eine reale Dialogverarbeitungszeit ist, die im Voraus spezifiziert wird. Das Verfahren nach Anspruch 1, wobei der Abfrageschlüssel einen Attributwert eines Attributs der Zielinformation angibt, und die zugehörige Information, die von der zugehörigen Informationsabfrage des Schritts (d) angefordert wird, ein Attributwert eines anderen von dem einen Attribut unterschiedlichen Attributs der Zielinformation ist. Das Verfahren nach Anspruch 8, wobei Attribute der Zielinformationen hierarchisch geordnet sind, und das andere Attribut ein hierarchischer Nachbar des einen Attributs ist. Das Verfahren nach Anspruch 8, wobei das andere Attribut ausgewählt ist ein Attribut zu sein, das Attributwertkandidaten aufweist, die eine Zahl von Daten bilden, die von der Spracherkennungsverarbeitung in der vorgeschriebenen Verarbeitungszeit verarbeitet werden können. Das Verfahren nach Anspruch 1, wobei der Schritt (a) die Abfrageschlüsselkandidaten speichert, die Attributwerte einer Vielzahl von Attributen der Zielinformationen angeben, so dass der durch den Anwender eingegebene Abfrageschlüssel einen Attributwert von jedem einer Vielzahl von Attributen angeben kann. Das Verfahren nach Anspruch 1, wobei der Schritt (a) die Abfrageschlüsselkandidaten als Kandidaten von niedrigen Niveaus speichert und auch Daten von höheren Niveaus speichert, die eine Zahl von Daten bilden, die von der Spracherkennungsverarbeitung in der vorgeschriebenen Zeit verarbeitet werden können, wobei alle Daten der niedrigeren Niveaus von Daten eines höheren Niveaus abhängig sind, und Daten von niedrigeren Niveaus, die von Daten von höheren Niveaus abhängig sind, eine Zahl von Daten bilden, die von der Spracherkennungsverarbeitung in der vorgeschriebenen Zeit verarbeitet werden können. Das Verfahren nach Anspruch 12, wobei der Schritt (c) bewertet (S14), dass das Erkennungsergebnis die vorgeschriebene Bedingung befriedigt, wenn der Abfrageschlüssel durch eine Zahl von Bestätigungsabfragen bestimmt werden kann, die kleiner oder gleich einer vorgeschriebene Zahl ist. Das Verfahren nach Anspruch 12, wobei der Schritt (e) bewertet, dass das Erkennungsergebnis nicht die vorgeschriebene Bedingung erfüllt, wenn der Anwender die vorgeschriebene Zahl von Bestätigungsanfragen negiert hat. Das Verfahren nach Anspruch 12, wobei die zugehörigen Informationen, die durch die zugehörige Informationsabfrage des Schritts (d) abgefragt werden, Daten von höheren Niveaus sind, die ein generisches Konzept angeben, zu dem ein durch den Abfrageschlüssel angegebenes spezifisches Konzept gehört. Das Verfahren nach Anspruch 15, wobei der Schritt (e) das Erkennungsergebnis anpasst (S13) durch Ausführen eines anderen Bestätigungsprozesses unter Verwendung eines Sprachdialogs mit dem Anwender gemäß einem anderen Sprachergebnis, um die Daten der höheren Niveaus zu bestimmen, Extrahieren der Daten der niedrigeren Niveaus, die abhängig sind von den Daten der höheren Niveaus, als neue Erkennungszieldaten, Ausführen der Spracherkennungsverarbeitung für die Spracheingabe mit Bezug auf die neuen Erkennungsziele, um das andere Erkennungsergebnis zu erhalten. Eine spracherkennungsbasierte interaktive Informationsabfragevorrichtung zum Ermitteln und Abfragen einer Zielinformation eines Anwenders durch Bestimmen eines Abfrageschlüssels, der durch den Anwender eingegeben wird, der eine Spracherkennungsbearbeitung verwendet, umfassend:

Eine Spracherkennungsdatenbank (7), die konfiguriert ist zum Speichern von Abfrageschlüsselkandidaten, die eine Zahl von Daten bilden, die nicht von der Spracherkennungsverarbeitung in einer vorgeschriebenen Zeit verarbeitet werden können, als Erkennungszielwörter, wobei die Erkennungszielwörter aufgeteilt werden in priorisierte Erkennungszielwörter, die eine Zahl von Daten bilden, die durch die Spracherkennungsverarbeitung in der vorgeschriebenen Verarbeitungszeit verarbeitet werden können, und die relativ höhere Wichtigkeitsniveaus aufweisen basierend auf statistischen Informationen, die für die Erkennungszielwörter definiert sind, und nicht priorisierte Erkennungszielwörter, die andere sind als die priorisierten Erkennungszielwörter;

eine Spracherkennungseinheit (3-1), die konfiguriert ist zum Ausführen der Spracherkennungsverarbeitung; und

eine Dialogsteuerungseinheit (4), die konfiguriert ist zum Ausführen von Sprachdialogen mit dem Anwender;

wobei die Dialogsteuerungseinheit (4) einen Sprachdialog ausführt zum Auffordern des Anwenders, eine Spracheingabe einzugeben, die den Abfrageschlüssel angibt, so dass die Spracherkennungseinheit die Spracherkennungsverarbeitung für die Spracheingabe mit Bezug auf die priorisierten Erkennungszielwörter ausführt, um ein Erkennungsergebnis zu erhalten;

die Dialogsteuerungseinheit (4) einen Sprachdialog für einen Bestätigungsprozess gemäß dem Erkennungsergebnis ausführt, um den Abfrageschlüssel zu bestimmen, wenn das Erkennungsergebnis eine vorgeschriebene Bedingung erfüllt, zum Bewerten, dass der Abfrageschlüssel lediglich durch einen Bestätigungsprozess mit dem Anwender bestimmt werden kann;

die Dialogsteuerungseinheit (4) einen Sprachdialog ausführt für eine zugehörigen Informationsabfrage, um den Anwender aufzufordern, eine andere Spracheingabe einzugeben, die eine zugehörige Information des Abfrageschlüssels angibt, wenn das Erkennungsergebnis nicht die vorgeschriebene Bedingung befriedigt, so dass die Spracherkennungseinheit (3-1) die Spracherkennungsverarbeitung für die andere Spracheingabe ausführt, um ein anderes Erkennungsergebnis zu erhalten, und die Dialogsteuerungseinheit (4) das Erkennungsergebnisses gemäß dem anderen Erkennungsergebnis anpasst, um ein angepasstes Erkennungsergebnis zu erhalten; und

die Dialogsteuerungseinheit (4) steuert die Sprachdialoge, um den Bestätigungsprozess oder die zugehörige Informationsabfrage unter Verwendung des angepassten Erkennungsergebnisses anstelle des Erkennungsergebnisses zu wiederholen, bis der Abfrageschlüssel bestimmt ist;

dadurch gekennzeichnet, dass

die Spracherkennungseinheit (4) auch die Spracherkennungsverarbeitung ausführt für die Spracheingabe mit Bezug auf so viele der nicht priorisierten Erkennungszielwörter wie eine Zahl von Daten, die verarbeitet werden durch die Spracherkennungsverarbeitung in der vorgeschriebenen Bearbeitungszeit, um ein zusätzliches Erkennungsergebnis zu erhalten, während die Dialogsteuerungseinheit (4) die zugehörige Informationsabfrage unter Verwendung des Sprachdialogs mit dem Anwender ausgeführt; und

die Dialogsteuerungseinheit (4) auch das Erkennungsergebnis anpasst durch Hinzufügen des zusätzlichen Erkennungsergebnisses.
Die Vorrichtung nach Anspruch 17, wobei Spracherkennungsdatenbank (7) die nicht priorisierten Erkennungszielwörter speichert, die unterteilt sind in eine Vielzahl von Gruppen, wobei jede eine Zahl von Erkennungszielwörter enthält, die durch die Spracherkennungsverarbeitung in der vorgeschriebenen Zeit verarbeitet werden können; und die Spracherkennungseinheit (3-1) die Spracherkennungsverarbeitung für die Spracheingabe mit Bezug auf die Vielzahl von Gruppen in der Reihenfolge der Wichtigkeitsniveaus der Erkennungszielwörter ausführt, die in jeder Gruppe enthalten sind. Die Vorrichtung nach Anspruch 17, wobei die Spracherkennungseinheit (3-1) das Erkennungsergebnis, das Erkennungsabfrageschlüsselkandidaten und deren Erkennungswahrscheinlichkeiten angibt, und das andere Erkennungsergebnis erhält, das erkennungsbezogene Informationskandidaten und deren Erkennungswahrscheinlichkeiten angibt; und die Dialogsteuerungseinheit (4) das Erkennungsergebnis anpasst (S13) durch Berechnen neuer Erkennungswahrscheinlichkeiten für die Erkennungsabfrageschlüsselkandidaten gemäß Erkennungswahrscheinlichkeiten für die Erkennungsabfrageschlüsselkandidaten, die angegeben werden in dem Erkennungsergebnis, und Erkennungswahrscheinlichkeiten für die erkennungsbezogenen Kandidaten, die in dem anderen Erkennungsergebnis angegeben werden. Die Vorrichtung nach Anspruch 19, wobei die Dialogsteuerungseinheit (4) die neuen Erkennungswahrscheinlichkeiten für die Erkennungsabfrageschlüsselkandidaten berechnet durch Multiplizieren einer Erkennungswahrscheinlichkeit von jedem Erkennungsabfrageschlüsselkandidaten mit einer Erkennungswahrscheinlichkeit eines entsprechenden Erkennungsabfrageschlüsselkandidaten. Die Vorrichtung nach Anspruch 17, wobei die Spracherkennungseinheit (3-1) das Erkennungsergebnis erhält, das Erkennungsabfrageschlüsselkandidaten und deren Erkennungswahrscheinlichkeiten angibt; und die Dialogsteuerungseinheit (4) bewertet, dass das Erkennungsergebnis die vorgeschriebene Bedingung befriedigt, wenn eine Zahl von führenden Erkennungsabfrageschlüsselkandidaten, die Erkennungswahrscheinlichkeiten aufweisen, die eine vorgeschriebene Wahrscheinlichkeitsgrenze übersteigen, kleiner oder gleich einer vorgeschriebenen Zahl ungleich Null ist. Die Vorrichtung nach Anspruch 17, wobei die in der Spracherkennungsdatenbank (7) verwendeten statistischen Informationen Zugriffsfrequenzen der Erkennungsschlüsselkandidaten sind. Die Vorrichtung nach Anspruch 17, wobei die in der Spracherkennungsdatenbank (7) verwendete vorgeschriebene Verarbeitungszeit eine reale Dialogverarbeitungszeit ist, die im Voraus spezifiziert wird. Die Vorrichtung nach Anspruch 17, wobei der Abfrageschlüssel einen Attributwert eines Attributs der Zielinformation angibt, und die zugehörige Information, die von der zugehörigen Informationsabfrage, die von der Dialogsteuerungseinheit (4) ausgeführt wird, angefordert wird, ein Attributwert eines anderen von dem einen Attribut unterschiedlichen Attributs der Zielinformation ist. Die Vorrichtung nach Anspruch 24, wobei Attribute der Zielinformationen hierarchisch geordnet sind, und das andere Attribut ein hierarchischer Nachbar des einen Attributs ist. Die Vorrichtung nach Anspruch 17, wobei das andere Attribut ausgewählt ist ein Attribut zu sein, das Attributwertkandidaten aufweist, die eine Zahl von Daten bilden, die von der Spracherkennungsverarbeitung in der vorgeschriebenen Verarbeitungszeit verarbeitet werden können. Die Vorrichtung nach Anspruch 17, wobei die Spracherkennungsdatenbank (7) die Abfrageschlüsselkandidaten speichert, die Attributwerte einer Vielzahl von Attributen der Zielinformationen angeben, so dass der durch den Anwender eingegebene Abfrageschlüssel einen Attributwert von jedem einer Vielzahl von Attributen angeben kann. Die Vorrichtung nach Anspruch 17, wobei die Spracherkennungsdatenbank (7) die Abfrageschlüsselkandidaten als Kandidaten von niedrigen Niveaus speichert und auch Daten von höheren Niveaus speichert, die eine Zahl von Daten bilden, die von der Spracherkennungsverarbeitung in der vorgeschriebenen Zeit verarbeitet werden können, wobei alle Daten der niedrigeren Niveaus von Daten eines höheren Niveaus abhängig sind, und Daten von niedrigeren Niveaus, die von Daten von höheren Niveaus abhängig sind, eine Zahl von Daten bilden, die von der Spracherkennungseinheit (3-1) in der vorgeschriebenen Zeit verarbeitet werden können. Die Vorrichtung nach Anspruch 28, wobei die Dialogsteuerungseinheit (4) bewertet, dass das Erkennungsergebnis die vorgeschriebene Bedingung befriedigt, wenn der Abfrageschlüssel durch eine Zahl von Bestätigungsabfragen bestimmt werden kann, die kleiner oder gleich einer vorgeschriebene Zahl ist. Die Vorrichtung nach Anspruch 28, wobei die Dialogsteuerungseinheit (4) bewertet, dass das Erkennungsergebnis nicht die vorgeschriebene Bedingung erfüllt, wenn der Anwender die vorgeschriebene Zahl von Bestätigungsanfragen negiert hat. Die Vorrichtung nach Anspruch 28, wobei die zugehörigen Informationen, die durch die zugehörige Informationsabfrage abgefragt werden, die von der Dialogsteuerungseinheit (4) ausgeführt wird, Daten von höheren Niveaus sind, die ein generisches Konzept angeben, zu dem ein durch den Abfrageschlüssel angegebenes spezifisches Konzept gehört. Die Vorrichtung nach Anspruch 31, wobei die Dialogsteuerungseinheit (4) das Erkennungsergebnis anpasst durch Ausführen eines anderen Bestätigungsprozesses unter Verwendung eines Sprachdialogs mit dem Anwender gemäß einem anderen Sprachergebnis, um die Daten der höheren Niveaus zu bestimmen, Extrahieren der Daten der niedrigeren Niveaus, die abhängig sind von den Daten der höheren Niveaus, als neue Erkennungszieldaten, Ausführen der Spracherkennungsverarbeitung für die Spracheingabe mit Bezug auf die neuen Erkennungsziele, um das andere Erkennungsergebnis zu erhalten. Ein von einem Computer verwendbares Medium, in dem computerlesbare Programmcodes enthalten sind, zum Bewirken, dass ein Computer als ein spracherkennungsbasiertes interaktives Abfragesystem funktioniert zum Ermitteln und Abfragen einer Zielinformation eines Anwenders durch Bestimmen eines Abfrageschlüssels, der durch den Anwender eingegeben wird, der eine Spracherkennungsbearbeitung verwendet, und als eine Spracherkennungsdatenbank zum Speichern von Abfrageschlüsselkandidaten, die eine Zahl von Daten bilden, die nicht von der Spracherkennungsverarbeitung in einer vorgeschriebenen Zeit verarbeitet werden können, als Erkennungszielwörter in einer Spracherkennungsdatenbank, wobei die Erkennungszielwörter aufgeteilt werden in priorisierte Erkennungszielwörter, die eine Zahl von Daten bilden, die durch die Spracherkennungsverarbeitung in der vorgeschriebenen Verarbeitungszeit verarbeitet werden können, und die relativ höhere Wichtigkeitsniveaus aufweisen basierend auf statistischen Informationen, die für die Erkennungszielwörter definiert sind, und nicht priorisierte Erkennungszielwörter, die andere sind als die priorisierten Erkennungszielwörter, die computerlesbaren Programmcodes umfassend:

einen ersten computerlesbaren Programmcode zum Bewirken, dass der Computer den Anwender durch einen Sprachdialog mit dem Anwender auffordert, eine Spracheingabe einzugeben, die den Abfrageschlüssel angibt, und dass die Spracherkennungsverarbeitung für die Spracheingabe mit Bezug auf die priorisierten Erkennungszielwörter ausgeführt wird, um ein Erkennungsergebnis zu erhalten;

einen zweiten computerlesbaren Programmcode zum Bewirken, dass der Computer einen Bestätigungsprozess unter Verwendung eines Sprachdialogs mit dem Anwender gemäß dem Erkennungsergebnis ausführt, um den Abfrageschlüssel zu bestimmen, wenn das Erkennungsergebnis eine vorgeschriebene Bedingung erfüllt, zum Bewerten, dass der Abfrageschlüssel lediglich durch einen Bestätigungsprozess mit dem Anwender bestimmt werden kann;

einen dritten computerlesbaren Programmcode zum Bewirken, dass der Computer eine zugehörige Informationsabfrage unter Verwendung eines Sprachdialogs mit dem Anwender ausführt, um den Anwender aufzufordern, eine andere Spracheingabe einzugeben, die eine zugehörige Information des Abfrageschlüssels angibt, wenn das Erkennungsergebnis nicht die vorgeschriebene Bedingung befriedigt;

einen vierten computerlesbaren Programmcode zum Bewirken, dass der Computer eine Spracherkennungsverarbeitung für die andere Spracheingabe ausführt, um ein anderes Erkennungsergebnis zu erhalten, und das Erkennungsergebniss gemäß dem anderen Erkennungsergebnis anpasst, um ein angepasstes Erkennungsergebnis zu erhalten; und

einen fünften computerlesbaren Programmcode zum Bewirken, dass der Computer die Verarbeitung des zweiten computerlesbaren Programmcodes oder des dritten und vierten computerlesbaren Programmcodes wiederholt unter Verwendung des angepassten Erkennungsergebnisses anstelle des Erkennungsergebnisses, bis der Abfrageschlüssel bestimmt ist;

dadurch gekennzeichnet, dass

der dritte computerlesbare Programmcode auch die Spracherkennungsverarbeitung ausführt für die Spracheingabe mit Bezug auf so viele der nicht priorisierten Erkennungszielwörter wie eine Zahl von Daten, die verarbeitet werden durch die Spracherkennungsverarbeitung in der vorgeschriebenen Bearbeitungszeit, um ein zusätzliches Erkennungsergebnis zu erhalten, während die zugehörige Informationsabfrage unter Verwendung des Sprachdialogs mit dem Anwender ausgeführt wird; und

der vierte computerlesbare Programmcode auch das Erkennungsergebnis anpasst durch Hinzufügen des zusätzlichen Erkennungsergebnisses.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com