PatentDe  


Dokumentenidentifikation DE3486022T2 19.05.1993
EP-Veröffentlichungsnummer 0139069
Titel System zur verteilten Verarbeitung mit Fehlerdiagnose.
Anmelder Hitachi, Ltd., Tokio/Tokyo, JP
Erfinder Mori, Kinji, 569-1, Kamoshidacho Midori-ku Yokohama, JP;
Miyamoto, Shoji, Miyamae-ku Kawasaki-shi, JP;
Shiraha, Takeshi, Nishinomiya-shi, JP
Vertreter Strehl, P., Dipl.-Ing. Dipl.-Wirtsch.-Ing.; Schübel-Hopf, U., Dipl.-Chem. Dr.rer.nat.; Groening, H., Dipl.-Ing., Pat.-Anwälte, 8000 München
DE-Aktenzeichen 3486022
Vertragsstaaten DE, FR, GB, NL
Sprache des Dokument En
EP-Anmeldetag 12.01.1984
EP-Aktenzeichen 841002975
EP-Offenlegungsdatum 02.05.1985
EP date of grant 30.12.1992
Veröffentlichungstag im Patentblatt 19.05.1993
IPC-Hauptklasse G06F 11/22

Beschreibung[de]

Die Erfindung betrifft ein verteiltes Verarbeitungssystem, spezieller ein verteiltes Verarbeitungssystem mit wechselseitig in Beziehung stehenden Untersystemen, in dem ein Fehler in einem Untersystem die anderen Untersysteme nachteilig beeinflussen kann, und in dem eine Systemabschaltung verhindert wird und ein Maß für den Fehler bestimmt wird, um die Zuverlässigkeit zu verbessern.

In Fig. 1 werden die Überprüfung und Diagnose des Fehlers und eine Fehlerbehebungsbearbeitung auf Grundlage des Diagnoseergebnisses bei einem herkömmlichen verteilten Verarbeitungssystem mit der Fehlerbehebungsbearbeitung bei der Erfindung verglichen, wie sie später im einzelnen beschrieben wird. Die Ordinate in Fig. 1 repräsentiert ein zu überprüfendes und zu diagnostizierendes Objekt, und die Abszisse repräsentiert das Objekt, bei dem Fehlerbehebung auf Grundlage des Ergebnisses der Untersuchung der Überprüfung und Diagnose vorzunehmen ist.

In Fig. 1 wird ein Gerät, das einen Fehler in seinem eigenen Untersystem erfaßt und den Fehler in seinem eigenen Untersystem oder Fehler in anderen Untersystemen aufgrund des Ergebnisses der Erfassung des Fehlers einer Fehlerbehebung zuführt, als Selbstdiagnosetester bezeichnet. Bei einem Selbstdiagnosetester ist jedes Untersystem ausgehend von der Annahme aufgebaut, daß "andere Untersysteme alle Fehler perfekt erfassen und diagnostizieren und die Fehler auf Grundlage des Diagnoseergebnisses beheben". Wenn ein Untersystem es versäumt, einen Fehler zu erfassen, zu diagnostizieren oder zu beheben, oder wenn ihm selbst ein Fehler unterläuft, werden die anderen Untersysteme beeinflußt und es wird eine Systemabschaltung hervorgerufen. Ein Gerät, das einen Fehler in anderen Untersystemen erfaßt und diagnostiziert und den Fehler in den anderen Untersystemen auf Grundlage des Diagnoseergebnisses behebt, wird als zentralisierter Tester bezeichnet. Ein Ausfall oder ein Fehler bei der Erfassung, Diagnose oder Fehlerbehebung im zentralisierten Tester beeinflußt ebenfalls direkt die anderen Untersysteme und führt zu einer Systemabschaltung.

Andererseits wird bei der Erfindung ein selbständiger Tester verwendet, der Fehler in anderen Untersystemen erfaßt und diagnostiziert und ein Untersystem von sich aus gegenüber Fehlern anderer Untersysteme aufgrund des Diagnoseergebnisses schützt. Die Funktionen dieser drei Typen von Testern sind in den Fig. 2 und 3 veranschaulicht.

Der Selbstdiagnosetester verfügt über zwei Typen, wie sie in den Fig. 2A und 2B dargestellt sind. Ein Tester in einem Untersystem 1 weist seinem eigenen Untersystem 1 eine Fehlerbehebungsverarbeitung 21 oder anderen Untersystemen 2 oder 3 Fehlerbehebungsverarbeitungen 22 oder 22, auf Grundlage des Ergebnisses einer Erfassung und Diagnose 11 oder 12 eines Fehlers in seinem eigenen Untersystem an. Wenn die Verarbeitung nicht korrekt ausgeführt wird (Symbol x in den Fig. 3A und 3B), werden die anderen Untersysteme 2 und 3 in Mitleidenschaft gezogen (31, 32 oder 32') und es werden in ihnen Fehler hervorgerufen.

Im zentralisierten Tester (Fig. 2D) erfaßt und diagnostiziert (14, 14') der Tester im Untersystem 1 Fehler in den anderen Untersystemen 2 und 3 und weist den Untersystemen 2 und 3 auf Grundlage des Diagnoseergebnisses Fehlerbehebungsverarbeitungen 24 und 24' an. Demgemäß wirkt sich ein Fehler im Untersystem 1 direkt (34, 34') auf die anderen Untersysteme 2 und 3 aus.

Beim selbständigen Tester (Fig. 2C) erfaßt und diagnostiziert (13, 13') der Tester im Untersystem 1 die Fehler in den anderen Untersystemen 2 und 3 und führt eine Fehlerbehebungsverarbeitung 23 aus, um sein eigenes Untersystem davor zu schützen, daß es von Fehlern in den anderen Untersystemen in Mitleidenschaft gezogen wird, was auf Grundlage des Diagnoseergebnisses erfolgt. Demgemäß wirkt sich eine Störung oder ein Fehler bei der Erfassung, Diagnose oder der Fehlerbehebungsverarbeitung für den Fehler im Untersystem 1 nicht auf die anderen Untersysteme 2 und 3 aus.

Beim verteilten Verarbeitungssystem gemäß dem Stand der Technik, insbesondere in einem System mit mehreren über Übertragungsleitung miteinander verbundenen Prozessoren besteht keine Möglichkeit, dann, wenn ein vorübergehender Fehler auftritt, festzustellen, ob es sich um einen zeitweiligen Fehler handelt, oder ob der Fehler mit großer Wahrscheinlichkeit ein Dauerfehler wird.

Ein verteiltes Verarbeitungssystem mit den Merkmalen des ersten Teils von Anspruch 1 ist aus IEEE 1982, Twenty-Fourth IEEE Computer Society International Conference, Digest of Papers, Spring Compcon 82, San Francisco, 22. bis 25. Februar 1992, Seiten 192 5 bekannt. Das Dokument beschreibt ein Netzwerksystem mit Doppelschleife, in dem die Datenübertragung über Umgehungsverbindungen von einer Schleife auf die andere übertragen wird, wenn ein Fehler festgestellt wird. Das Erfassen des Fehlers und die Rekonfiguration des Übertragungsweges können durch einen beliebigen der Steuerprozessoren ausgelöst werden, die an das System angeschlossen sind.

Es ist eine Aufgabe der Erfindung, ein verteiltes Netzwerksystem anzugeben, das dazu in der Lage ist, die Art eines beliebigen erfaßten Fehlers zu diagnostizieren und Dauerfehler vorherzusagen.

Diese Aufgabe wird durch die Erfindung gelöst, wie sie in Anspruch 1 gekennzeichnet ist. Gemäß der Erfindung können, da ein Dauerfehler erkannt werden kann, bevor er sich tatsächlich etabliert hat, schneller Gegenmaßnahmen ergriffen werden und Perioden mit "Systemabschaltung" können verhindert werden.

Die Erfindung geht aus der folgenden detaillierten Beschreibung in Verbindung mit den beigefügten Zeichnungen hervor, in denen:

Fig. 1 Funktionsklassen verschiedener Tester veranschaulicht;

Fig. 2A-2D und 3A-3D schematisch Funktionen der verschiedenen Tester veranschaulichen;

Fig. 4 und 5 eine Konfiguration eines Ausführungsbeispieles der Erfindung veranschaulichen;

Fig. 6A-6G sowie 7A und 7B Betriebsabläufe beim Ausführungsbeispiel zeigen;

Fig. 8 einen Adressenzug zeigt;

Fig. 9 und 10 ein Gesamtsystem eines zweiten Ausführungsbeispiels zeigen;

Fig. 11 und 12 Strukturen eines NCP (network control processor = Netzwerksteuerungsprozessor) bzw. eines Hostcomputers zeigen;

Fig. 13A-13D Betriebsabläufe zeigen;

Fig. 14 ein Maß für einen Fehler veranschaulicht;

Fig. 15 ein Prinzip der Erfindung veranschaulicht; und

Fig. 16 ein Flußdiagramm eines BIT ist, bei dem es sich um einen Hauptteil des Ausführungsbeispiels der Erfindung zeigt.

In den folgenden Ausführungsbeispielen wird die Erfindung auf ein System mit Übertragungsschleife angewendet.

[Erstes Ausführungsbeispiel]

Fig. 4 zeigt die Gesamtkonfiguration eines verteilten Verarbeitungssystems gemäß einem ersten Ausführungsbeispiel der Erfindung. Das vorliegende System weist paarweise angeordnete Netzwerksteuerungsprozessoren auf, die in Doppelschleifen-Übertragungsleitungen mit umgekehrten Übertragungsrichtungen angeordnet sind. Die paarweise ausgebildeten Netzwerksteuerungsprozessoren 100 und 110, 200 und 210, . . . sind über Nebenwege 100A, 110A; 200, 210A; . . . miteinander verbunden. Gestrichelte Linien zeigen Bereiche von Untersystemen. Z.B. weist ein Untersystem 1 den Netzwerksteuerungsprozessor 100, eine Übertragungsschleifenleitung 1200 und den Nebenweg 100A auf und ein Untersystem 2 weist den Netzwerksteuerungsprozessor 200, eine Übertragungsschleifenleitung 2300 und den Nebenweg 200A auf. Das Untersystem 1 ist nur mit den Untersystemen 2, 4 und 5 verbunden.

Fig. 5 zeigt eine Einzelheit des Untersystems 1. Ein Prozessor (Hostcomputer) 1000 ist mit den paarweise ausgebildeten Netzwerksteuerungsprozessoren 100 und 110 über paarweise ausgebildete Hostübertragungsleitungen 111 und 211 verbunden. Die Netzwerksteuerungsprozessoren 100 und 110 sowie die der Prozessor 1000 enthalten Tester (BIT) 100B, 110B bzw.

1000B. Der BIT führt das Erfassen, die Diagnose und die Behebung von Fehlern anderer Untersysteme unter den Funktionen des Netzwerksteuerungsprozessors aus. Der Prozessor 1000 beinhaltet auch einen Tester (EXT) 1010, um einen Fehlerort innerhalb des Systems zu identifizieren. Wie es später beschrieben wird, liefert der EXT 1010 eine Fehlerortinformation an eine Anzeige 1020, um eine Wartungsperson zu informieren. Obwohl es nicht dargestellt ist, sind die anderen Untersysteme 2, 3, . . . identisch wie das Untersystem 1 aufgebaut.

Die Betriebsabläufe der Tester BIT 100B, 110B und 1000B sowie des EXT 1010 werden nun im einzelnen unter Bezugnahme auf die Fig. 6A-6G, 7 und 8 erläutert. In der folgenden Beschreibung ist angenommen, daß die Netzwerksteuerungsprozessoren (NCPs) 400 und 410 abgeschaltet sind.

Es wird angenommen, daß der NCP 200 eine Nachricht 201 über die Übertragungsleitung (Schleife) 2300 aussendet. Wenn die Nachricht nicht innerhalb einer vorgegebenen Zeitspanne T&sub1; an die Sendequelle NCP 200 zurückgeliefert wird, überträgt der NCP 200 dieselbe Nachricht nochmals zur Bestätigung. Wenn Anzahl der erneuten Übertragungen eine vorgegebene Anzahl N&sub1; erreicht, bestimmt der BIT 200B, daß ein Fehler auf der Übertragungsleitung auftrat (siehe Fig. 6A). Dann sendet der BIT 200B ein Unterschleifen-Prüfsignal 202 aus, um zu überprüfen, ob die Nachricht an den NCP 300 des benachbarten Untersystems übertragen werden kann. Wenn der BIT 300B des NCP 300 das Unterschleifen-Prüfsignal 202 über die Übertragungsleitung 2300 empfängt, ermittelt er, daß irgendwo auf der Übertragungsleitung ein Fehler auftrat, und er sendet ein Unterschleifen-Prüfsignal 202 an den paarweise zugeordneten NCP 310 und sendet auch ein Unterschleifen-Prüfsignal 302 an die Übertragungsleitung 3400.

Wenn der NCP 310 das Unterschleifen-Prüfsignal 202 über den Nebenweg 300A empfängt, sendet er ein Unterschleifen-Prüfsignal 202 an die Schleife 3200 aus. Wenn der BIT 210B des NCP 210 das Unterschleifen-Prüfsignal 202 von der Schleife 3200 empfängt, sendet er das Unterschleifen-Prüfsignal 202 an den paarweise zugeordneten NCP 200 aus. Auf diese Weise ermittelt der BIT 200B dann, wenn das Unterschleifen-Prüfsignal 202 an die Sendequelle NCP 200 rückgeliefert wird, daß er eine Nachricht an den benachbarten NCP 300 liefern kann, und er sendet die Nachricht an die Schleife 2300 aus.

Andererseits informiert der BIT 200B den BIT 210B des NCP 210, daß ein Fehler in der inneren Schleife aufgetreten sein könnte. Daher sendet der BIT 210 ein Unterschleifen-Prüfsignal 212 an die Schleife 2100 aus, wie dies der BIT 200B tat. Wenn der BIT des NCP das Unterschleifen-Prüfsignal empfängt, überprüft er die Unterschleife auf dieselbe Weise, wie dies oben beschrieben wurde. Da beim vorliegenden Beispiel angenommen wurde, daß die NCPs 400 und 410 abgeschaltet sind, wird das Unterschleifen-Prüfsignal nicht an den BIT 300B und 110B zurückgeliefert.

Infolgedessen bildet der BIT 300B den Nebenweg 300A aus und der BIT 110 bildet den Nebenweg 110A aus, und sie senden empfangene Nachrichten nicht an die Schleifen 3400 bzw. 1400, sondern nur an die Nebenwege 300A bzw. 110A (siehe FiG. 6B).

Die BITs 300B und 110B, die die Nebenwege bildeten, senden Nebenwegausbildungs-Nachrichtensignale 303 bzw. 113 aus. Wenn der mit einem EXT 1010 verbundene NCP 10 oder 110 das Nebenwegausbildungs-Nachrichtensignal 303 oder 113 empfängt, sendet er das Signal 303 oder 113 an den Prozessor 1000 (siehe Fig. 6C). Der EXT 1010 des Prozessors 1000 diagnostiziert auf Grundlage des Nebenwegausbildungs-Nachrichtensignals 113, daß bei 113' ein Fehlerort vorliegt (schraffierter Bereich in Fig. 6D), und er diagnostiziert auf Grundlage des Nebenwegausbildungs-Nachrichtensignals 303, daß bei 303' (rechter schraffierter Bereich in Fig. 6D) ein Fehlerort vorliegt. Der EXT 1010 kombiniert die Diagnoseergebnisse und ermittelt, daß der Fehlerort irgendwo in den Bereichen 113' und 303' liegt und er zeigt dies auf der Anzeige 1020 an.

Die BITs 300B und 110B, die die Nebenwege abwechselnd und zyklisch ausbildeten, senden die Unterschleifen-Prüfsignale 302 und 112 (Fig. 6D) und Hauptschleifen-Prüfsignale 304 und 114 (Fig. 6E) aus, um zu überprüfen, ob der Fehler behoben wurde. Da das Hauptschleifen-Prüfsignal von keinem NCP umgeleitet wird, erkennt der BIT 300B, wenn das Hauptschleifen- Prüfsignal 304 um die Schleife umläuft und zur Sendequelle zurückkehrt, daß der Fehler in der Schleife behoben wurde, und er hebt seinen eigenen Nebenweg 300A auf. Wenn das vom BIT 300B oder 110B ausgegebene Unterschleifen-Prüfsignal zur Sendequelle BIT zurückkehrt, gibt diese ihren eigenen Nebenweg auf (siehe Fig. 6E).

Nachdem der BIT 300B den Nebenweg aufgehoben hat, sendet er ein Nebenwegaufhebe-Nachrichtensignal 305 aus. Wenn der mit dem EXT 1010 verbundene NCP 100 das Nebenwegaufhebungs-Nachrichtensignal 305 empfängt, sendet er das Signal 305 an den EXT 1010 (siehe Fig. 6F).

Der EXT 1010 löscht das Nebenweg-Nachrichtensignal 303 vom BIT 300B auf Grundlage des Nebenwegaufhebungs-Nachrichtensignals 305 für die Diagnoseergebnisse 113' und 303', und er löscht auch das Fehlerdiagnoseergebnis auf der Schleife 4100, um den Fehlerortbereich auf einen Bereich 113'' (siehe Fig. 6G) einzuengen.

Damit ein Sendevorgang korrekt ausgeführt werden kann, ist es wesentlich, daß die Adressen der jeweiligen NCPs so eingestellt werden, daß sie einander nicht überlappen. Zu diesem Zweck überprüft jeder BIT, ob der andere NCP dieselbe Adresse wie er selbst aufweist, wenn die Spannung eingeschaltet wird. Wenn angenommen wird, daß der NCP 100 gestartet wird, wenn die NCPs 200, 300, 310, 210 und 110 bereits gestartet wurden (siehe Fig. 7A), sendet der BIT 100B des gestarteten NCP 100 einen später zu beschreibenden Adreßzug 106 aus. Der Adreßzug 106 wird sequentiell von den jeweiligen NCPs empfangen und nach dem Registrieren der Adresse ausgesendet. Nachdem der Adreßzug 106 zweimal auf der Übertragungsleitung umlief, wird er durch die Sendequelle BIT 100 an den EXT 1010 übertragen. Ein Prozeß zum Aufbauen des Adreßzugs, wie er durch die jeweiligen NCPs durchläuft, ist in Fig. 8 dargestellt. Jeder BIT registriert die Adresse 106A und setzt ein Nebenwegflag 106B auf "1", wenn der Nebenweg ausgebildet ist.

Der BIT 100B empfängt den Adreßzug 106B, nachdem er zweimal auf der Übertragungsleitung umgelaufen ist, und wenn die Adressen der anderen Untersysteme zwischen seinen eigenen Adressen 100 im ersten und im zweiten Durchgang nicht gleich sind, erkennt er, daß eine überlappende Adresse vorliegt, und er hält weitere Übertragung an. Der mit dem EXT 1010 verbundene NCP 100 liest den Adreßzug 106 und teilt ihn dem EXT 1010 mit. Der EXT 1010 überprüft das Nebenwegflag und die Adresse im Adreßzug 106 und ermittelt die Konfiguration des Systems als 106' (siehe Fig. 7B) und zeigt diese auf der Anzeige 1020 an.

Wenn ein Senden an den NCP 100 (oder 110) nicht zulässig ist, schaltet der BIT im Prozessor die Übertragungsrichtung auf den paarweise zugeordneten NCP 110 (oder 100) um.

Während die Erfindung beim obigen Beispiel auf ein System mit Übertragungsschleife angewendet ist, ist sie nicht hierauf beschränkt, sondern sie kann auf andere verteilte Verarbeitungssysteme angewendet werden, wie ein verteiltes Verarbeitungssystem mit einer geraden Leitung oder mit Quervernetzung.

Für Details betreffend den Betrieb des obigen Ausführungsbeispiels kann auf das US-Patent 4,380,061 "Loop Transmission System" und auf die Japanische Patentoffenlegungsveröffentlichung 200951/82 Bezug genommen werden.

[Zweites Ausführungsbeispiel]

Beim oben beschriebenen ersten Ausführungsbeispiel besteht eine Schwierigkeit dahingehend, daß es nicht möglich ist, zu ermitteln, ob der festgestellte vorübergehende Fehler ein Dauerfehler wird oder nicht, und das Ausmaß des Fehlers läßt sich nicht feststellen. Dies wird nun im einzelnen erläutert.

Fig. 9 zeigt die Gesamtkonfiguration eines Systems mit Übertragungsschleife. Bezugszeichen 71 und 72 bezeichnen Übertragungsschleifenleitungen zum Übertragen von Information in einander entgegengesetzten Richtungen; Netzwerksteuerprozessoren (NCPs) 711-716 sowie 721-726 sind in den Übertragungsschleifenleitungen 71 und 72 angeordnet. Die paarweise zugeordneten NCPs sind über Nebenwege 741-746 sowie 751- 756 miteinander verbunden. Prozessoren (Hostcomputer) 731- 736 sind mit den paarweise zugeordneten NCPs über Zweirichtungs-Übertragungsleitungen 761-766 sowie 771-776 verbunden.

Fig. 10 zeigt eine Anordnung von Testern. Die NCPs 711-716 sowie 721-726 sowie die HOSTs 731-736 beinhalten eingebaute Tester (BITs = Built in Testers) 7101-7106, 7201- 7206 sowie 7501-7506. Wie es später erläutert wird, wird, da jeder BIT die Fehler in anderen Untersystemen erfaßt, diagnostiziert und behebt, die Übertragung nicht unterbrochen, sondern selbst dann fortgesetzt, wenn ein Fehler im Untersystem auftritt.

Fig. 11 zeigt eine interne Konfiguration für den NCP. Während der NCP 716 speziell dargestellt ist, weisen die anderen NCPs dieselbe Konfiguration auf.

Der NCP 716 weist einen Prozessor 7160, eine Schnittstelle 7162 zur Übertragungsschleifenleitung 71, eine Schnittstelle 7163 zum KOST 736 und zum paarweise zugeordneten NCP 726, einen Empfangspuffer 7164 zum Einspeichern einer von der Übertragungsschleifenleitung 71 und dem paarweise zugeordneten NCP 726 empfangenen Nachricht, einen Übertragungspuffer 7165 zum Einspeichern einer vom HOST 736 empfangenen Nachricht, eine Eingangs-Inhaltscodetabelle 7166 zum Einspeichern eines Inhaltscodes einer durch den NCP 716 einzulesenden Nachricht, einen Zeitgeber T&sub1; 7167 zum Überwachen eines Fehlers bei der Übertragung, ein Nebenwegstatusregister 7168 zum Erfassen des Nebenwegstatus der eigenen Einheit, einen Zeitgeber T&sub2; 7169 für periodisches Überprüfen einer zeitlichen Änderung eines vorübergehenden Fehlers, sowie einen Fehlerprotokoll- (oder Historie)puffer 7170 auf, um den Werdegang des Fehlerstatus abzuspeichern. Ein Betriebsprogramm für den BIT ist in einem Speicher 7161 abgespeichert.

Fig. 12 zeigt eine interne Konfiguration für den HOST. Während der KOST 732 speziell dargestellt ist, weisen die anderen HOSTs dieselbe Struktur auf, mit Ausnahme der externen Tester und der später zu beschreibenden Anzeigen.

Der KOST 732 weist einen Prozessor 7320, eine Schnittstelle 7321 zu den NCPs 712 und 722, einen Empfangspuffer 7322, einen Übertragungspuffer 7323 und Zeitgeber T&sub1; und T&sub2;, 7330 und 7331 auf, die dieselben Funktionen wie die oben beschriebenen aufweisen. Weiterhin weist er Flags 7324 und 7325 auf, um den NCPs 712 und 722 anzuzeigen, ob Übertragung zugelassen oder nicht zugelassen ist. Er weist auch einen Speicher 7326 zum Abspeichern eines BIT-Betriebsprogramms und einen Puffer 7327 zum Abspeichern des Ergebnisses eines BIT-Betriebsablauf auf.

Ein externer Tester EXT 7602 zum Kennzeichnen des Fehlerorts eines Systems zum Aufrechterhalten des Systems ist im HOST 732 vorhanden. Der EXT 7602 gibt den Fehlerort an die Anzeige 7702 aus, um eine Wartungsperson zu informieren. Das Betriebsprogramm des EXT 7602 ist in den Speicher 7328 eingespeichert und der Puffer 7329 speichert das Ergebnis des Betriebsablaufs.

Ein Fehlervorhersage-Diagnoseablauf, wenn ein von einer Störung auf der Übertragungsleitung hervorgerufener vorübergehender Fehler allmählich anwächst, wird unter Bezugnahme auf die Fig. 13A bis 13D erläutert.

Fig. 13A zeigt einen Ablauf, wenn ein vorübergehender Fehler in der Übertragungsschleifenleitung 71 zwischen den NCPs 714 und 715 auftrat. Wenn der NCP 716 eine Nachricht über die Übertragungsschleifenleitung 71 aussendet, wird die ausgesendete Nachricht selbst nach einer vorgegebener Zeitspanne T&sub1; nicht zurückgeliefert, und demgemäß sendet der NCP 716 dieselbe Nachricht erneut aus. Wenn diese Nachricht wegen des vorübergehenden Fehlers nach einer Wiederholung des Wiederaussendens mit einer vorgegebenen Anzahl N&sub1; nicht umläuft, bestimmt der BIT 7106 des NCP 716, daß ein Fehler auf der Übertragungsschleifenleitung 71 vorliegt.

Der BIT 7106 sendet dann ein Unterschleifen-Prüfsignal 7302 aus, um zu überprüfen, ob er die Nachricht an den benachbarten NCP 715 übertragen kann, wie dies in Fig. 13B dargestellt ist. Wenn der BIT 7105 des NCP 715 das Unterschleifen-Prüfsignal 7302 über die Übertragungsschleifenleitung 71 empfängt, sendet er das empfangene Unterschleifen-Prüfsignal 7302 an den paarweise zugeordneten NCP 725 aus und sendet auch ein Unterschleifen-Prüfsignal 7301 aus. Wenn der BIT i 7205 des NCP 725 das Unterschleifen-Prüfsignal 7302 über den Nebenweg 755 empfängt, sendet er das Unterschleifen-Prüfsignal 7302 an die Übertragungsschleifenleitung 72 aus.

Wenn der BIT 7206 das Unterschleifen-Prüfsignal 7302 von der Übertragungsschleifenleitung 72 empfängt, überträgt er das Unterschleifen-Prüfsignal 7302 an den paarweise zugeordneten NCP 716. Wenn das Unterschleifen-Prüfsignal 7302 umläuft und zur Sendequelle NCP 716 zurückkehrt, kann der BIT 7106 die Nachricht an den benachbarten NCP 715 übertragen und er bestimmt, daß kein Fehler vorhanden ist und nachfolgend sendet er die Nachricht an die Übertragungsschleifenleitung 71 aus.

Es sei angenommen, daß das vom BIT 7105 ausgesendete Unterschleifen-Prüfsignal 7301 wegen eines Übertragungsfehlers in der Übertragungsschleifenleitung nicht zurückkehrt. In diesem Fall bildet der BIT 7105 einen Nebenweg 755 aus und sendet die empfangene Nachricht anschließend nicht an die Übertragungsschleifenleitung 71, sondern er sendet sie nur an den Nebenweg 755 aus. Andererseits informiert der BIT 7106 den BIT 7206, daß ein Fehler auf der Übertragungsschleifenleitung 72 vorliegen kann, und der BIT 7206 sendet ein Unterschleifen-Prüfsignal 7303 aus, wie dies der BIT 7106 tat.

Die BITs 7201, 7202, 7203 und 7204 überprüfen aufeinanderfolgend die Unterschleifen auf dieselbe Weise. Wenn angenommen wird, daß das Unterschleifen-Prüfsignal 7307 wegen des vorübergehenden Fehlers nicht zum BIT 7204 zurückkehrt, bildet der BIT 7204 den Nebenweg 744 aus, wie dies in Fig. 13B dargestellt ist, und anschließend sendet er die empfangene Nachricht nicht an die Übertragungsschleifenleitung 72, sondern nur an den Nebenweg 744 aus.

Die BITs 7105 und 7204, die die Nebenwege ausbildeten, senden Nebenwegausbildungs-Nachrichtensignale 7308 und 7309 aus. Wenn der EXT 7602 die Nebenwegausbildungs-Nachrichtensignale von den NCPs 712 und 772 empfängt, zeigt er den Fehlerort auf der Anzeige 7702 an (siehe Fig. 13C).

Die BITs 7105 und 7204, die die Nebenwege abwechselnd und zyklisch ausbildeten, senden ein Hauptschleifen-Prüfsignal aus, das von keinen NCP umgeleitet wird, und das Unterschleifen-Prüfsignal, um zu überprüfen, ob der Fehler behoben wurde. Wenn eines dieser Signale zurückkehrt, geht der BIT 7105 oder 7204 davon aus, daß der zuvor ermittelte Fehler behoben wurde, und er hebt den Nebenweg auf und sendet anschließend die empfangene Nachricht an die Übertragungsschleifenleitung.

Da der Fehler zwischen den NCPs 715 und 714 ein vorübergehender Fehler ist, kann das vom BIT 7105 ausgesendete Unterschleifen-Prüfsignal zurückkehren. In diesem Fall bestimmt im Diagnosesystem bei einem Übertragungsschleifensystem aus dem Stand der Technik der EXT 7602, daß das System normal ist (siehe Fig. 13D). So wird die Wartung des vorübergehenden Fehlers nicht ausgeführt, obwohl dieser vorübergehende Fehler immer noch vorhanden ist.

Beim zweiten Ausführungsbeispiel der Erfindung wird, um diese Schwierigkeit zu lösen, ein Maß für den vorübergehenden Fehler abgespeichert, und falls erforderlich, wird bestimmt, ob sich der vorübergehende Fehler in einen Dauerfehler umwandelt oder nicht, was auf Grundlage einer zeitlichen Änderung des Maßes des Fehlers erfolgt; wenn festgestellt wird, daß sich der Fehler in einen Dauerfehler umwandelt, wird dies einem Mensch/Maschine-System mitgeteilt, um die Wartbarkeit zu verbessern. Auf diese Weise wird ein Übertragungsschleifensystem geschaffen, das dazu in der Lage ist, einen Fehler vorherzusagen und zu diagnostizieren.

Zu diesem Zweck ist beim zweiten Ausführungsbeispiel ein Doppelschleifenübertragungssystem mit zwei Übertragungsschleifenleitungen zum Übertragen von Daten in einander entgegengesetzten Richtungen, mit paarweise zugeordneten NCPs in den Übertragungsleitungen und mit Nebenwegen zum Übertragen von Daten zwischen den paarweise zugeordneten NCPs in zwei Richtungen mit Einrichtungen zum Abspeichern eines Maßes für den auf der Übertragungsleitung festgestellten Fehler versehen.

Das zweite Ausführungsbeispiel wird im einzelnen unter Bezugnahme auf die Zeichnungen erläutert. Beim vorliegenden Ausführungsbeispiel wird die obige Aufgabe dadurch gelöst, daß dem oben beschriebenen BIT eine neue Funktion hinzugefügt wird. Die neue Funktion verwendet einen Programmablauf eines Mikroprozessors.

Fig. 14 zeigt eine zeitliche Änderung des Maßes des Fehlers auf der Übertragungsleitung. Die Ordinate repräsentiert ein Verhältnis TR (Übergangsrate), die dadurch erhalten wird, daß die Anzahl (RC) von Rücksendungen des Unterschleifen- Prüfsignals innerhalb einer vorgegebenen Zeitspanne durch die Sendeanzahl (SC) geteilt wird, um dies als Maß für den Fehler zu erhalten, und die Abszisse repräsentiert die Zeit. D.h.:

TR = RC/SC.

Symbole zeigen ein Muster bei normalem Zustand, Symbole zeigen ein Muster bei Dauerfehler und Symbole Δ zeigen ein Muster bei vorübergehendem Fehler an. Es wird davon ausgegangen, daß das Maß des vorübergehenden Fehlers dazu neigt, zeitlich allmählich zuzunehmen.

Fig. 15 veranschaulicht ein Prinzip der Erfindung. Die Ordinate und die Abszisse repräsentieren jeweils denselben Inhalt wie in Fig. 14. Der Zeitachsenmaßstab der Abszisse ist als Prüfintervall dargestellt; die oben beschriebenen Werte RC und SC werden mit jedem Prüfintervall auf null rückgestellt. Die Zeit (Fehlervorhersagezeit) tT, zu der der Fehler vermutlich ein Dauerfehler wird, wird nur dann berechnet, wenn der das Maß des Fehlers anzeigende Fehler TR unter einem Wert Nmin (z. B. Nmin = 0,5) liegt, der anzeigt, daß ein Fehler eindeutig auf der Übertragungsleitung vorliegt.

Wenn das Fehlermaß TR(JETZT) zu einem in Fig. 15 dargestellten Zeitpunkt T&sub4; unterhalb von Nmin liegt, werden die Unterschiede zwischen den Fehlermaßen für benachbart erzeugte Werte ΔX(1), ΔX(2) und ΔX(3) auf Grundlage der Fehlermaße für die drei in der Vergangenheit erzeugten Werte TR(3), TR(2) und TR(1) sowie des Fehlermaßes beim aktuell erzeugten Wert TR(JETZT) berechnet, und ein Mittelwert ΔX derselben wird berechnet.

Die Vorhersagezeit tT kann als eine Zeit relativ zur aktuellen Zeit wie folgt dargestellt werden:

tT = TR(JETZT) x tfix/ΔX,

wobei tfix das Prüfintervall ist.

Der Betrieb des BIT im NCP wird nun durch das in Fig. 16 dargestellte Verarbeitungsflußdiagramm erläutert. Alle BITs in den Untersystemen, die denselben Algorithmus verwenden, wird nur der BIT 7106 im NCP 716 erläutert.

Der BIT 7106 wird zyklisch betrieben und er überprüft, ob die Zeit des Zeitgeber T&sub2; abläuft (8000). Das Prüfintervall tfix wurde im Zeitgeber T&sub2; zum Zeitpunkt der vorigen Prüfung eingestellt, und der Inhalt wird mit Ablauf der Zeit dekrementiert. Wenn die Zeit des Zeitgebers T&sub2; abläuft, wird die nächste Prüfung gestartet. Wenn die Zeit des Zeitgebers nicht abläuft, wird die Prüfung nicht ausgeführt.

Wenn die Zeit des Zeitgebers T&sub2; abläuft, wird im Zeitgeber T&sub2; ein Prüfintervall t neu gesetzt (8100). Es wird überprüft, ob SC null ist oder nicht (8200). Wenn SC null ist, wird kein Ablauf ausgeführt, aber wenn SC nicht null ist, wird das aktuelle Fehlermaß TR(JETZT) durch die folgende Gleichung berechnet:

TR(JETZT) = RC/SC.

Dann werden RS und SC initialisiert (8400) und es wird überprüft, ob das aktuelle Fehlermaß TR(JETZT) unter dem Bezugswert Nmin liegt (8500). Wenn das aktuelle Fehlermaß TR(JETZT) nicht unterhalb Nmin liegt, wird das Protokoll für das Fehlermaß aktualisiert (9300), aber wenn es unter Nmin liegt, wird das Protokoll des Fehlermaßes für drei Erzeugungen aus dem Fehlerprotokollpuffer ausgelesen und die folgenden Berechnungen werden ausgeführt (8600):

ΔX(1) = TR(1)-TR(JETZT)

ΔX(2) = TR(2)-TR(1)

ΔX(3) = TR(3)-TR(2)

Der Mittelwert ΔX von ΔX(1), ΔX(2) und ΔX(3) wird berechnet (8700). Das Vorzeichen des Mittelwerts ΔX wird untersucht, und wenn ΔX > 0 ist, wird festgestellt, daß das Fehlermaß des vorübergehenden Fehlers zeitlich anwächst, wenn jedoch ΔX ≤ 0 ist, wird festgestellt, daß das Fehlermaß nicht wächst (8800). Wenn ΔX > 0 ist, wird die Vorhersagezeit tT, zu der der aktuelle, vorübergehende Fehler ein Dauerfehler wird, durch die folgende Gleichung berechnet:

tT = TR(JETZT) x tfix/ΔX.

Eine Nachricht zum Mitteilen des Berechnungsergebnisses an den EXT 7602 wird erstellt und die eigene NCP-Adresse (SA), die Zeit (Zeit relativ zur aktuellen Zeit) tT, zu der der vorübergehende Fehler ein Dauerfehler wird, und das aktuelle Fehlermaß TR(JETZT) werden in ein Datenfeld der Nachricht (9000) eingeschrieben und die Daten werden an den EXT ausgesendet.

Wenn das Fehlermaß des vorübergehenden Fehlers nicht wächst (ΔX ≤ 0) wird eine Nachricht für den EXT 7602 erstellt und die eigene NCP-Adresse (SA) und das aktuelle Fehlermaß TR(JETZT) werden in ein Datenfeld der Nachricht eingeschrieben (9100) und die Daten werden an den EXT ausgesendet.

In jedem Fall wird nach dem Aussenden der Daten das letzte Protokoll für das Fehlermaß aktualisiert (9300).

Wenn der EXT 7602 die Daten empfängt, zeigt er sie auf der Anzeige 7702 an. Eine Wartungsperson des Systems beobachtet diese, und sie kann die Tatsache, daß ein vorübergehender Fehler vorliegt, das Fehlermaß und die Voraussagezeit erkennen, zu der der vorübergehende Fehler ein Dauerfehler wird, so daß sie den vorübergehenden Fehler voraussagen und diagnostizieren kann.

Während der Ablauf des BIT in einem NCP beim zweiten Ausführungsbeispiel vorstehend beschrieben wurde, arbeiten die BITs der anderen Untersysteme auf dieselbe Weise, mit Ausnahme des BIT im HOST, der überprüft, ob eine Übertragung an die zwei NCPs angenommen wurde oder nicht angenommen wurde, anstatt daß er eine Unterschleife ausführt, um einen vorübergehenden Fehler zu ermitteln.

Gemäß dem zweiten Ausführungsbeispiel der Erfindung ist ein Doppelschleifen-Übertragungssystem mit zwei Übertragungsschleifenleitungen zum Übertragen von Daten in entgegengesetzten Richtungen, mit paarweise zugeordneten NCPs in den Übertragungsleitungen sowie Nebenwegen zum Übertragen der Daten zwischen den paarweise zugeordneten NCPs in zwei Richtungen mit Einrichtungen zum Einspeichern des Maßes eines Fehlers auf den Übertragungsleitungen versehen. Bei einer Betriebsart wird der Inhalt der Speichereinrichtung wie erforderlich ausgelesen, um zeitliche Änderungen des Fehlermaßes auszugeben, während in einer anderen Betriebsart die Möglichkeit der Änderung des vorübergehenden Fehlers zu einem Dauerfehler vorhergesagt wird, und in einer noch anderen Betriebsart die Zeit vorhergesagt wird, zu der sich der vorübergehende Fehler in einen Dauerfehler umwandeln wird.

Wie oben beschrieben wird durch die Erfindung ein verteiltes Verarbeitungssystem mit mehreren untereinander auf gleichem Niveau verbundenen Untersystemen angegeben, wobei jedes Untersystem eine Funktion zum Diagnostizieren von Fehlern in anderen Untersystemen aufweist, und es sein eigenes Untersystem auf Grundlage der Diagnose von Fehlern der anderen Untersysteme schützt. Demgemäß wird eine Systemabschaltung im verteilten Verarbeitungssystem verhindert und die Zuverlässigkeit des Systems wird verbessert. Beim zweiten Ausführungsbeispiel ist die Einrichtung zum Abspeichern des Maßes des Fehlers auf der Übertragungsleitung vorgesehen. Demgemäß können dann, wenn ein vorübergehender Fehler auftritt, die zeitliche Änderung des Ausmaßes des vorübergehenden Fehlers und die Umwandlung des vorübergehenden Fehlers in einen Dauerfehler einem Mensch/Maschine-System mitgeteilt werden, um die Wartbarkeit zu verbessern. So wird ein Übertragungsschleifensystem angegeben, das leicht hinsichtlich eines Fehlers voraussagend diagnostiziert werden kann.


Anspruch[de]

1. Verteiltes Verarbeitungssystem mit mehreren über mindestens einen Übertragungsweg (1200, 2300, 3400, 4100) miteinander verbundenen Untersystemen (1, 2, 3, 4, 5), deren jedes ums faßt:

eine Einrichtung zum Anlegen eines Diagnosesignals an den Übertragungsweg, um einen Fehler in anderen Untersystemen und/oder in an das eigene Untersystem angeschlossenen Übertragungswegen zu erkennen,

eine Einrichtung zur Beurteilung des Fehlers in den anderen Untersystemen und/oder den Übertragungswegen aufgrund der Antwort auf das Diagnosesignal,

eine erste Speichereinrichtung (7168) zur Speicherung von von der Beurteilungseinrichtung erzeugten Netzwerk-Zustandsdaten, und

eine Einrichtung zur Steuerung der Übertragung über die Übertragungswege aufgrund der gespeicherten Netzwerk-Zustandsdaten derart, daß eine Ausbreitung des ermittelten Fehlers verhindert wird, dadurch gekennzeichnet, daß jedes Untersystem ferner umfaßt:

eine Einrichtung zur Erzeugung eines Signals (TR), das ein Maß für den Fehler in den anderen Untersystemen und/oder den Übertragungswegen angibt, wobei das Fehlermaß auf der Anzahl (RC) von Rückkehrungen des Diagnosesignals, bezogen auf die Anzahl (SC) seiner Aussendungen, beruht,

eine zweite Speichereinrichtung (7170) zur Speicherung des erzeugten Signals als Fehlerhistorie,

eine Einrichtung zur Ausgabe des Inhalts der zweiten Speichereinrichtung, und

eine Einrichtung zur Vorhersage eines dauerhaften Fehlers aufgrund des Inhaltes der zweiten Speichereinrichtung.

2. System nach Anspruch 1, wobei das Diagnosesignal eine Hauptschleifen-Prüfnachricht und eine Unterschleifen-Prüfnachricht umfaßt.

3. System nach Anspruch 1 oder 2, wobei jedes Untersystem ferner eine Einrichtung zum Aussenden einer Adreßzug-Nachricht und eine Einrichtung zum Registrieren einer eigenen Adresse in der Adreßzug-Nachricht umfaßt.

4. System nach einem der Ansprüche 1 bis 3, wobei die zweite Speichereinrichtung (7170) ferner eine zeitliche Änderung (ΔX) des erzeugten Signals (TR) speichert.

5. System nach einem der Ansprüche 1 bis 4, wobei die Vorhersageeinrichtung dann, wenn das erzeugte Signal (TR) unter einem vorgegebenen Wert liegt, eine Anzeige erzeugt, daß der ermittelte Fehler dauerhaft wird.







IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com