PatentDe  


Dokumentenidentifikation EP1444580 10.11.2005
EP-Veröffentlichungsnummer 0001444580
Titel VERFAHREN UND ANORDNUNG ZUR KORREKTUR VON BITFEHLERN DIE AUFTRETEN BEI CACHEZUGRIFFEN OHNE BLOCKIERUNG
Anmelder Sun Microsystems, Inc., Santa Clara, Calif., US
Erfinder TREMBLAY, Marc, Menlo Park, US;
CHAUDHRY, Shailender, San Francisco, US
Vertreter derzeit kein Vertreter bestellt
DE-Aktenzeichen 60206522
Vertragsstaaten DE, FR, GB
Sprache des Dokument EN
EP-Anmeldetag 06.11.2002
EP-Aktenzeichen 027787597
WO-Anmeldetag 06.11.2002
PCT-Aktenzeichen PCT/US02/35681
WO-Veröffentlichungsnummer 0003042828
WO-Veröffentlichungsdatum 22.05.2003
EP-Offenlegungsdatum 11.08.2004
EP date of grant 05.10.2005
Veröffentlichungstag im Patentblatt 10.11.2005
IPC-Hauptklasse G06F 11/22

Beschreibung[en]
Field of the Invention

The present invention relates to mechanisms for providing fault-tolerance within computing systems. More specifically, the present invention relates to a method and an apparatus for fixing bit errors encountered during cache references without blocking concurrently executing threads and/or processes.

Related Art

Rapid advances in semiconductor technology presently make it possible to incorporate large caches onto a microprocessor chip. For example, some microprocessors include multiple processors and associated level one (L1) caches that access. a large level two (L2) cache, wherein all of these structures reside on the same microprocessor chip. Locating the L2 cache on the microprocessor chip dramatically decreases the time required to access the L2 cache, and can thereby increase performance of the microprocessor system.

However, large on-chip caches are susceptible to random bit errors. One solution to this problem is to use error-correcting codes to detect and correct these errors. Semiconductor memories located outside a microprocessor chip often include additional space for storing an error-correcting code for each data word. When a data word is first stored to the memory, an error-correcting code is calculated from the data word, and this error-correcting code is stored along with the data word in the memory. When the data word is subsequently retrieved from the memory, the error-correcting code is also retrieved. At the same time, a new error-correcting code is calculated for the retrieved data word. If the new error-correcting code differs from the retrieved error-correcting code, a bit error has occurred in either the data word of the error-correcting code. In this case, the error-correcting code can be used to correct the bit error.

This process of reading data, detecting an error and correcting the error involves a read-modify-write (RMW) operation. Implementing a RMW operation to correct errors introduces additional delay into a cache access which can greatly reduce computer system performance, and can require additional circuitry that consumes valuable on-chip real estate. Consequently, large on-chip caches presently do not support a RMW operation to detect and correct bit errors. An existing on-chip cache simply checks for data errors during read operations, and if a data error is detected, the entire system simply stops, thereby preventing other requests from accessing the cache. Alternatively, a trap can be generated and overflow buffers can be used to pile up outstanding transactions.

In single-chip multiprocessor systems, a large number of transactions may be outstanding at any given time from multiple processors and threads. Hence, providing a mechanism to stop all transactions, or to pile up outstanding requests, introduces a significant amount of complexity and consumes valuable on-chip real estate.

Hence, what is needed is a method and an apparatus for fixing bit errors encountered during references to an on-chip cache without significantly complicating design of the on-chip cache and without stopping outstanding transactions from progressing through the memory subsystem.

US 4598402 discloses a system for the treatment of single bit errors in a buffer storage unit. If an error is detected in data held in the buffer, the address data for the data is put into an error address register. This causes the system to move the relevant data out of the buffer storage unit to the main storage unit, during which process the ECC system can correct the error in the data.

US 6038693 discloses a multi-way set-associative cache that utilizes a single ECC code in which the ECC bits are evenly distributed among the tag arrays to protect all of the multi-way tags. The cache includes a plurality of data arrays - one for each way of the cache - along with a corresponding plurality of tag arrays. The ECC bits are appended to each tag entry for one of the multiple ways.

SUMMARY

One embodiment of the present invention provides a system that fixes bit errors encountered during references to a cache memory. During execution of an application, the system performs a reference to the cache memory by retrieving a data item and an associated error-correcting code from the cache memory. Next, the system computes an error-correcting code from the retrieved data item and compares the computed error-correcting code with the associated error-correcting code. If the computed error-correcting code does not match the associated error-correcting code a bit error has occurred. In this case, the system stores an identifier for the reference in a register within a set of one or more registers associated with the cache memory. The system also allows the application to continue executing. In particular, the system continues execution of other threads in the application while a thread that made the reference waits for the reference to complete. After the continued execution of the application, the stored identifier is read at some later time from the register, and the corresponding data item is corrected.

In a variation on this embodiment, the system subsequently fixes the bit error in the cache memory. This involves reading the identifier for the reference from the register, and using the identifier to retrieve the data item and the associated error-correcting code from the cache. It also involves using the associated error-correcting code to produced a corrected data item and error-correcting code, and then storing the corrected data item and error-correcting code into the cache memory.

In a variation on this embodiment, fixing the bit error involves fixing the bit error at a periodic interval determined by an operating system tick timer.

In a variation on this embodiment, retrieving the data item with the associated error-correcting code involves retrieving a tag for the reference with an associated error-correcting code for the tag from the cache memory. It also involves retrieving a data line for the reference with an associated error-correcting code for the data line.

In a variation on this variation, if the bit error is detected in the tag, the system forces a cache miss to cause the reference to be stored in a miss buffer for the cache, whereby the reference can be retried at the later time after the bit error is fixed. In further variation, if the reference is stored in the miss buffer, the system forces a cache fill operation to cause the reference to be activated from the miss buffer after the bit error has been fixed.

In a variation on this embodiment, if the bit error is detected in a data line, the system corrects the bit error through circuitry located on a data path between the cache memory and a processor.

In a variation on this embodiment, registers in the set of one or more registers are organized as a circular buffer that allows entries to be overwritten.

In a variation on this embodiment, the cache memory is a level two (L2) cache or lower in a memory hierarchy.

In a variation on this embodiment, the error-correcting code corrects single-bit errors and detects double-bit errors.

BRIEF DESCRIPTION OF THE FIGURES

  • FIG. 1 illustrates a multiprocessor system including an L2 cache that provides error correction in accordance with an embodiment of the present invention.
  • FIG. 2 illustrates the structure of the L2 cache from FIG. 1 in accordance with an embodiment of the present invention.
  • FIG. 3 is a flow chart illustrating the process of handling an error during a cache reference in accordance with an embodiment of the present invention.
  • FIG. 4 is a flow chart illustrating how errors are fixed in accordance with an embodiment of the present invention.

DETAILED DESCRIPTION

The following description is presented to enable any person skilled in the art to make and use the invention, and is provided in the context of a particular application and its requirements. Various modifications to the disclosed embodiments will be readily apparent to those skilled in the art, and the general principles defined herein may be applied to other embodiments and applications without departing from the spirit and scope of the present invention. Thus, the present invention is not limited to the embodiments shown, but is to be accorded the widest scope consistent with the principles and features disclosed herein.

Multiprocessor System

FIG. 1 illustrates a multiprocessor system 100 including a level two (L2) cache 106 that provides error correction in accordance with an embodiment of the present invention. Note much of multiprocessor system 100 is located within a single semiconductor chip 101. More specifically, semiconductor chip 101 includes a number of processors 110, 120, 130 and 140, which contain level one (L1) caches 112, 122, 132 and 142, respectively. Note that the L1 caches 112, 122, 132 and 142 may be separate instruction and data caches, or alternatively, unified instruction/data caches. L1 caches 112, 122, 132 and 142 are coupled to L2 cache 106 which makes use of error-correcting code as is described in more detail with reference to FIGs. 2-4 below. L2 cache 106 is coupled to off-chip memory 102 through memory controller 104.

In one embodiment of the present invention, L1 caches 112, 122, 132 and 142 are write-through caches, which means that all updates to L1 caches 112, 122, 132 and 142 are automatically propagated to L2 cache 106. This simplifies the coherence protocol, because if processor 110 requires a data item that is present in L1 cache 112, processor 110 can receive the data from L2 cache 106 without having to wait for L1 cache 112 to source the data.

Although the present invention is described in the context of an L2 cache 106, the present invention can generally be applied to any type of cache, including an L3 cache, or possibly even an L1 cache. Furthermore, although the present invention is described in the context of a set-associative cache, the present invention can also be applied to direct-mapped caches.

Cache Structure

FIG. 2 illustrates the structure of L2 cache 106 from FIG. 1 in accordance with an embodiment of the present invention. Like a conventional cache memory, L2 cache 106 includes a memory array for storing tag and status information 204 as well as a memory array for storing data lines 218. Note that if L2 cache 106 is a set-associative cache, tag and status array 204 and data array 218 include multiple entries for each set.

L2 cache 106 also includes a miss buffer 230 that stores memory requests that missed while accessing L2 cache 106 and are waiting for a cache line to be returned from memory 102. Note that each entry in miss buffer 230 includes a bit that indicates if a cache line has been requested from memory 102.

For purposes of clarity, a number of common cache structures are not illustrated in FIG. 2, such as comparators for determining whether a given reference is a cache hit.

L2 cache 106 also includes a number of new structures relating to error-correcting codes, including error registers 232, error-correcting code (ECC) for tags 202, ECC for data 216, ECC circuits 206 and 220, comparators 208 and 226, and multiplexers (MUXes) 212 and 222.

Error registers 232 contain addresses for cache references for which errors were detected. In one embodiment of the present invention, error registers 232 are organized as a circular buffer with a head pointer and a tail pointer. However, unlike a conventional circular buffer, when this circular buffer becomes full, older entries in the circular buffer are simply overwritten. This means that some errors may go uncorrected. However, note that the system will still keep functioning, and the error is likely to be corrected the next time the address is accessed.

ECC for tags 202 includes an ECC for each entry in tag and status array 204. Similarly, ECC for data 216 includes an ECC for each entry in data array 218.

The one or more tags accessed for a given set from tag and status array 204 pass through ECC circuit 306 which produces a new ECC for each tag/status word. Comparator 208 compares new ECC against an ECC retrieved from ECC for tags 202. If these ECCs do not match, error signal 210 is asserted.

The circuit can optionally include multiplexers 212 that produce a corrected tag/status word 214 that is used to correct the tag /status word in some implementations of the present invention.

The one or more data lines accessed for a given set from data array 218 pass through ECC circuit 220, which produces a new ECC for each data line. Comparator 226 compares each new ECC against an ECC retrieved from ECC for tags 202. If these ECCs do not match, error signal 228 is asserted.

The circuit also includes multiplexers 222 that produce a corrected data line 224.

Process of Handling an Error

FIG. 3 is a flow chart illustrating the process of handling an error during a cache reference in accordance with an embodiment of the present invention. Upon receiving a request to access L2 cache 106, the system reads tags for the set specified by the address of the request (step 302). The system then compares the tags to determine whether or not the request generates a cache hit. At the same time the circuitry illustrated in FIG. 2 also detects a tag error if one exists (step 304).

If a tag error is detected, the system logs the address of the request in error registers 232 (step 308), and forces a cache miss to cause the request to be stored in miss buffer 230 along with requests that are waiting for a cache line to be retrieved from memory 102 (step 310). Note that there is no time to correct the tags before the tags are compared with the address of the request, unless the cycle time or the load latency is increased.

Next, the system allows other processes/threads to continue executing while the thread that made the request waits for the request to complete (step 322). In this way, multiprocessor system 100 does not have to completely cease execution because a single thread encountered a tag error.

If an error was not detected in step 304, the system determines if there was a cache hit (step 312). If not, the system generates a cache miss, which causes a cache line to be requested from memory 102 (step 314). The system then allows other threads/processes that are not waiting for the cache miss to return to continue executing (step 322).

If there was a cache hit at step 312, the system reads corresponding data lines from the data array (step 316), and attempts to detect data errors using the circuitry illustrated in FIG. 2 (step 318).

If there is a data error, the system logs the address of the request that caused the error into error registers 232, and corrects the data error in downstream circuitry on a data path to the processor (step 320).

Next, the system continues executing (step 322).

Process of Fixing an Error

FIG. 4 is a flow chart illustrating how errors are fixed in accordance with an embodiment of the present invention. The system starts by receiving an interrupt from the operating system tick timer (step 402).

In addition to performing the normal processor management tasks associated with the tick timer, the system determines if error registers 232 are empty (step 404). If so, no error has occurred, and the system resumes normal program execution.

If error registers 232 are not empty, the system reads an address from an error register (step 406). Next, the system reads tags and data for all ways of the set specified by the address (step 408). The system then corrects tag and data errors as necessary (step 410) before storing the corrected tags and data back into L2 cache 106 (step 412).

If there is a tag error and a cache hit, the system performs a fake cache fill operation to activate any requests that may be waiting in miss buffer 230 (step 414). Note that miss buffer 230 will not attempt to access the cache until miss buffer 230 thinks a cache fill for its requested data has been performed.

If there is a tag error and a cache miss, the system requests a cache line from a lower level of the memory hierarchy (step 416). The system then repeats steps 406, 408, 410, 412, 414 and 416 for all error registers that are filled with address information.

Note that if error registers 232 become overly full and a register is overwritten, the system checks for errors in miss buffer 230 that may be waiting for an overwritten tag error to be fixed (step 418). Any overwritten tag errors detected in this way can be corrected by repeating steps 406, 408, 410, 412, 414 and 416.

In one embodiment of the present invention, much of the process of fixing an error is implemented in software, whereas much of the process of detecting and logging an error is implemented in hardware.

The foregoing descriptions of embodiments of the present invention have been presented only for purposes of illustration and description. They are not intended to be exhaustive or to limit the present invention to the forms disclosed. Accordingly, many modifications and variations will be apparent to practitioners skilled in the art. Additionally, the above disclosure is not intended to limit the present invention. The scope of the present invention is defined by the appended claims.


Anspruch[de]
  1. Verfahren zum Korrigieren von Bitfehlern, die bei Aufrufen in einem Cachespeicher auf einem Halbleiterchip auftreten mit:
    • Durchführung eines Aufrufs an den Cachespeicher (106) während der Ausführung einer Anwendung, welche mehrere Befehlsströme umfasst
    wobei das Ausführen des Aufrufs das Hohlen eines Datenobjektes und eines zugehörigen Fehlerkorrekturcodes von dem Cachespeicher umfasst,

    Berechnen eines Fehlerkorrekturcodes aus dem geholten Datenobjekt, und

    Vergleichen des berechneten Fehlerkorrekturcodes mit den zugehörigen Fehlerkorrekturcodes, wobei dann, wenn der berechnete Fehlerkorrekturcode mit dem zugehörigen Fehlerkorrekturcode nicht übereinstimmt, was anzeigt, dass ein Bitfehler aufgetreten ist, das Verfahren weiterhin aufweist:
    • Speichern einer Kennung für den Aufruf in einem Register (232) in einem Satz von einem oder mehreren Registern, die zu dem Cachespeicher gehören,
    • Fortfahren mit der Ausführung der Anwendung, wobei das Fortfahren der Ausführung der Anwendung das Fortfahren der Ausführung anderer Befehlsstränge in der Anwendung umfasst, während ein Befehlsstrang, der den Aufruf ausgeführt hat, auf den Abschluss des Aufrufs wartet und
    • nach der fortgesetzten Ausführung der Anwendung Lesen der gespeicherten Kennung aus dem Register zu einem späteren Zeitpunkt und Korrigieren des betreffenden Datenobjektes
  2. Verfahren nach Anspruch 1, welches weiterhin das Korrigieren des Bitfehlers in dem Cachespeicher zu einem späteren Zeitpunkt aufweist, indem

    die Kennung für den Aufruf aus dem Register gelesen wird,

    die Kennung verwendet wird, um das Datenobjekt und den zugehörigen Fehlerkorrekturcode zu holen, und

    der zugehörige Fehlerkorrekturcode verwendet wird, um ein korrigiertes Datenobjekt und einen Fehlerkorrekturcode zu erzeugen, und

    Speichern des korrigierten Datenobjektes und des Fehlerkorrekturcodes in dem Cachespeicher.
  3. Verfahren nach Anspruch 2, wobei das Reparieren des Bitfehlers das Reparieren eines Bitfehlers zu einem periodischen Zeitabschnitt beinhaltet, welcher durch einen Taktzeitgeber des Betriebssystems bestimmt wird.
  4. Verfahren nach einem der vorstehenden Ansprüche, wobei das Holen des Datenobjektes den zugehörigen Fehlerkorrekturcode umfasst.

    Holen eines Tags für den Aufruf mit einem zugehörigen Fehlerkorrekturcode für das Tag aus dem Cachespeicher, und

    Holen einer Datenzeile für den Aufruf mit einem zugehörigen Fehlerkorrekturcode für die Datenzeile.
  5. Verfahren nach Anspruch 4,

    wobei dann, wenn der Bitfehler in dem Tag erfasst wird, das Verfahren weiterhin das Erzwingen eines Cachefehlzugriffs aufweist, um zu bewirken, dass der Aufruf in einem Fehlzugriffspuffer (230) des Caches gespeichert wird, wobei der Aufruf zu einem späteren Zeitpunkt erneut versucht werden kann, nachdem der Bitfehler korrigiert worden ist.
  6. Verfahren nach Anspruch 5, wobei dann, wenn der Aufruf in dem Fehlzugriffspuffer gespeichert ist, das Verfahren weiterhin das Erzwingen eines Cacheauffüllvorganges aufweist, um zu bewirken, dass der Aufruf aus dem Fehlzugriffspuffer aktiviert wird, nachdem der Bitfehler korrigiert worden ist.
  7. Verfahren nach Anspruch 4, wobei dann, wenn der Bitfehler in der Datenleitung erfasst wird, das Verfahren weiterhin das Korrigieren des Bitfehlers durch eine Schaltung aufweist, welche auf einem Datenpfad zwischen dem Cachespeicher und einem Prozessor angeordnet ist.
  8. Verfahren nach einem der vorstehenden Ansprüche, wobei Register in dem Satz von einem oder mehreren Registern als Ringpuffer organisiert sind, der es erlaubt, dass Einträge überschrieben werden.
  9. Verfahren nach einem der vorstehenden Ansprüche, wobei der Cachespeicher in einer Speicherhierarchie auf einer Ebene 2 (L2 - Level 2) oder niedriger angeordnet ist.
  10. Verfahren nach einem der vorstehenden Ansprüche, wobei der Fehlerkorrekturcode 1 Einzelbitfehler korrigiert und zweifache Bitfehler erfasst.
  11. Halbleiterchip mit einer Vorrichtung, welche Bitfehler korrigiert, die während Aufrufen auf einem Cachespeicher in dem Halbleiterchip auftreten, mit:
    • dem Cachespeicher (106),
    • einem Eingang für den Cachespeicher, der so ausgestattet ist, dass er einen Aufruf von einer Anwendung aufnimmt, welche mehrere Befehlsströme umfasst,
    • einem Wiedergewinnungsmechanismus, der so ausgestaltet ist, dass er ein Datenobjekt und einen zugehörigen Fehlerkorrekturcode nur für den Aufruf aus dem Cachespeicher holt, bzw. wiedergewinnt,
    • einem Fehlerkorrekturcode-Schaltkreis (206), der dafür ausgelegt ist, aus dem herangeholten Datenobjekt einen Fehlerkorrekturcode zu berechnen,
    • einem Vergleicher (208,226), der dafür ausgelegt ist, einen Bitfehler zu erfassen, indem er den berechneten Fehlerkorrekturcode mit dem zugehörigen Fehlerkorrekturcode vergleicht,
    • einem Satz von einem oder mehreren Registern (232) zum Speichern von Kennungen für Fehler, die während Cacheaufrufen erfasst worden sind, und
    • einem Fehlerprotokolliermechanismus, wobei dann, wenn ein Bitfehler aufgetreten ist, der Fehlerprotokolliermechanismus so ausgestaltet ist, dass er eine Kennung für den Aufruf in einem Register in dem Satz von einem oder mehreren Registern speichert, und
    • einem Bitfehlerkorrekturmechanismus, der so ausgestaltet ist, dass er eine fortgesetzte Ausführung der Anwendung ermöglicht, wobei das Fortführen der Ausführung der Anwendung das Fortführen der Ausführung anderer Befehlsströme in der Anwendung umfasst, während ein Befehlsstrom, der den Aufruf vorgenommen hat, darauf wartet, dass der Aufruf abgeschlossen wird, und um nach der fortgesetzten Ausführung zu einem späteren Zeitpunkt die gespeicherte Kennung aus dem Fehlerprotokolliermechanismus zu lesen und das entsprechende Datenobjekt zu korrigieren.
  12. Vorrichtung nach Anspruch 11, welcher weiterhin einen Bitfehlerkorrekturmechanismus aufweist, der so ausgestaltet ist, dass er

    die Kennung für den Aufruf aus dem Register liest,

    die Kennung verwendet, um das Datenobjekt und den zugehörigen Fehlerkorrekturcode zu holen,

    den zugehörigen Fehlerkorrekturcode zu verwenden, um ein korrigiertes Datenobjekt und einen Fehlerkorrekturcode zu erzeugen und

    das korrigierte Datenobjekt und den Fehlerkorrekturcode in dem Cachespeicher zu speichern.
  13. Vorrichtung nach Anspruch 12, wobei der Bitfehlerkorrekturmechanismus so ausgestaltet ist, dass er Bitfehler zu periodischen Zeitintervallen korrigiert, welche durch einen Taktzeitgeber des Betriebssystems bestimmt werden.
  14. Vorrichtung nach einem der Ansprüche 11 bis 13, wobei der Wiedergewinnungsmechanismus so ausgestaltet ist, dass er

    ein Tag für den Aufruf mit einem zugehörigen Fehlerkorrekturcode für das Tag aus dem Cachespeicher holt, und

    eine Datenzeile für den Aufruf mit einem zugehörigen Fehlerkorrekturcode für die Datenzeile holt.
  15. Vorrichtung nach Anspruch 14, wobei dann, wenn der Bitfehler in dem Tag erfasst wird, der Fehlerprotokolliermechanismus so ausgestaltet ist, dass er einen Cachefehlzugriff auslöst, um zu bewirken, dass der Aufruf in einem Fehlzugriffspuffer (230) für den Cachespeicher gespeichert wird, wodurch der Aufruf zu einem späteren Zeitpunkt, nachdem der Bitfehler korrigiert worden ist, erneut versucht werden kann.
  16. Vorrichtung nach Anspruch 15, wobei dann, wenn der Aufruf in dem Fehlzugriffspuffer gespeichert ist, die Vorrichtung zusätzlich dafür ausgestaltet ist, einen Cacheauffüllvorgang zu erzwingen, um zu veranlassen, dass der Aufruf aus dem Fehlzugriffspuffer aktiviert wird, nachdem der Bitfehler in dem Tag korrigiert worden ist.
  17. Vorrichtung nach Anspruch 14, welche weiterhin eine Schaltung aufweist, die auf einem Datenpfad zwischen dem Cachespeicher und einem Prozessor zum Korrigieren von Bitfehlern in Datenzeilen angeordnet ist.
  18. Vorrichtung nach einem der Ansprüche 11 bis 17, wobei Register in dem Satz von einem oder mehreren Registern als Ringpuffer organisiert sind, der es erlaubt, dass Einträge überschrieben werden.
  19. Vorrichtung nach einem der Ansprüche 11 bis 18, wobei der Cachespeicher in einer Speicherhierarchie ein Cache der Ebene 2 (L2 - Level 2) oder ein niedrigerer ist.
  20. Vorrichtung nach einem der Ansprüche 11 bis 19, wobei der Fehlerkorrekturcode Einzelbitfehler korrigiert und zweifache Bitfehler erfasst.
Anspruch[en]
  1. A method for fixing bit errors encountered during references to a cache memory on a semiconductor chip, comprising:
    • performing a reference to the cache memory (106) during execution of an application involving multiple threads;
       wherein performing the reference involves retrieving a data item and an associated error-correcting code from the cache memory;

       computing an error-correcting code from the retrieved data item; and

       comparing the computed error-correcting code with the associated error-correcting code;

       wherein if the computed error-correcting code does not match the associated error-correcting code indicating that a bit error has occurred, the method further comprises,

          storing an identifier for the reference in a register (232) in a set of one or more registers associated with the cache memory,

          continuing execution of the application, wherein continuing execution of the application involves continuing execution of other threads in the application while a thread that made the reference waits for the reference to complete, and

          after the continued execution of the application, reading at a later time the stored identifier from the register and correcting the corresponding data item.
  2. The method of claim 1, further comprising fixing the bit error in the cache memory at the later time by:
    • reading the identifier for the reference from the register;
    • using the identifier to retrieve the data item and the associated error-correcting code; and
    • using the associated error-correcting code to produce a corrected data item and error-correcting code; and
    • storing the corrected data item and error-correcting code to the cache memory.
  3. The method of claim 2, wherein fixing the bit error involves fixing the bit error at a periodic interval determined by an operating system tick timer.
  4. The method of any preceding claim, wherein retrieving the data item with the associated error-correcting code involves:
    • retrieving a tag for the reference with an associated error-correcting code for the tag from the cache memory; and
    • retrieving a data line for the reference with an associated error-correcting code for the data line.
  5. The method of claim 4,

       wherein if the bit error is detected in the tag, the method further comprises forcing a cache miss to cause the reference to be stored in a miss buffer (230) for the cache, whereby the reference can be retried at the later time after the bit error is fixed.
  6. The method of claim 5, wherein if the reference is stored in the miss buffer, the method further comprises forcing a cache fill operation to cause the reference to be activated from the miss buffer after the bit error has been fixed.
  7. The method of claim 4, wherein if the bit error is detected in the data line, the method further comprises correcting the bit error through circuitry located on a data path between the cache memory and a processor.
  8. The method of any preceding claim, wherein registers in the set of one or more registers are organized as a circular buffer that allows entries to be overwritten.
  9. The method of any preceding claim, wherein the cache memory is a level two (L2) cache or lower in a memory hierarchy.
  10. The method of any preceding claim, wherein the error-correcting code corrects single-bit errors and detects double-bit errors.
  11. A semiconductor chip including apparatus that fixes bit errors encountered during references to a cache memory in said semiconductor chip, comprising:
    • the cache memory (106);
    • an input of the cache memory that is configured to receive a reference from an application involving multiple threads;
    • a retrieval mechanism that is configured to retrieve a data item and an associated error-correcting code for the reference from the cache memory;
    • an error-correcting code circuit (206) that is configured to compute an error-correcting code from the retrieved data item;
    • a comparator (208, 226) that is configured to detect a bit error by comparing the computed error-correcting code with the associated error-correcting code;
    • a set of one or more registers (232) for storing identifiers for errors that are detected during cache references; and
    • an error logging mechanism, wherein if a bit error has occuned, the error logging mechanism is configured to store an identifier for the reference in a register in the set of one or more registers; and
    • a bit error fixing mechamsm configured to allow continued execution of the application, wherein continuing execution of the application involves continuing execution of other threads in the application while a thread that made the reference waits for the reference to complete, and after said continued execution to read at a later time the stored identifier from the error logging mechanism, and to correct the corresponding data item.
  12. The apparatus of claim 11, further comprising a bit error fixing mechanism that is configured to:
    • read the identifier for the reference from the register;
    • use the identifier to retrieve the data item and the associated error-correcting code;
    • use the associated error-correcting code to produce a corrected data item and error-correcting code; and to
    • store the corrected data item and error-correcting code to the cache memory.
  13. The apparatus of claim 12, wherein the bit error fixing mechanism is configured to fix bit errors at a periodic interval determined by an operating system tick timer.
  14. The apparatus of any of claims 11 to 13, wherein the retrieval mechanism is configured to:
    • retrieve a tag for the reference with an associated error-correcting code for the tag from the cache memory; and to
    • retrieve a data line for the reference with an associated error-correcting code for the data line.
  15. The apparatus of claim 14, wherein if the bit error is detected in the tag, the error logging mechanism is configured to trigger a cache miss to cause the reference to be stored in a miss buffer (230) for the cache memory, whereby the reference can be retried at the later time after the bit error is fixed.
  16. The apparatus of claim 15, wherein if the reference is stored in the miss buffer, the apparatus is additionally configured to force a cache fill operation to cause the reference to be activated from the miss buffer after the bit error in the tag is fixed.
  17. The apparatus of claim 14, further comprising circuitry located on a data path between the cache memory and a processor for correcting bit errors in data lines.
  18. The apparatus of any of claims 11 to 17, wherein registers in the set of one or more registers are organized as a circular buffer that allows entries to be overwritten.
  19. The apparatus of any of claims 11 to 18, wherein the cache memory is a level two (L2) cache or lower in a memory hierarchy.
  20. The apparatus of any of claims 11 to 19, wherein the error-correcting code corrects single-bit errors and detects double-bit errors.
Anspruch[fr]
  1. Procédé destiné à corriger des erreurs de bit rencontrées durant des références à une mémoire cache sur une puce de semi-conducteur, comprenant :
    • la réalisation d'une référence à la mémoire cache (106) durant l'exécution d'une application mettant en jeu de multiples sous-processus ;
       dans lequel la réalisation de la référence entraîne la récupération d'un article de données et d'un code de correction d'erreur associé à partir de la mémoire cache ;

       le calcul d'un code de correction d'erreur à partir de l'article de données récupéré ; et

       la comparaison du code de correction d'erreur calculé au code de correction d'erreur associé ;

       dans lequel, si le code de correction d'erreur calculé ne correspond pas au code de correction d'erreur associé, ce qui indique qu'une erreur de bit est survenue, le procédé comprend de plus,

       le stockage d'un identifiant pour la référence dans un registre (232) dans un ensemble d'un ou plusieurs registres associés à la mémoire cache,

       la poursuite de l'exécution de l'application, dans lequel la poursuite de l'exécution de l'application implique la poursuite de l'exécution d'autres sous-processus dans l'application tandis qu'un sous-processus qui a fait la référence attend l'achèvement de la référence, et

       après la poursuite de l'exécution de l'application, la lecture, à un instant ultérieur, de l'identifiant stocké à partir du registre et la correction de l'article de données correspondant.
  2. Procédé selon la revendication 1, comprenant de plus la correction de l'erreur de bit dans la mémoire cache, à un instant ultérieur, en :
    • lisant l'identifiant pour la référence à partir du registre ;
    • utilisant l'identifiant pour récupérer l'article de données et le code de correction d'erreur associé ; et
    • utilisant le code de correction d'erreur associé pour produire un article de données corrigé et un code de correction d'erreur ; et
    • stockant l'article de données corrigé et le code de correction d'erreur dans la mémoire cache.
  3. Procédé selon la revendication 2, dans lequel la correction de l'erreur de bit entraîne la correction de l'erreur de bit suivant un intervalle périodique déterminé par un minuteur périodique du système d'exploitation.
  4. Procédé selon l'une quelconque des revendications précédentes, dans lequel la récupération de l'article de données avec le code de correction d'erreur associé entraîne :
    • la récupération d'un marqueur pour la référence avec un code de correction d'erreur associé pour le marqueur à partir de la mémoire cache ; et
    • la récupération d'une ligne de données pour la référence avec un code de correction d'erreur associé pour la ligne de données.
  5. Procédé selon la revendication 4,

       dans lequel, si l'erreur de bit est détectée dans le marqueur, le procédé comprend de plus le forçage d'une erreur de cache pour provoquer le stockage de la référence dans un tampon d'erreur (230) pour le cache, grâce auquel la référence peut être réessayée à un instant ultérieur après que l'erreur de bit a été corrigée.
  6. Procédé selon la revendication 5, dans lequel, si la référence est stockée dans le tampon d'erreur, le procédé comprend de plus le forçage d'une opération de remplissage de cache pour provoquer l'activation de la référence à partir du tampon d'erreur après que l'erreur de bit a été corrigée.
  7. Procédé selon la revendication 4, dans lequel, si l'erreur de bit est détectée dans la ligne de données, le procédé comprend de plus la correction de l'erreur de bit grâce à une circuiterie située sur un chemin de données situé entre la mémoire cache et un processeur.
  8. Procédé selon l'une quelconque des revendications précédentes, dans lequel des registres dans l'ensemble d'un ou plusieurs registres sont organisés sous la forme d'un tampon circulaire qui permet la réécriture d'entrées sur d'anciennes entrées.
  9. Procédé selon l'une quelconque des revendications précédentes, dans lequel la mémoire cache est un cache de niveau deux (L2 pour Level 2) ou plus bas dans une hiérarchie mémoire.
  10. Procédé selon l'une quelconque des revendications précédentes, dans lequel le code de correction d'erreur corrige des erreurs de bit simples et détecte des erreurs de bit doubles.
  11. Puce de semi-conducteur comprenant un dispositif qui corrige des erreurs de bit rencontrées durant des références à une mémoire cache dans ladite puce de semi-conducteur, comprenant :
    • la mémoire cache (106) ;
    • une entrée de la mémoire cache qui est configurée pour recevoir une référence à partir d'une application mettant en jeu plusieurs sous-processus ;
    • un mécanisme de récupération qui est configuré pour récupérer un article de données et un code de correction d'erreur associé pour la référence à partir de la mémoire cache ;
    • un circuit de code de correction d'erreur (206) qui est configuré pour calculer un code de correction d'erreur à partir de l'article de données récupéré ;
    • un comparateur (208, 226) qui est configuré pour détecter une erreur de bit en comparant le code de correction d'erreur calculé au code de correction d'erreur associé ;
    • un ensemble d'un ou plusieurs registres (232) pour stocker des identifiants pour des erreurs qui sont détectées durant des références de cache ; et
    • un mécanisme de mise en journal d'erreurs dans lequel, si une erreur de bit est survenue, le mécanisme de mise en journal d'erreurs est configuré pour stocker un identifiant pour la référence dans un registre dans l'ensemble d'un ou plusieurs registres ; et
    • un mécanisme de correction d'erreur de bit configuré pour autoriser la poursuite de l'exécution de l'application, dans lequel la poursuite de l'exécution de l'application entraîne la poursuite de l'exécution d'autres sous-processus dans l'application tandis qu'un sous-processus qui a fait la référence attend l'achèvement de la référence et, après la poursuite de ladite exécution, pour lire, à un instant ultérieur, l'identifiant stocké à partir du mécanisme de mise en journal d'erreurs et pour corriger l'article de données correspondant.
  12. Dispositif selon la revendication 11, comprenant de plus un mécanisme de correction d'erreur de bit qui est configuré pour :
    • lire l'identifiant pour la référence à partir du registre ;
    • utiliser l'identifiant pour récupérer l'article de données et le code de correction d'erreur associé ;
    • utiliser le code de correction d'erreur associé pour produire un article de données corrigé et un code de correction d'erreur ; et pour
    • stocker l'article de données corrigé et le code de correction d'erreur dans la mémoire cache.
  13. Dispositif selon la revendication 12, dans lequel le mécanisme de correction d'erreur de bit est configuré pour corriger des erreurs de bit suivant un intervalle périodique déterminé par un minuteur périodique du système d'exploitation.
  14. Dispositif selon l'une quelconque des revendications 11 à 13, dans lequel le mécanisme de récupération est configuré pour :
    • récupérer un marqueur pour la référence avec un code de correction d'erreur associé pour le marqueur à partir de la mémoire cache ; et pour
    • récupérer une ligne de données pour la référence avec un code de correction d'erreur associé pour la ligne de données.
  15. Dispositif selon la revendication 14, dans lequel, si l'erreur de bit est détectée dans le marqueur, le mécanisme de mise en journal d'erreurs est configuré pour déclencher une erreur de cache pour provoquer le stockage de la référence dans un tampon d'erreur (230) pour la mémoire cache, grâce auquel la référence peut être réessayée, à un instant ultérieur, après que l'erreur de bit a été corrigée.
  16. Dispositif selon la revendication 15, dans lequel, si la référence est stockée dans le tampon d'erreur, le dispositif est configuré de plus pour forcer une opération de remplissage de cache pour provoquer l'activation de la référence à partir du tampon d'erreur après que l'erreur de bit dans le marqueur a été corrigée.
  17. Dispositif selon la revendication 14, comprenant de plus une circuiterie située sur un chemin de données entre la mémoire cache et un processeur pour corriger des erreurs de bit dans des lignes de données.
  18. Dispositif selon l'une quelconque des revendications 11 à 17, dans lequel des registres dans l'ensemble d'un ou plusieurs registres sont organisés sous la forme d'un tampon circulaire qui permet la réécriture d'entrées sur d'anciennes entrées.
  19. Dispositif selon l'une quelconque des revendications 11 à 18, dans lequel la mémoire cache est un cache de niveau deux (L2) ou plus bas dans une hiérarchie mémoire.
  20. Dispositif selon l'une quelconque des revendications 11 à 19, dans lequel le code de correction d'erreur corrige des erreurs de bit simples et détecte des erreurs de bit doubles.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com