Technisches Gebiet
Die Erfindung betrifft die Identifizierung von Verbindungen, die sich
für Analyse, Therapie und andere Anwendungen eignen, bei denen es günstig
ist, eine Substanz bereitzustellen, die spezifisch an ein Zielmolekül bindet,
d.h. eine spezifische Pattern-Matching-Technik, die es erlaubt, Kandidatenbindungssubstanzen
in Abwesenheit des Zielmoleküls einem Screening zu unterziehen. Die Erfindung
betrifft auch eine Verbesserung hinsichtlich der Konstruktion von Referenzpanels
für die Verwendung bei Profilierung und Pattern-Matching. Genauer gesagt betrifft
die Erfindung die Verwendung von Referenzpanels für die Herstellung von Kreuzreaktions-Finger-abdrücken,
die Enzyme und/oder andere Nichtimmunglobulinproteine als Affinitätsziele umfassen.
Technischer Hintergrund
Es gibt zahlreiche Fälle, in denen es günstig ist, einen
Liganden aufzufinden, der spezifisch einen Rezeptor oder ein anderes Ziel bindet.
Besonders offensichtliche Beispiele sind: Falls ein Rezeptor verantwortlich für
die Aktivierung einer bestimmten Art von Zelle ist, können Liganden, die den
Rezeptor binden, therapeutische Anwendung bei der Aktivierung oder der Verhinderung
der Aktivierung des Rezeptors finden, und zwar mit einem entsprechenden physiologischen
Effekt auf die Zelle. Falls die Zelle in einem Tier oder in einer Pflanze enthalten
ist, kann sich der Effekt auf den gesamten Organismus auswirken. So beruht ein sehr
populärer Ansatz zum Entwurf neuer Arzneistoffe darauf, geeignete Bindungsmittel
für diese Rezeptoren zu finden.
Liganden, die spezifische Ziele binden, können auch Anwendung
in analytischen Zusammenhängen finden. Z.B. sind Antikörper nützliche
Komponenten in Immunoassayverfahren. Alle diese Verfahren beruhen auf der spezifischen
Wechselwirkung zwischen einem Antigen und einem Antikörper, wobei jeder der
Partner der Analyt sein kann.
Darüber hinaus können Trennverfahren und andere Prozesse
mit gewerblicher Anwendung von spezifischer Bindung profitieren. Als besonders einfache
Veranschaulichung kann genannt werden: eine Verunreinigung kann in wirksamer Weise
aus einer Zusammensetzung durch Behandlung der Zusammensetzung mit einem festen
Träger entfernt werden, an den ein "Rezeptor" gebunden ist, der geeignet ist,
die Verunreinigung unter relativem Ausschluss der anderen Komponenten der Zusammensetzung
zu binden, sofern die Affinität des Rezeptors für die Verunreinigung in
ausreichender Weise größer ist als für die gewünschten Komponenten.
In allen vorstehend genannten Fällen sind der Grad der Affinität,
der die spezifische Bindung charakterisiert, und der Grad der Spezifität, die
erforderlich ist, von den Umständen abhängig. Einige Anwendungen ziehen
Vorteile aus einer relativ schwachen Wechselwirkung, während andere eine hohe
Affinität erfordern. Einige Anwendungen sind hinsichtlich der Spezifität
anspruchsvoller als andere.
Eine offensichtliche Methode, mit Brachialgewalt einen Liganden zu
finden, der an ein Ziel von Interesse bindet, besteht darin, physikalisch die Eignung
einer großen Anzahl an Verbindungen zu testen, die mögliche Liganden sind,
und zwar im Hinblick auf ihre Eignung, das Ziel selbst zu binden. Dieses Verfahren
wird in praktisch allen Fällen ohne Zweifel schließlich dazu führen,
einen erfolgreichen Liganden zu finden. Es ist jedoch zeitaufwendiger und arbeitsintensiver
als im Hinblick auf die praktische Brauchbarkeit günstig erscheint. Zunächst
muss das Ziel, z.B. ein Rezeptor, in einer bestimmten physikalischen Form hergestellt
werden, die getestet werden kann, und ausreichende Mengen müssen bereitgestellt
werden, um dann den Bereich von Verbindungen, bei denen es sich um Kandidaten handelt,
zu testen. Zweitens ist, falls Verbindungen einfach in statistischer Folge getestet
werden, eine große Menge des Ziels erforderlich. Dies kann, insbesondere im
Fall von zellulären Rezeptoren, unerschwinglich teuer sein.
Eine Reihe von Ansätzen sind vorgeschlagen worden, um diese Schwierigkeiten
zu minimieren. Zunächst kann, an Stelle des statistischen Testens von Verbindungen
ein systematisch variiertes Panel von Verbindungen verwendet werden. Derartige systematisch
variierte Panels können in zweckmäßiger Weise konstruiert werden,
indem Polymere aus Monomereinheiten festgelegter Eigenschaften gebildet werden.
Besonders zweckmäßige derartige Polymere sind Peptide, wobei jedoch auch
Polysaccharide, Polynucleotide und dergleichen verwendet werden können. Die
Parameter, die wichtig sind, und die Art der Konstruktion derartiger Panels werden
in den US-Patenten 4,963,263,
5,133,866 und 5,340,474
beschrieben.
Zusätzlich zu der Verwendung systematisch variierter Panels von
Verbindungen als Kandidaten oder an Stelle davon kann das Screening selbst auf solche
Weise durchgeführt werden, dass die erforderliche Anzahl an physikalischen
Messungen minimiert wird. Z.B. kann, wie in US-Patent
5,217,869 dargelegt wird, ein Reaktivitätsprofil für einen Liganden
erstellt werden, von dem bekannt ist, dass er mit einem Ziel reagiert, in dem ein
Standardpanel von Bindungsmitteln bereitgestellt wird. Das erhaltene Profil charakterisiert
diesen speziellen Liganden, von dem bekannt ist, dass er den Rezeptor bindet. Die
Kandidatenverbindungen können dann gegen das gleiche Panel getestet werden,
wobei man ihre entsprechenden Profile erhält. Wenn ein entsprechendes Profil
mit dem eines Liganden übereinstimmt, von dem bekannt ist, dass es sich um
eine erfolgreich bindende Verbindung an das Ziel handelt, dann weist die Verbindung,
die das übereinstimmende Profil erzeugte, mit hoher Wahrscheinlichkeit eine
Bindung an das Ziel auf. Bei einem alternativen Ansatz werden Umkehrabbildungspanels
mit variierenden Eigenschaften hergestellt, und Profile, die für den Rezeptor
und Liganden gegen umgekehrte Panels erhalten werden, werden abgeglichen.
Verschiedene andere Technologien sind auf Verfahren zur Verbesserung
der Einfachheit, mit der die physikalische Bindung eines Rezeptors an einem Kandidatenliganden
gemessen werden kann, gerichtet, wie die Verwendung von Robotern, Fluoreszenznachweis
der Reaktivität, physikalische Anordnungen der Panels und dergleichen.
Weitere Verfahren, mit denen versucht wird, spezifische Bindungspaarmitglieder
zu finden, umfassen computerbasierte Verfahren, wie dreidimensionale Datenbankrecherchen,
Röntgenkristallographie, Molecular Modeling und dergleichen. Bei anderen Methoden
werden Antikörper als Surrogatziele eingesetzt, oder die Methoden beruhen einfach
auf dem Verhalten der Verbindung im Hinblick auf verwandte Zielrezeptoren. Z.B.
kann das Verhalten einer Verbindung als ein Inhibitor einer bestimmten Serinprotease
oder einer Anzahl von Serinproteasen zu der Annahme führen, dass die Verbindung
ein brauchbarer Inhibitor einer weiteren Serinprotease sein wird, für die deren
Inhibitionsaktivität noch nicht bestimmt wurde. Die Gültigkeit dieser
letztgenannten Verfahren basiert auf der Ähnlichkeit von Serinproteasen, die
die „Referenzrezeptoren" sind, für den die Bindungseigenschaften nicht
bekannt sind.
Die vorliegende Erfindung stellt ein weiteres Verfahren bereit, um
einen Liganden mit einem Ziel in Übereinstimmung zu bringen. Es ist besonders
hilfreich, wenn begrenzte Mengen an Zielen verfügbar sind. Das erfindungsgemäße
Verfahren ist besonders nützlich bei Arzneistoffdesignprojekten, bei denen
das Ziel nicht vollständig gereinigt wurde, instabil ist oder aus anderen Gründen
nicht in adäquaten Mengen für das Screening im Großmaßstab verfügbar
ist, oder wenn das Assayverfahren für das Ziel komplex und kostspielig ist.
Ferner minimiert das Verfahren den Verbrauch an Rezeptor in einem Programm des Screenings
gegen viele potenzielle Liganden.
US-Patent 5,300,425 beschreibt Verfahren,
bei denen charakteristische Profile eines bestimmten Analyten erstellt werden, ähnliche
Profile zur Korrelation von Bindungseigenschaften unter verschiedenen Analyten abgeglichen
werden und Umkehrabbildungspanels verwendet werden, um Profile für diesen Zweck
zu erzeugen. Bei den Verfahren, die in dem "425-Patent beschrieben werden, werden
Immunglobuline oder ihre immunologisch reaktiven Fragmente als Mitglieder der Panels
der Bindungsliganden verwendet, um die charakteristischen Profile zu erhalten, die
bei Charakterisierung und Korrelation verwendet werden. Eine Abwandlung dieser Technologie,
die in dem vorstehend erwähnten US-Patent 5,340,474
beschrieben wird, ersetzt die Antikörper und Fragmente, die in den Profilierungspanels
verwendet werden, durch Panels diverser Paraloga. Paraloga sind definiert als polymere
Anteile, vorzugsweise mit einem Molekulargewicht von weniger als 7,5 kD, zusammengesetzt
aus Monomeren mit Charakteristika, so dass eine maximale Verschiedenheit über
die Panelmitglieder bei einer minimalen Anzahl an Paraloga erzielt werden kann.
Durch Maximierung der Verschiedenheit kann dann der Bereich an Raum/Ladungs-Konturen,
der den „chemischen Raum" charakterisiert, mit einer vergleichsweise kleinen
Anzahl an Verbindungen erzielt werden.
Wie in den vorstehend in Bezug genommenen Patenten beschrieben, sind
derartige Referenzpanels in einer Anzahl von Zusammenhängen nützlich.
Das Panel kann verwendet werden, um einen „Fingerabdruck" zu erhalten, der
einen bestimmten Analyten charakterisiert. Der Fingerabdruck kann als ein analytisches
Werkzeug verwendet werden, um eine bestimmte Substanz zu identifizieren, und zwar
im Wesentlichen in der gleichen Weise, in der ein IR-Spektrum oder NMR-Spektrum
verwendet werden kann. Außerdem wurde erkannt, dass Analyten, die ähnliche
Fingerabdrücke aufweisen, oder in deren Fingerabdrücken ähnliche
Merkmale enthalten sind, ähnliche Bindungs- oder Reaktivitätseigenschaften
im Allgemeinen oder im Hinblick auf die Eigenschaft, die mit einem ähnlichen
Merkmal assoziiert ist, aufweisen. Wenn also z.B. ein Rezeptor von Interesse einen
bekannten Liganden aufweist, dann lassen sich weitere Verbindungen finden, die an
den Rezeptor binden, indem deren Fingerabdrücke mit dem Referenzpanel mit den
Fingerabdrücken, die von dem bekannten Liganden erhalten wurden,
abgeglichen werden. Ein ähnlicher Abgleich von komplementären Mitgliedern
eines Bindungspaars kann unter Verwendung von Umkehrabbildungssätzen erhalten
werden, wobei ein Fingerabdruck für einen Liganden gegenüber einem Referenzpanel
mit dem Fingerabdruck des Rezeptors gegenüber einem Satz von Verbindungen übereinstimmt,
bei dem es sich um eine Umkehrabbildung des Referenzpanels handelt.
Eine weitere Anwendung, für die Panels von Reagenzien nützlich
sind, besteht in der Bestimmung der Analytzusammensetzung einer Probe. Diese Anwendung
wird in US-Patent 5,338,659 beschrieben.
Der Fingerabdruck, der für eine unbekannte Probe erhalten wird, wird mit festgelegten
Fingerabdrücken oder Profilen, die mit bekannten Standardzusammensetzungen
bestimmt werden, abgeglichen. Es können bestimmte Berechnungstechniken angewandt
werden, um diesen Vergleich zu erleichtern, wie in dem Patent beschrieben wird.
In diesem Fall wird jedoch nicht allgemein angenommen, dass ein weiter Bereich an
Bindungsvermögen erforderlich ist, da die Anwendung sich auf Zusammensetzungen
konzentriert, die Analyten enthalten, im Allgemeinen mit verwandten Strukturen,
und Maßnahmen zur Korrelation der Fingerabdrücke mit anderen inhärenten
Eigenschaften der Analyten selbst werden nicht benötigt. In diesem Fall mag
es also als logisch angesehen werden, Panelmitglieder zu verwenden, die nicht notwendigerweise
Antikörper oder maximal verschiedene Paraloga sind.
In der vorliegenden Anmeldung wird ein weiteres Verfahren der Identifizierung
von Bindungspartnern unter Verwendung einer berechneten Kombination von Ergebnissen
gegenüber einem Referenzpanel als ein Surrogat für ein gewünschtes
Ziel beschrieben. Das veranschaulichte Referenzpanel ist aus Enzymen zusammengesetzt.
Es wird dabei überraschend gefunden, dass eine ausreichende Verschiedenheit
der Reaktivität erhalten werden kann, um brauchbare Ergebnisse zu erzielen,
selbst wenn die Enzyme, die in dem der Veranschaulichung dienenden Referenzpanel
verwendet werden, von der Natur nicht entworfen wurden, um eine große Vielfachheit
an Bindungsaktivitäten aufzuweisen (wie Antikörper). Von den Enzymen wurde
auch nicht erwartet, dass sie die maximale Verschiedenheit aufweisen, die einer
kleinen Anzahl an Panelmitgliedern zugeschrieben werden kann, wie sie durch die
Entwicklung von Paraloga erzielt wurde. Dennoch kann unter Verwendung von Enzymen,
sogar Isoenzymen mit ähnlichen Aktivitäten, als Mitgliedern des Referenzpanels
ein zufrieden stellendes Surrogat erzielt werden, um die Bindung von Kandidatenliganden
an Ziele unter Einschluss von Zielen, die durch keinerlei Ähnlichkeit der Aminosäuresequenz
mit den Enzymen, die Panelmitglieder sind, verwandt sind, vorherzusagen. Es ist
auf diese Weise festgestellt worden, dass derartige Enzyme oder Referenzmoleküle
im Allgemeinen auch bei der Profilierung und bei Pattern-Matching-Verfahren nützlich
sein sollten, die in den in Bezug genommenen Patenten beschrieben werden, und bei
den darin beschriebenen Verfahren.
Offenbarung der Erfindung
Die Erfindung nutzt, was im Ergebnis ein Surrogat für das Ziel
ist, um eine beliebige Anzahl an potenziellen Liganden einem Screening zu unterziehen.
Zunächst wird ein Reaktivitätsbindungsprofil des Ziels im Hinblick auf
einen „Trainingssatz" von Verbindungen erstellt, vorzugsweise mit Charakteristika,
die systematisch verschieden sind. Der Trainingssatz kann z.B. zehn verschiedene
Verbindungen umfassen, die verschiedene Grade der Affinität für das Ziel
aufweisen. Auf diese Weise zeigt das Zielprofil einen Satz von variierenden Affinitäten
in Bezug auf diese Verbindungen. An Stelle des Tests zusätzlicher Kandidatenliganden
im Hinblick auf das Ziel selbst, wird künstlich ein „Surrogat" durch
Testen der Reaktivität dieses gleichen Satzes von zehn Trainingsverbindungen
gegenüber einem Referenzpanel von Molekülen erzeugt, gegenüber dem
der Trainingssatz ebenfalls variierende Grade der Reaktivität zeigt. Dies mag
als ein Referenzpanel bezeichnet werden. Jede Verbindung in dem Trainingssatz zeigt
daher ein Muster von Reaktivitäten im Hinblick auf dieses Referenzpanel.
Dies führt zu einer zweidimensionalen Matrix, wobei der Grad
der Reaktivität jedes Mitglieds des Trainingssatzes im Hinblick auf jedes Mitglied
des Referenzpanels aufgezeichnet wird. Der Grad der Reaktivität jedes Mitglieds
des Referenzpanels mit jeder der Trainingsverbindungen wird daher gleichzeitig in
einer orthogonalen Dimension aufgezeichnet.
Jedes Mitglied des Referenzpanels wird selbstverständlich ein
anderes Profil im Hinblick auf den Trainingssatz zeigen, als das tatsächliche
Ziel zeigte. Eine bestimmte rechnerische Kombination, vorzugsweise eine lineare
Kombination, dieser Referenzpanelprofile erzeugt jedoch ein Profil, das so eng wie
möglich mit dem übereinstimmt, das von dem Zielmolekül selbst erhalten
wurde. Diese optimale Annäherung stellt ein Surrogat für das Ziel dar.
Die Formel, die sich aus der Berechnung im Hinblick auf das Referenzpanel ergibt,
wird herangezogen, um die Reaktivitäten für neu getestete Verbindungen
abzuschätzen. In empirischer Hinsicht haben derartige Surrogate
eine gute Vorhersageleistung, wenn sie auf Liganden außerhalb des Trainingssatzes
angewandt werden. Eine Bibliothek von Ligandenprofilen gegenüber dem Referenzpanel
kann daher rechentechnisch mit Ergebnissen vergleichbar denen eines direkten physikalischen
Screenings der Liganden abgesucht werden.
So wird für jede anschließend getestete Verbindung die Reaktivität
gegenüber jedem Mitglied des Referenzpanels erhalten, und die Formel, die aus
dem Trainingssatz abgeleitet wird, wird angewendet, um einen vorhergesagten Wert
im Hinblick auf das Ziel zu erhalten. An Stelle des direkten Testens der Reaktivität
einer Kandidatenverbindung im Hinblick auf ein Zielmolekül ist es möglich,
statt dessen seine Reaktivität im Hinblick auf ein Panel von vergleichsweise
leicht zugänglichen Referenzrezeptoren zu testen, die Formel auf die Ergebnisse
anzuwenden und vorherzusagen, was passiert wäre, wenn das Ziel selbst verwendet
worden wäre. Je größer die Bibliothek von gespeicherten Ligandenprofilen
gegenüber einem Referenzsatz ist, umso größer ist der Anstieg der
Effizienz für das Screening durch ein Surrogat.
Es ist nun auch festgestellt worden, dass Nichtimmunglobulinproteine
(von denen einige natürlich auftreten, jedoch unabhängig davon, wie sie
tatsächlich gebildet werden) erfolgreich verwendet werden können, um ein
Referenzpanel für die Verwendung bei der Profilierung von Analyten, der Vorhersage
von Bindungsmöglichkeiten von Kandidatenverbindungen im Hinblick auf Ziele
sowie für die analytischen Zwecke, die in US-Patent
5,338,659 beschrieben werden, zu bilden. So können Panels, die bei
den erfindungsgemäßen Verfahren brauchbar sind, vollständig aus derartigen
Proteinen, wie Enzymen, T-Zellrezeptoren, olfaktorischen Rezeptoren, Lectinen und
künstlich modifizierten Proteinen, die beliebige Bindungsstellen enthalten,
zusammengesetzt sein. Die Panels können auch Antikörper oder Fragmente
davon oder Paraloga als Mitglieder umfassen; bei den Panels, die für die erfindungsgemäßen
Verfahren brauchbar sind, müssen jedoch die Nicht-Ig/Nicht-Paralog-Mitglieder
das Panel über den Beitrag jeglicher Immunglobulinproteine und Paraloga, die
in den Panels auch enthalten sind, „anreichern", wie nachstehend beschrieben.
Gemäß einem Aspekt kann die Erfindung herangezogen werden,
um die Fähigkeit einer Kandidatenverbindung zur Reaktion mit einem Target durch
die Bereitstellung eines Surrogats für das Target (Ziel) zu bestimmen. Das
Surrogat ist die Formel, die eine rechnerische Kombination darstellt, vorzugsweise
eine lineare Kombination, von mindestens zwei Referenzreaktivitätsprofilen,
die am besten mit den empirischen Bindungsdaten des Ziels gegenüber dem Trainingssatz
von Verbindungen übereinstimmt. Die Referenzreaktivitätsprofile stellen
die Reaktion jedes Mitglieds eines Panels von Referenzrezeptoren im Hinblick auf
einen Satz von Verbindungen dar, wobei der Satz von Verbindungen als ein „Trainingssatz"
bezeichnet werden kann. Die Formel wird dann auf die Reaktivitäten im Hinblick
auf jedes der Mitglieder des Panels der Referenzrezeptoren angewandt, die für
jede der Kandidatenverbindungen erhalten werden. Das Ergebnis der Anwendung dieser
Formel ahmt nach, was gefunden würde, wenn die Verbindung direkt mit dem Zielrezeptor
getestet worden wäre.
Der Aspekt der Erfindung bezieht sich daher auf ein Verfahren zur
Identifizierung einer Kandidatensubstanz als reaktiv mit einem gewünschten
Target, wobei das Verfahren umfasst:
- (a) Bereitstellung einer Formel, die aus einer Kombination von Reaktivitätsprofilen
von mindestens zwei Mitgliedern eines Referenzpanels mit einem Satz von Verbindungen
abgeleitet ist, wobei die Formel ein vorhergesagtes Profil berechnet, das am besten
mit dem Reaktivitätsprofil des Targets im Hinblick auf den Satz von Verbindungen
übereinstimmt;
- (b) Testen der Reaktivität der mindestens zwei Mitglieder des Panels im
Hinblick auf die Kandidatensubstanz;
- (c) Berechnung einer abgeschätzten Reaktivität im Hinblick auf das
Target für die Kandidatensubstanz durch Anwendung der Formel auf die Reaktivitäten,
die in Schritt (b) bestimmt wurden, um die Reaktivität der Kandidatensubstanz
im Hinblick auf das Target abzuschätzen; und
- (d) auf Basis der Ergebnisse von (c) Identifizierung der Kandidatensubstanz
als reaktiv mit dem Target.
Ein erfolgreicher Kandidat wird dann identifiziert und aus geeigneten
Ausgangsmaterialien synthetisiert.
Eine besonders bevorzugte Kombination von einem Trainingssatz und
einem Panel wird hier angegeben. In dieser bevorzugten Matrix weist jedes Mitglied
des Referenzpanels gewissermaßen ein inverses Bildmitglied im Trainingssatz
der Verbindungen auf. Auf diese Weise wird die Anzahl an Referenzpanelmitgliedern
und Trainingsverbindungen durch Entfernung redundanter Überlappungen minimiert.
Es wird hier auch eine Datenbank von Fingerprints beschrieben, die
bezüglich eines Referenzpanels erhalten wird. Die Datenbank
kann für eine Reihe von Zwecken verwendet werden, wie nachstehend beschrieben.
Verfahren zur Konstruktion der Referenzpanels werden hier auch beschrieben.
Ein Verfahren zur Charakterisierung eines einzelnen Analyten wird
hier beschrieben, wobei das Verfahren das Kontaktieren des Analyten mit jedem Mitglied
eines Panels angereichert mit oder gebildet durch die vorstehend beschriebenen Nicht-Ig-Proteine,
die in einer Vielzahl verschiedener Grade mit dem einzelnen Analyten reagieren;
den Nachweis des Grades der Reaktivität des Analyten gegenüber jedem der
Mitglieder; das Aufzeichnen des Grades der Reaktivität des Analyten gegenüber
jedem der Panelmitglieder; und die Anordnung der aufgezeichneten Reaktivitätsgrade,
so dass ein charakteristisches Profil des Analyten bereitgestellt wird, umfasst.
Panels, die Nicht-Ig-Proteine enthalten, die bei verschiedenen Musterabgleichverfahren
und für physikalische Ausführungsformen der Fingerprints, die nach den
vier Verfahren erhalten werden, geeignet sind, werden hier auch beschrieben.
Ein Verfahren zur Identifizierung eines Kandidaten, wobei der Kandidat
wirksam hinsichtlich der Reaktion mit einem Target ist, wobei das Target einen bekannten
Liganden aufweist, mit dem es reagiert, wird hier auch beschrieben, wobei das Verfahren
folgendes umfasst: Kontaktieren des Kandidaten mit jedem Mitglied des Panels, angereichert
mit oder gebildet aus den vorstehend beschriebenen Nicht-Ig-Proteinen, die in einer
Vielzahl verschiedener Grade mit dem Kandidaten reagieren; Bestimmung des Grades
der Reaktivität des Kandidaten gegenüber jedem der Panelmitglieder; Aufzeichnung
jedes der Grade der Reaktivität des Kandidaten gegenüber jedem der Panelmitglieder;
Anordnung der aufgezeichneten Reaktivitätsgrade, so dass ein charakteristisches
Profil des Kandidaten bereitgestellt wird; Vergleich des Profils mit einem Profil,
das auf eine analoge Weise von dem Liganden erhalten wurde, im Hinblick auf die
Vielzahl von Panelmitgliedern; wobei die Ähnlichkeit des Profils des Kandidaten
zum Profil des Liganden die Fähigkeit des Kandidaten anzeigt, mit dem Target
zu reagieren. Eine Substanz, die als erfolgreicher Kandidat identifiziert ist, wird
dann identifiziert und aus geeigneten Ausgangsmaterialien synthetisiert.
Ein Verfahren zur Auswahl eines Kandidaten aus einer Vielzahl von
Kandidaten, der spezifisch mit einem bekannten Target reagiert, wird hier auch beschrieben,
wobei das Verfahren umfasst: Bereitstellung eines Reaktivitätsprofils des Targets
gegenüber einem maximal verschiedenartigen Satz von Verbindungen; Bereitstellen
eines Panels einschließlich Nicht-Ig-Proteine wie oben beschrieben, was ein
inverses Bild des maximal verschiedenartigen Satz ist; Herstellen eines Profils
der Reaktivität des Kandidaten gegenüber dem inversen Bildpanel; Vergleich
des maximal verschiedenartigen Satzprofils des Targets mit dem inversen Bildpanelprofil
des Kandidaten; und wobei die Ähnlichkeit des inversen Bildpanelprofils mit
dem verschiedenartigen Satzprofil die Wahrscheinlichkeit angibt, mit der sich der
Kandidat an das Target binden wird. Ein erfolgreicher Kandidat wird dann identifiziert
und aus geeigneten Ausgangsmaterialien synthetisiert. Dieses Verfahren kann "umgekehrt"
werden, weil die Wahl, welche Substanz als "Kandidat" und welche als "Target" angesehen
wird, willkürlich ist – d.h. das Target kann gegen das inverse Bildpanel
und der Kandidat gegen das maximal verschiedenartige Panel profiliert werden.
Ein Verfahren zur Bestimmung des Vermögens eines Kandidaten,
mit einem Target zu reagieren, wird hier auch beschrieben, wobei das Verfahren die
Bereitstellung eines Surrogats für das Target wie vorstehend beschrieben und
einschließlich Nicht-Ig-Proteinen im Referenzpanel umfasst.
Kurze Beschreibung der Zeichnungen
1 ist ein Flussdiagramm des Verfahrens zur Berechnung
der Wahrscheinlichkeit einer Kandidatenbindung an das Ziel unter Verwendung eines
Surrogats.
2 zeigt eine bevorzugte Ausführungsform der Trainingssatz/Referenz-Matrix.
3 ist ein Flussdiagramm des Verfahrens zur Bestimmung
des Profils eines Analyten.
4a und 4b zeigen typische
Ausführungsformen von Fingerabdrücken, die nach verschieden Verfahren
erhalten wurden.
5 ist ein Flussdiagramm des Verfahrens zum Vergleich
von Profilen eines Liganden mit einer Kandidatenverbindung.
6 ist ein Flussdiagramm des Verfahrens zum Vergleich
von Umkehrabbildungsprofilen.
7a, 7b und 7c
stellen Abstandsverteilungen für Profile von 800 Verbindungen dar, bestimmt
im Hinblick auf Referenzpanels von 5, 7 bzw. 10 Referenzproteinen.
8a bis 8c sind Abstandsverteilungen
für Punkte im zehndimensionalen Raum, die Profile von 50, 100 bzw. 1000 Verbindungen
im Hinblick auf ein Panel von 10 Referenzproteinen darstellen.
9a bis 9c zeigen Verteilungen
für die Profile im Hinblick auf 10 Referenzproteine verschiedener Sammlungen
von Verbindungen. 9a entspricht 8a,
die die Abstandsverteilung zeigt, die Profile von 50 zufälligen Verbindungen
repräsentiert. 9b zeigt die Abstandsverteilung
für Profile von 50 bekannten pharmazeutisch aktiven Verbindungen.
9c stellt eine ähnliche Verteilung von 50 Peptiden
mit variierender biologischer Aktivität dar.
10 zeigt die Ergebnisse, die erhalten werden, wenn ein Trainingssatz
von Verbindungen im Hinblick auf ein Panel von Referenz-GST-Isoenzymen getestet
wird, um ein Surrogat für einen Zielrezeptor zu erzeugen. Die Ergebnisse des
Testens einer Vielzahl von zusätzlichen Verbindungen gegenüber dem Panel
von Referenzenzymen und der Anwendung der Formel, die das Surrogat definiert, werden
verglichen mit dem Testen zusätzlicher Verbindungen direkt gegenüber dem
Zielrezeptor. Die Grauskala zeigt IC50-Werte an.
11a zeigt die Vorhersagen und tatsächlichen empirischen
Daten aus 10 als eine Punktwolke, wobei sich ein hoher Grad der
Korrelation zeigt. 11b zeigt den Rest von
11a.
12 zeigt eine Liste von 122 Verbindungen und deren Symbole, die
als einer Verbindungsbibliothek bei den Ergebnissen verwendet wurden, die gegenüber
einem angereicherten Referenzpanel von acht ausgewählten Enzymen erzielt wurden.
13 zeigt die experimentelle und vorhergesagte Fähigkeit der
Verbindungen von 12 zur Bindung an GRd und AdDH, sowie die charakteristischen
Profile dieser Verbindungen gegenüber einem Referenzpanel, wobei die ersten
12 Verbindungen, die aufgelistet sind, dem anfänglichen Trainingssatz entsprechen.
Ein weiterer Satz von 10 Trainingsverbindungen, die in den Vorhersagen der zweiten
Iteration verwendet wurden, wird durch benachbarte schwarze Balken bezeichnet, und
zwar mit einem unterschiedlichen Satz von 10 für jedes Ziel.
14a und 14b zeigen Korrelationsdiagramme
von vorhergesagten und experimentellen Werten entsprechend den in 13
gezeigten Ergebnissen.
15 zeigt die Korrelation angepasster und experimenteller
Bindung einer Vielzahl von Verbindungen gegenüber neun verschiedenen Zielen.
Arten der Ausführung der Erfindung
Das erfindungsgemäße Verfahren erlaubt es, eine große
Anzahl an Kandidatenverbindungen auf deren Fähigkeit zur Reaktion mit einem
und insbesondere zur Bindung an ein Ziel zu testen, und zwar ohne dass die Notwendigkeit
großer Mengen des Ziels als solchem besteht. Das Ziel selbst wird nur in ausreichender
Menge und Reinheit benötigt, um die Formel zu generieren, die das Surrogat
erzeugt.
Wie hier verwendet, umfasst der Ausdruck „Ziel" beispielsweise
Moleküle, die sich auf der Oberfläche von Zellen befinden und die Aktivierung
der Zellen durch Aktivierung von Liganden vermitteln; der Ausdruck wird jedoch auch
in einem generischen Sinn so verwendet, dass er jegliches Molekül bedeutet,
das spezifisch an ein Gegenstück bindet. Ein Mitglied eines spezifischen Bindungspaars
könnte willkürlich als ein „Rezeptor" oder „Ziel" bezeichnet
werden, und das andere als „Ligand". Es braucht keine spezielle physiologische
Funktion mit dieser spezifischen Bindung verbunden zu sein. Ein „Ziel" mag
beispielsweise Antikörper, immunologisch reaktive Abschnitte von Antikörpern,
Moleküle, die so ausgelegt sind, dass sie Komplemente anderer Moleküle
darstellen, und dergleichen einschließen. In der Tat ist im Zusammenhang mit
der vorliegenden Erfindung die Unterscheidung zwischen „Ziel" und „Ligand"
völlig irrelevant; die Erfindung betrifft Paare von Molekülen, die spezifisch
aneinander in nichtkovalenter Weise mit größerer Affinität binden
als jedes davon an andere Moleküle bindet. Zur einfachen Erklärung werden
die erfindungsgemäßen Verfahren jedoch oftmals im Hinblick
auf ein Ziel diskutiert, wie ein Enzym (erneut einfach ein Molekül, für
das ein Gegenstück gesucht wird, das damit reagiert oder daran bindet), und
der „Ligand" stellt einfach das Gegenstück dar (wie einen niedermolekularen
Inhibitor).
Die Verwendung von Surrogaten
Um das erfindungsgemäße Surrogatverfahren auszuführen,
sind die folgenden Elemente erforderlich:
Erstens ein Referenzsatz von Modellzielen, gegenüber denen eine messbare Aktivität
bewertet werden kann. Verschiedene Techniken für die Bestimmung der Reaktivität
von Verbindungen mit diesem Satz von Referenzzielen sind möglich und gehören
zu den Fähigkeiten des Fachmanns, wie vorstehend beschrieben. Es ist wichtig,
zu betonen, dass es nicht erforderlich ist, dass die Referenzpanelmitglieder in
irgendeiner Weise durch die primäre Aminosäuresequenz oder die empirische
chemische Struktur oder durch die biologische Funktion mit dem Ziel, für das
sie ein Modell darstellen, verwandt sind. In der nachstehenden Veranschaulichung
werden beispielsweise verschiedene Enzyme unter Einschluss von Glutathion-S-Transferase
(GST) als die Referenzrezeptoren verwendet, während es sich bei dem tatsächlichen
Ziel um Glutathion-Reduktase (GRd), Aldehyd-Dehydrogenase oder eine Reihe anderer
Proteine handelt. Es gibt eine zuvor erkennbare Ähnlichkeit zwischen den Enzymen
des Panels und irgendeinem der Ziele auf der Ebene der Primärstruktur oder
der bekannten enzymatischen Funktion. Einer der Vorteile der vorliegenden Erfindung
besteht darin, dass die Referenzproteine hinsichtlich bekannter Reaktivität
und Primärstruktur vom Ziel recht verschieden sein können, da die Vorhersageinformation
in ihren relativen Korrelationen mit dem Ziel, nicht in ihrer Homologie liegt. Das
Referenzpanel kann lediglich 1 Nicht-Ig-Protein enthalten, enthält jedoch vorzugsweise
2 bis 50 und insbesondere 8 bis 25 Nicht-Ig-Proteine; die Gesamtzahl der Panelmitglieder
kann ähnlich beschrieben werden.
Zweitens ist ein Trainingssatz von Liganden erforderlich, die repräsentativ
für die Verbindungen sind, die weiter im Hinblick auf ihre Reaktivitäten
mit dem Referenzpanel getestet werden sollen. Wenn es eine Bibliothek von Verbindungen
gibt, die weiter getestet werden sollen, dann kann eine multivariate Clustering-Methode
genutzt werden, um repräsentative Verbindungen aus der Bibliothek oder Verbindungen,
die denen in der Bibliothek ähnlich sind, für die Verwendung in dem Trainingssatz
zu bestimmen. Entsprechend können Verbindungen mit maximal systematisch variierenden
Eigenschaften ebenfalls verwendet werden. Im Allgemeinen sollte dieser Trainingssatz
von Verbindungen mindestens so viele Verbindungen umfassen, wie der Anzahl der Referenzproteine
entspricht, und vorzugsweise etwa dreimal diese Anzahl.
Drittens muss genügend Ziel verfügbar sein, um den Trainingssatz
empirisch zu testen, wobei das Ziel jedoch nicht notwendigerweise rein sein muss.
Das Ziel muss jedoch frei von unerwünschten störenden Verunreinigungen
sein.
Mit diesen Verbindungen und Referenzpanels können die Profile
der einzelnen Referenzpanelmitglieder im Hinblick auf den Trainingssatz und das
Profil des Ziels im Hinblick auf den Trainingssatz durch physikalische Messung erhalten
werden. Eine vierte Anforderung besteht dann in einem Anpassungsverfahren, um das
Zielprofil mit einer Kombination der Referenzpanelmitgliedsprofile abzugleichen.
Neben Verfahren der linearen Regression können nichtlineare Regressionsverfahren
für diesen Zweck ebenfalls verwendet werden, und zwar unter Einschluss von
teilweise linearen Modellen sowie regelbasierten Methoden, wie Clustering durch
rekursive Partitionierung. In der Tat können beliebige Algorithmen, die in
der hemometrischen Analyse oder der Mustererkennung herangezogen werden, mit den
physikalischen Assaydaten, die von Fingerprints repräsentiert werden, die hergestellt
werden, wie es hier gelehrt wird, kombiniert werden, um die Verbindungen zu klassifizieren.
Derartige mathematische Techniken sind auf diesem Gebiet gut verstanden, und sie
führen zu einer Formel, die als ein Surrogat für das Testen weiterer Verbindungen
dient.
Die Anwendung der Formel auf das Profil, das für eine neu getestete
Verbindung im Hinblick auf das Referenzpanel erhalten wurde, führt zu einer
Abschätzung der Fähigkeit der neu getesteten Verbindung, das Ziel zu binden.
Selbstverständlich stellt dies eine Wahrscheinlichkeit dar und ist nicht absolut.
Das abgeschätzte Ergebnis läuft auf ein Screening-Verfahren zur Identifizierung
von Verbindungen mit einer hohen Wahrscheinlichkeit zur Bindung des Ziels (oder
Nichtbindung des Ziels) hinaus.
Während zu einem Zeitpunkt eine Verbindung im Hinblick auf das
Referenzpanel getestet und die Formel zur Abschätzung eines Zielreaktivitätswertes
angewandt werden kann, besteht die nützlichste Anwendung des erfindungsgemäßen
Verfahrens darin, Bibliotheken von Kandidatenverbindungen einem Screening zu unterziehen.
Recht häufig ist eine große Anzahl an Kandidatenverbindungen verfügbar,
und das erfindungsgemäße Verfahren kann herangezogen werden, um die, die
das Ziel binden, und die, die das Ziel nicht binden, zu selektieren. Wenn das Verfahren
auf diese Weise auf Bibliotheken angewandt wird, dann können die Ergebnisse
der neu dem Screening unterzogenen Kandidaten gegebenenfalls dem Trainingssatz zugefügt
werden, und das Verfahren kann in einer iterativen Schleife wiederholt werden. Der
ursprüngliche Trainingssatz kann also mit ausgewählten Verbindungen ergänzt
werden, von denen abgeschätzt wird, dass sie stark das Ziel binden, sowie mit
ausgewählten Verbindungen, von denen abgeschätzt wird, dass sie das Ziel
nur schwach oder in nicht nachweisbarer Weise binden, und diese Verbindungen können
zusätzlich zu oder an Stelle von bestimmten Mitgliedern des Trainingssatzes
verwendet werden, um die Profile im Hinblick auf die Referenzpanelmitglieder und
tatsächlichen Ziele zu erhalten. Die Formel kann dann unter Berücksichtigung
dieser zusätzlichen Mitglieder neu berechnet werden.
Ferner brauchen nicht alle Profile der Referenzpanelproteine im Hinblick
auf den Trainingssatz am Ende in die Formel eingeschlossen zu werden. Das heißt,
dass einige der Koeffizienten für die Modellrezeptorprofile in der linearen
Kombination Null oder negativ sind.
Der allgemeine Ansatz betreffend die Verwendung von Surrogaten ist
in 1 erläutert.
In 1 wird zunächst eine Fingerabdruck-Datenbank
gemäß dem Verfahren, das in der nachstehend beschriebenen 3
gezeigt ist, für eine Mehrzahl von Verbindungen gegenüber einem repräsentativen
Referenzpanel zusammengestellt. Das Referenzpanel selbst wird unter Verwendung von
vorläufigen Daten ausgewählt, so dass Mitglieder eingeschlossen sind,
die insgesamt die Fähigkeit haben, mit einem weiten Bereich von Verbindungen
zu reagieren, wobei jedoch jedes Panelmitglied mit anderen Sätzen derartiger
Verbindungen reagiert.
Wenn ein geeignetes Panel gewählt worden ist, wird auch ein Trainingssatz
unter den Profilen gewählt, und zwar zum Testen gegen das Ziel. Jedes der Mitglieder
des Trainingssatzes wird auf diese Weise getestet, und das Ergebnis im Hinblick
auf das Ziel wird für jedes Mitglied des Trainingssatzes erhalten. Dies läuft
auf ein Profil des Ziels unter Verwendung des Trainingssatzes als Panelmitglieder
hinaus. Die Fingerabdrücke des Trainingssatzes können dann konzeptionell
invertiert werden, da die gleichen Datenpunkte betroffen sind, so dass ein Profil
für jedes Mitglied des Panels im Hinblick auf die Verbindungen des Trainingssatzes
bereitgestellt wird. Diese konzeptionell invertierten Profile können mathematisch
analysiert werden, z.B. unter Anwendung der linearen Regressionsanalyse, um ein
mathematisches Surrogat zu erhalten, wie es in 1 gezeigt
ist.
Das Profil eines beliebigen Kandidaten unter Einschluss von Kandidaten,
für die Profile in der Datenbank bereits erhältlich sind, kann mathematisch
gemäß dem Surrogat behandelt werden, um die Reaktivität mit dem Ziel
vorherzusagen. Erfolgeiche Kandidaten können unter Anwendung der Surrogat-erzeugten
Abschätzungen identifiziert werden, und die erfolgreichen Kandidaten können
unter Verwendung relevanter Ausgangsmaterialien synthetisiert werden. Es gibt auch
eine Rückkopplungsschleife, die es erlaubt, derartige Vorhersagen zu testen
und Revisionen des Trainingssatzes auf der Basis dieser Vorhersagen auszuführen,
was zu Modifikationen des Surrogats führt.
Beispielhaftes Verfahren
Das erfindungsgemäße Verfahren kann weiter unter Verwendung
einer vereinfachten hypothetischen Matrix und eines linearen Regressionsverfahrens
der Kombination veranschaulicht werden.
Die nachstehend angegebene Matrix stellt eine hypothetische Matrix
dar, die zur Veranschaulichung der Erzeugung der relevanten Formel als Surrogat
verwendet wird. Oben sind fünf Panelmitglieder angegeben, die mit MR1 bis MR5
bezeichnet sind und Panelmitglieder repräsentieren, wie Enzyme, die als Referenzmodellziele
für den tatsächlichen Zielrezeptor TR verwendet werden. An der Seite,
bezeichnet mit TC1 bis TC5, sind fünf Trainingsverbindungen angegeben, die
in unterschiedlichen Graden mit jedem der Referenzpanelmitglieder binden oder sonst
wie reagieren. Dem Grad der Reaktivität ist willkürlich ein Wert auf einer
Skala von 1 bis 10 zugeordnet, wobei 10 die höchste Reaktivität angibt
und 1 die geringste Reaktivität angibt. Im Allgemeinen wird eine logarithmische
Skala von Messwerten verwendet.
Beispielmatrix
MR1
MR2
MR3
MR4
MR5
PR
TR
TC1
6
1
1
7
2
2
2
TC2
2
4
2
6
2
4
4
TC3
1
3
8
1
5
6
6
TC4
5
9
10
10
1
8
8
TC5
9
1
10
5
9
10
10
Bei diesen hypothetischen Ergebnissen sind Profile für jede Verbindung
aus dem Satz von Trainingsverbindungen im Hinblick auf das Referenzpanel in den
waagerechten Reihen angegeben, und Profile für jedes Referenzenzym im Hinblick
auf den Trainingssatz von Verbindungen sind in den vertikalen Spalten angegeben.
So gibt es z.B. für MR1 ein mäßig hohes Niveau der Reaktivität
mit TC1, eine geringe Reaktivität mit TC2, eine sehr geringe Reaktivität
mit TC3, eine mäßige Reaktivität mit TC4 und eine sehr hohe Reaktivität
mit TC5. Jedes der Panelmitglieder MR1 bis MR5 weist also ein spezielles Reaktivitätsprofil
im Hinblick auf den Trainingssatz auf. Auf der rechten Seite, markiert mit TR, zeigt
der Zielrezeptor ein Profil gegenüber dem Trainingssatz mit monoton ansteigenden
Reaktivitäten über den Bereich TC1 bis TC5, wobei dieses Muster von allen
Referenzprofilen stark verschieden ist.
Es wird dann eine Formel erzeugt, indem den einzelnen Elementen der
fünf Profile MR1 bis MR5 Gewichte zugeordnet werden, um ein vorhergesagtes
Zielrezeptorprofil zu erhalten, das mit dem tatsächlich erhaltenen Profil für
das Ziel übereinstimmt. Die Gewichtungsfaktoren müssen für jedes
Element der Profile gleich sein. Die Gewichtungsfaktoren, die auf das Element TC1
im Hinblick darauf, wie die Werte von MR1 bis MR5 gezählt werden, angewandt
werden, müssen die gleichen sein, wie diejenigen, die auf TC2 angewandt werden.
Schließlich hat der Algorithmus die Form: A(MR1) + B(MR2) + C(MR3) + D(MR4)
+ E(MR5) = Wert, der dem vorhergesagten Wert entsprechend dem Surrogat zugeordnet
wird, angegeben in der Tabelle als PR. Jeder der Koeffizienten A bis E weist einen
numerischen Wert auf; einige der Koeffizienten können Null sein. Diese gleiche
Gleichung mit den gleichen Werten für A bis E wird herangezogen, um die abgeschätzte
Reaktivität mit einem Zielrezeptor für beliebige individuelle Kandidatenverbindungen
zu berechnen.
Im vorstehenden Beispiel gilt: A = +2; B = +3; C = –1; D =
–2; E = +1. Hier ermöglichen die Koeffizienten eine perfekte Übereinstimmung
zwischen dem abgeschätzten Rezeptorprofil (ER) und dem Zielrezeptorprofil (TR)
im Hinblick auf den Trainingssatz. Im Allgemeinen und wenn mehr Verbindungen in
den Trainingssatz eingeschlossen werden, ist eine perfekte Übereinstimmung
nicht möglich; die engste erzielbare Übereinstimmung ist jedoch für
den gleichen Zweck brauchbar.
Für jede neue Verbindung wird also eine Vorhersage der Reaktivität
mit dem Ziel wie folgt erhalten: Ein Profil, das Reaktivitätswerte für
MR1 bis MR5 bereitstellt, wird erhalten. Die erhaltenen Werte werden dann in die
vorstehend angegebene Formel eingesetzt, und zwar mit vorher festgelegten Werten
für A bis E. Ein abgeschätzter Wert wird berechnet. Eine neue Kandidatenverbindung,
die ein Profil mit Werten MR1 = 8, MR2 = 9, MR3 = 4, MR4 = 7 und MR5 = 5 ergibt,
wird also gemäß folgender Formel bewertet:
(+2) (8) + (+3) (9) + (–1) (4) + (–2) (7) + (+1) (5) = PR
wobei man einen vorhergesagten Reaktivitätswert von 30 erhält. Dies zeigt,
dass das Verfahren eine höhere Reaktivität vorhersagen kann, als sie in
dem Trainingssatz erhältlich ist. Bestätigte Verbindungen hoher Reaktivität
können dem Trainingssatz zugefügt werden, um die Formel zu verfeinern.
Die nachstehend angegebenen Beispiele 3 und 4 zeigen, dass dieser
allgemeine Ansatz erfolgreich bei der Vorhersage der Reaktivität beliebiger
Kandidatenverbindungen mit einem Ziel ist; dementsprechend ist keine weitere Bereitstellung
von Zielrezeptor erforderlich, um eine beliebige Anzahl von Verbindungen zu testen.
Gemäß einer bevorzugten Ausführungsform der ursprünglichen
Matrix werden sowohl das Referenzpanel als auch der Trainingssatz maximal verschieden
eingestellt und stellen inverse Bilder dar. Dies wird in 2
erläutert, die eine hypothetische Matrix von Referenzpanelmitgliedern und Referenzbindungsmitteln
zeigt. Wie in der Figur veranschaulicht, treten Referenzpanelmitglied 1 und Satzmitglied
1' stark in Wechselwirkung; Referenzpanelmitglied 2 und Satzmitglied 2' tun dies
ebenfalls; Referenzpanelmitglied 3 und Satzmitglied 3' usw. Es gibt eine vergleichsweise
schwache Wechselwirkung zwischen beispielsweise Satzmitglied 3' und Referenzpanelmitglied
2 oder Referenzpanelmitglied 1. Im Ergebnis stellen Referenzpanel und Trainingssatz
inverse Bilder dar.
Es können Kits hergestellt werden, die in getrennten Behältern
jedes der Mitglieder des Trainingssatzes, jedes der Mitglieder des Referenzpanels
und das Ziel zusammen mit Reagenzien zum Testen ihrer Reaktivität umfassen.
Einschluss von Nicht-Ig-Proteinen
Die Ausführung des vorstehenden Surrogatverfahrens führte
zu dem überraschenden Befund, dass der Abgleich von Fingerabdrücken zur
Identifizierung von Verbindungen mit gewünschten Eigenschaften, wie der Fähigkeit
zur Bindung an ein gewünschtes Ziel, der Fähigkeit, als ein Enzyminhibitor
zu wirken, einer spezifischen pharmakologischen Aktivität und dergleichen auf
Panels basieren kann, die in wesentlicher Weise angereichert sind durch Proteine,
die weder Immunglobuline noch deren Fragmente noch spezifisch ausgelegte maximal
diverse Paraloga sind. Überraschenderweise kann ein Bereich der Komplementarität
oder anderer interaktiver Fähigkeit, der ausreicht, um im Wesentlichen den
gesamten „chemischen Raum" abzudecken, unter Einsatz von natürlich auftretenden
Proteinen, wie Enzymen, Lectinen, T-Zellrezeptoren, olfaktorischen Rezeptoren und
dergleichen, oder durch Einsatz von Proteinen, die modifizierte Formen von natürlich
auftretenden Proteinen sind, erzielt werden. Indem ein geeigneter Satz dieser Proteine
gewählt wird, kann ein ausreichender Bereich der Reaktivität erhalten
werden, um verstärkte Fingerabdrücke in diesen Zusammenhängen bereitzustellen.
Panels, die mit Nichtimmunglobulinproteinen angereicht sind oder daraus bestehen,
dienen also dazu, geeignete Referenzsätze von Datenpunkten bereitzustellen,
um ein charakteristisches Profil einer individuellen Substanz zu erhalten. Die Profile
können in einer Reihe von Weisen manipuliert werden, wie weiter nachstehend
beschrieben wird.
Es wäre möglich und liegt innerhalb des Umfangs der Erfindung,
Panels zu konstruieren, die als Mitglieder nicht nur diese Proteine, sondern auch
Antikörper und/oder Paraloga oder sonstige willkürlich gewählte quantitative
Reaktivitätsereignisse enthalten. Wenn das Wort „Reaktivität" in
der vorliegenden Anmeldung verwendet wird, bezieht es sich auf nichtkovalente Wechselwirkung
zwischen den angegebenen Teilnehmern. In einem gewissen Sinn ist „Reaktivität"
im Wesentlichen ähnlich zu nichtkovalenter Bindung. Derartige Bindung kann
mit katalytischen oder allosterischen Reaktionen verbunden sein oder nicht.
Das Panel muss jedoch zumindest durch die alternativen Proteine angereichert
sein. Ein Protein reichert das Panel an, wenn seine Mitgliedschaft in dem Panel
eine der folgenden Wirkungen oder Kombinationen hat:
- (a) Erweiterung der Abdeckung des Panels über den chemischen Raum (siehe
nachstehend);
- (b) Erhöhung des mittleren Abstandes zwischen Fingerabdrücken verschiedener
Verbindungen in der Bibliothek (siehe nachstehend);
- (c) Verringerung der Anzahl der Referenzpanelmitglieder, die erforderlich ist,
um eine gegebene Anzahl an Hauptkomponenten zu erhalten (siehe nachstehend).
(a) Es ist natürlich erwünscht, den gesamten chemischen Raum abzudecken.
90 %, vorzugsweise jedoch 95 % Abdeckung ist im Allgemeinen ausreichend. „Abdeckung"
des chemischen Raums bedeutet, dass alle Verbindungen, die gegen das Panel getestet
werden, zumindest eine gewisse Reaktivität mit mindestens einem Panelmitglied
und vorzugsweise mit drei bis fünf Panelmitgliedern zeigen.
(b) Der „Abstand" zwischen Fingerabdrücken oder Profilen kann am besten
durch den Kunstgriff der Zuordnung jedes Profils zu einem Punkt im n-dimensionalen
Raum verstanden werden, wobei die Reaktivität im Hinblick auf jedes von n Referenzpanelmitgliedern
einzeln in n Dimensionen aufgezeichnet wird. Der Abstand zwischen den Punkten ist
dann der Abstand zwischen den Profilen. Es ist jedoch ohne weiteres ersichtlich,
dass dies lediglich eine zweckmäßige Weise ist, um die Unterschiede zwischen
Profilen quantitativ festzulegen; jedes beliebige andere Verfahren zur quantitativen
Bestimmung der Profile kann herangezogen werden, wie eine rekursive Partitionierung
der Daten, wie in einer Verzweigungsbaumclusterhierarachie.
(c) „Hauptkomponenten" bezieht sich auf den Grad der Korrelation hinsichtlich
der Reaktivität in Übereinstimmung mit dem standardmäßigen multivariaten
statistischen Gebrauch. Wenn es beispielsweise 10 Mitglieder in dem Panel gibt und
alle nahezu gleichmäßig mit einem gegebenen Satz von Verbindungen reagieren,
dann liefern sie nur eine Hauptkomponente. Wenn jedes mögliche Paar von Panelmitgliedern
keine Korrelation in der Bindungsreaktivität zu einem gegebenen Satz von Verbindungen
zeigt, dann gibt es 10 Hauptkomponenten.
Die Proteine, die in die Panels eingeschlossen sind, die bei dem erfindungsgemäßen
Verfahren verwendet werden, müssen das Panel in mindestens einer der vorstehenden
Weisen verstärken oder anreichern. Die Panels, die in der
Erfindung brauchbar sind, können mindestens ein Nicht-Ig-Protein enthalten,
das das Panel anreichert. Vorzugsweise sind 10 % der Mitglieder Nicht-Ig-Proteine,
insbesondere 20 % und ganz besonders 50 % oder mehr.
Die Panels können vollständig aus Nicht-Ig-Proteinen oder
in der Tat vollständig aus Enzymen oder vollständig aus Lectinen oder
vollständig aus T-Zellrezeptoren oder vollständig aus olfaktorischen Rezeptorproteinen
oder vollständig aus Rezeptorproteinen im Allgemeinen bestehen, oder sie können
aus Gemischen davon zusammengesetzt sein. Nimmt man als Beispiel Panels, bei denen
der Einschluss von Enzymen der Schwerpunkt ist, dann enthalten die Panels typischerweise
mindestens 2 Enzyme, vorzugsweise 3 Enzyme, insbesondere 4 bis 6 Enzyme und ganz
besonders 7 bis 25 Enzyme. Es wurde festgestellt, dass der Einsatz von nicht mehr
als 15 Enzymen immer noch akzeptable Ergebnisse über praktisch den gesamten
chemischen Raum ergibt; es gibt jedoch keine willkürliche obere Grenze für
die Anzahl der Enzyme in dem Panel, abgesehen von praktischen Überlegungen
dahingehend, dass das Gesetz der abnehmenden Grenzerträge recht deutlich oberhalb
der Anzahl in diesem Bereich einsetzt. Ähnliche Kommentare können im Hinblick
auf beliebige andere spezielle Klassen von Proteinen, wie vorstehend erwähnt,
gemacht werden.
Die Proteine in dem Panel können vorzugsweise wie folgt gewählt
werden:
Es wird ein iteratives Verfahren genutzt, um die Mitglieder eines beliebigen Panels
zur Verwendung bei der Fingerabdruckbestimmung auszuwählen. Einige Kandidatenpanelmitglieder
unter Einschluss von Nicht-Ig-Proteinen werden willkürlich gewählt, und
Fingerabdrücke für einen beliebigen willkürlichen Satz von Verbindungen
werden erhalten. Es werden Vergleiche zwischen den Fingerabdrücken angestellt.
Ein beliebiges Verfahren des Vergleichs kann genutzt werden; einige besonders wirksame
Verfahren werden jedoch nachstehend beschrieben. Was immer das Verfahren des Vergleichs
ist, Verbindungen, die sehr ähnliche Fingerabdrücke haben, sind eindeutig
redundante Mitglieder der Bibliothek von Verbindungen für diesen Zweck, und
nur eine der Verbindungen in einer derartigen Gruppe sollte in dem Selektionssatz
erhalten bleiben. Die restlichen Fingerabdrücke werden dann erneut auf Ähnlichkeit
verglichen; dieses Mal wird jedoch ein inverses Profil für jedes der Referenzpanelmitglieder
im Hinblick auf die restlichen Verbindungen in dem Auswahlsatz erhalten. Nun wird
es möglich, Panelmitglieder zu verwerfen, die ähnliche inverse Profile
im Hinblick auf die Verbindungsbibliothek liefern. Wenn also drei Kandidatenmitglieder
in dem Panel offensichtlich ähnliche Reaktionsmuster über die getestete
Verbindungsbibliothek ergeben, dann wird nur eines der Mitglieder in dem Panel behalten.
Wenn das Panel unter Einschluss von Nicht-Ig-Proteinen, das auf diese
Weise aufgrund der Redundanz verkleinert worden ist, weiter brauchbare Fingerabdrücke
für alle neuen Verbindungen ergibt und wenn die neuen Verbindungen keine weitere
Redundanz in dem Panel aufzeigen, dann ist das Panel zufrieden stellend. Wenn das
Panel jedoch keine aussagenkräftigen Fingerabdrücke für neue Verbindungen
ergibt, dann müssen zusätzliche Mitglieder zu dem Panel hinzugefügt
werden, wobei es jedoch immer schwieriger wird, ein neues Mitglied zu finden, das
ausgeprägte Muster im Vergleich zu den bereits vorhandenen liefert. Das Screening
auf neue Mitglieder in den Panels wird vorzugsweise mit Verbindungen durchgeführt,
die nicht mit den bereits vorhandenen Mitgliedern nachgewiesen wurden. Die neuen
Mitgliedskandidaten werden dann im Hinblick auf einen maximal diversen Satz der
bereits getesteten Verbindungen bewertet. Das ideale Panel sorgt für eine hohe
Abdeckung mit hoher Unabhängigkeit und einer kleinen Anzahl an Mitgliedern,
vorzugsweise unter 100, stärker bevorzugt unter 25 und insbesondere unter 15.
Es wurde festgestellt, dass unter 100 Enzymen mit stark verschiedener
Funktion 12 eine 95%-ige Abdeckung gegenüber 1000 Verbindungen aus einer Vielzahl
chemischer Klassen ergeben. Die 12 Enzyme sind unabhängig, da etwa 9 statistisch
aussagekräftige Hauptkomponenten erforderlich sind, um die 12 zu beschreiben;
wenn sie vollständig unabhängig wären, würden 12 benötigt.
Anordnung des Panels
Die Mitglieder unter Einschluss der Nicht-Ig-Proteine, die das Panel
ausmachen, müssen physikalisch in einer solchen Weise verkörpert sein,
dass ein individuelles Ergebnis für jedes Mitglied abgerufen und aufgezeichnet
werden kann, so dass das Profil konstruiert wird. Es ist natürlich möglich,
einfach jedes Mitglied unabhängig in einem individuellen Reaktionsbehälter
mit dem relevanten Analyten umzusetzen; das Ergebnis für jeden Behälter
individuell aufzuzeichnen; und manuell das Profil, das sich ergibt, zu konstruieren.
Zweckmäßigere alternative Ansätze beinhalten die Ausbreitung der
Panelmitglieder in einer geordneten Weise auf einer Art von festem Träger,
wie einer Microtiterplatte oder einem anderen Träger mit mehrfachen Testregionen,
und das Abtasten der Regionen im Hinblick auf die individuellen Ergebnisse. Mit
dem Abtasten können die Ergebnisse in den einzelnen Regionen nacheinander oder
gleichzeitig unter Anwendung bekannter Technologie bewertet werden.
Im Allgemeinen wird die Reaktivität des Analyten in Bezug auf
jede Testregion oder jeden Behälter im Hinblick auf die Bindungsaffinität
des Analyten zu dem darin enthaltenen Panelmitglied bewertet. Dieses Gebiet ist
voll von Methoden zum Nachweis des Grades der Bindung einer Substanz an eine andere.
Bei einem prototypischen Ansatz wird ein Partner, in diesem Fall das Panelmitglied,
an einen festen Träger gebunden, und der andere Partner, in diesem Fall der
Analyt, wird unter Verwendung von Radioisotopen, Fluoreszenz, Enzymen und dergleichen
markiert, und nach Kontakt des Analyten mit dem trägergebundenen Panelmitglied
wird der Träger gegebenenfalls von ungebundenem Analyten frei gewaschen, und
die Menge der Markierung wird gemessen. Alternativ kann die Bindungsaffinität
durch Konkurrenz zwischen dem Analyten und einem markierten Konkurrenten gemessen
werden. Ein Verfahren mit derartiger kompetitiver Bindung, das in den vorstehend
in Bezug genommenen Patenten beschrieben wird, beinhaltet die Konkurrenz zwischen
dem Analyten und einem verschiedenartigen Gemisch von markierten Verbindungen, wobei
das Gemisch ausreichend verschiedenartig ist, so dass das Gemisch gleichmäßig
an jedes Mitglied des Testpanels bindet, so dass die Verringerung hinsichtlich der
Markierung direkt ein Maß für den Grad der Bindung für den Konkurrenzanalyten
ergibt. Es stehen auch Verfahren zur Verfügung, um den Grad der Bindung zwischen
zwei Substanzen in homogenen Medien nachzuweisen, wie z.B. die EMIT-Technologie.
Bei allen diesen Verfahren können beliebige herkömmliche Verfahren der
Markierung angewandt werden. Zu den bevorzugten Verfahren gehört die Verwendung
einer Konkurrenz mit fluoreszierender Markierung, z.B. die Anwendung der Fluoreszenzpolarisation.
Die Erfindung betrifft Verfahren des Nachweises des Bindungsgrades, und jedes herkömmlicherweise
angewandte Verfahren zur Messung der Bindungsaffinität zwischen einem Analyten
und dem Mitglied des Panels kann herangezogen werden.
Es ist bevorzugt, Assayverfahren mit einem breiten Dynamikbereich
anzuwenden. Die Quantifizierung der Affinität durch IC50 für
die Inhibition des Substratumsatzes oder andere kompetitive Bindungsereignisse können
oftmals über mehr als 5 Log-Einheiten der Potenz gemessen werden.
Profilbestimmung
Die Bestimmung eines charakteristischen Profils stellt das grundlegende
Werkzeug für die erfindungsgemäßen Abgleichtechniken dar. Jedes Profil
oder jeder Fingerabdruck wird durch Messung der individuellen Reaktivitäten
bestimmt, wie Bindungsaffinitäten des Analyten für jedes Mitglied des
Panels. Die Reaktivitäten werden dann in einer geordneten Anordnung aufgezeichnet,
so dass sie dieses charakteristische Profil bereitstellen.
3 ist ein Flussdiagramm, das die Stufen beim Erhalten
des charakteristischen Profils für einen Analyten zeigt.
Zunächst wird der Analyt mit jedem Panelmitglied (Panelmitglied
i) in einem Panel von n Mitgliedern in Kontakt gebracht. Für jeden dieser Kontakte
wird die Reaktion des Analyten mit dem Panelmitglied nachgewiesen und gemessen.
Anschließend wird das Ausmaß der Reaktion aufgezeichnet, wobei man einen
Datenpunkt für die Reaktivität, die mit jedem der n Mitglieder des Panels
verbunden ist, erhält. Anschließend werden die aufgezeichneten Datenpunkte
in einer ordentlichen Weise angeordnet, um das Profil zu erhalten. Eine zweckmäßige
Weise der Anordnung dieser Datenpunkte besteht darin, jede Reaktivität in einer
der Dimensionen eines n-dimensionalen Raums aufzutragen. Es stehen jedoch auch andere
Maßnahmen zur Aufzeichnung der Profile zur Verfügung.
Die 4a bis 4b
stellen Beispiele der Art dar, in der derartige Profile aufgezeichnet werden. In
4a wird der Analyt direkt im Hinblick auf die Bindungsaffinität
für ein theoretisches Panel, das 10 Enzyme enthält, getestet. Die Ergebnisse
werden in der Form eines Balkengraphen aufgezeichnet. Alternativ, wie in
4b gezeigt, können die Ergebnisse im Hinblick
auf willkürliche Kategorien der Bindungsstärke, die durch ein Spektrum
von weiß-schwarz repräsentiert werden, um den Grad der Affinität
zu bezeichnen, tabuliert werden. Für die Computeranalyse sind numerische Werte
besonders nützlich, wobei sie jedoch schwer durch visuelle Beobachtung zu interpretieren
sind.
Sobald das charakteristische Profil eines Analyten aufgezeichnet ist,
entweder wie in den 4a bis 4b
gezeigt, oder in anderer grafischer, numerischer oder elektronischer Form, kann
es für eine Reihe von Zwecken verwendet werden. Ein klarer Zweck besteht darin,
einfach den Analyten zu charakterisieren, um in der Lage zu sein, das Profil mit
dem einer unbekannten Verbindung abzugleichen. Das Profil kann auch genutzt werden,
um die Konzentration des Analyten in einer Probe zu analysieren, unter Einschluss
von Proben, die Gemische der Analyten enthalten. Das Profil kann
auch genutzt werden, um das Bindungsvermögen einer Kandidatensubstanz mit dem
eines Liganden, von dem bekannt ist, dass er an das Ziel bindet, zu vergleichen.
Dies kann durch direkten Abgleich geschehen oder durch Abgleich des Profils mit
dem eines Rezeptors unter Verwendung von Umkehrabbildungspanels, wie nachstehend
beschrieben.
Pattern-Matching zur Identifizierung gewünschter Reaktivitäten
Eine Anwendung des Panels resultiert in der Identifizierung diagnostischer
Merkmale von Molekülen oder „Pharmacophoren", die mit Rezeptorzielen
in Wechselwirkung treten. Die Pattern-Matching-Techniken sind genau die gleichen
wie die, die für Panels beschrieben wurden, die Antikörper oder Paraloga
enthalten, wie sie in den vorstehend in Bezug genommenen Patenten 5,300,425
und 5,340,474 sowie in US-Patent
5,338,659 beschrieben werden.
Pattern-Matching kann herangezogen werden, um Verbindungen zu identifizieren,
die eine gewünschte physiologische Aktivität aufweisen. Z.B. kann von
Verbindungen, die Fingerabdrücke gegenüber den Referenzpanels ergeben,
die ähnlich zu denen von Verbindungen sind, die entzündungshemmende Aktivität
aufweisen, vorhergesagt werden, dass sie entzündungshemmende Aktivität
aufweisen. Die Abgleichtechniken können variieren; die, die in dem vorstehend
genannten US-Patent 5,338,654 beschrieben
werden, sind jedoch besonders nützlich.
5 zeigt ein direktes Verfahren zur Identifizierung
einer Substanz, die erfolgreich hinsichtlich der Bindung eines gewünschten
Ziels ist.
Wie gezeigt, wird ein Profil für den Kandidaten in ähnlicher
Weise, wie es vorstehend allgemein für einen Analyten beschrieben wurde, erhalten.
Die gleichen Schritte unter Verwendung der gleichen Panelmitglieder werden im Hinblick
auf einen Liganden durchgeführt, von dem bekannt ist, dass er an das gewünschte
Ziel bindet. Auf diese Weise werden das Profil der Kandidatensubstanz und das eines
Liganden erhalten. Diese Profile werden verglichen, z.B. in der Weise, die hier
beschrieben wird, durch Bestimmung des Abstandes zwischen den Punkten, die durch
Auftragung der Reaktivitäten gegen die Panelmitglieder im n-dimensionalen Raum
erzeugt werden, und ein Kandidat, der ein Profil ähnlich dem des Liganden aufweist
(d.h. z.B. nahe der Position des Punktes, der das Profil für den Liganden im
n-dimensionalen Raum repräsentiert), wird als ein erfolgreicher Kandidat identifiziert.
Der erfolgreiche Kandidat wird dann unter Verwendung der relevanten Ausgangsmaterialien
synthetisiert, wobei man die gewünschte Substanz erhält.
Ein alternativer Ansatz besteht darin, Profile abzugleichen, die für
die Kandidatensubstanz und das gewünschte Ziel bestimmt wurden, und die im
Hinblick auf Umkehrabbildungspanels erhalten wurden. Dieser Ansatz ist in
6 erläutert.
Ein Umkehrabbildungssatz bezieht sich auf einen Satz von Mitgliedern,
von denen jedes komplementär zu einem Mitglied des Referenzpanels, das vorstehend
beschrieben wurde, ist. 2 ist im Zusammenhang mit der
folgenden Beschreibung hilfreich. 2 zeigt ein Referenzpanel,
bei dem repräsentative Moleküle speziell definierte Formen aufweisen,
die mit 1-n nummeriert sind. Ein Umkehrabbildungspanel würde einem Satz von
Molekülen entsprechen, der komplementär zu diesen Formen ist, gezeigt
in der Figur als 1'-n'. Wie vorstehend angegeben, würde ein derartiges Umkehrabbildungspanel
einen idealen Trainingssatz bei der Konstruktion der Surrogate darstellen. Es kann
auch absichtlich für die Verwendung bei den Pattern-Matching-Techniken, die
noch beschrieben werden, konstruiert werden. Die Mitglieder des Umkehrabbildungspanels
werden als „Referenzkomplemente" bezeichnet, und zwar aufgrund ihrer komplementären
Form. So passt z.B. Referenzkomplement 1' exakt zu Referenzpanelmitglied Nr. 1 und
bindet dieses; Referenzkomplement 4' bindet exakt Referenzpanelmitglied Nr. 4 und
passt dazu, usw. Die Konstruktion der Umkehrabbildungspanels wird auch in
US-Patent 5,300,425 beschrieben.
Das allgemeine Pattern-Matching-Verfahren, das hier relevant ist,
wird in 6 erläutert.
In 6 wird ein Profil einer Kandidatenverbindung
auf eine Weise ähnlich zu der von 3 erhalten,
wobei die Kandidatenverbindung mit jedem Panelmitglied behandelt und ein Profil
erhalten wird, wie es in der linken Spalte gezeigt ist. Das Profil des gewünschten
Ziels wird im Hinblick auf jedes Referenzkomplement eines n-Mitgliedersatzes erhalten,
der eine Umkehrabbildung des Referenzpanels darstellt, wie es in der rechten Spalte
gezeigt ist. Erneut werden die Profile verglichen, und ähnliche Profile werden
identifiziert, um eine erfolgreiche Kandidatensubstanz zu erhalten, die an das Ziel
bindet. Die erfolgreiche Kandidatensubstanz wird dann aus geeigneten Ausgangsmaterialien
synthetisiert.
Natürlich könnten die Umkehrabbildungspanels umgekehrt werden;
das Profil des Ziels wird im Hinblick auf das Referenzpanel erhalten, und das des
Kandidaten im Hinblick auf dessen Umkehrabbildungsreferenzkomplementpanel.
Wie komplex auch immer die Struktur einer Kandidatenverbindung ist:
Wenn sie ein strukturelles Merkmal aufweist, das ihre Bindung an ein Mitglied des
Referenzpanels beeinflusst, wie die Pfeilkopfkonfiguration, die ausgelegt ist, in
die dreieckige Höhlung zu passen, die für Referenzpanelmitglied Nr. 1
in 2 gezeigt ist, dann bindet sie an ein Ziel, das
ein Oberflächenmerkmal aufweist (erneut unabhängig davon, wie komplex
der Rest des Moleküls ist), das der dreieckigen Höhlung, die in Referenzpanelmitglied
Nr. 1 in 2 gezeigt ist, ähnelt. Selbstverständlich
bewirkt dieses Merkmal, dass eine Substanz, an die es selbst aufgrund dieses Merkmals
bindet, an Referenzkomplement 1' im Umkehrabbildungspanel bindet. Aufgrund dieses
gemeinsamen Merkmals stimmt das Profil des Kandidaten im Hinblick auf das Referenzpanel
dann mit dem des Ziels im Hinblick auf das Umkehrabbildungspanel überein. Selbstverständlich
ist es, da die erfindungsgemäßen Verfahren mit empirischen Fingerabdrücken
arbeiten, nicht erforderlich, zu wissen, was die komplementären Motive im Hinblick
auf die Molekülstruktur sind.
US-Patent 5,338,659, das vorstehend in Bezug
genommen wurde, offenbart einen besonders effizienten Ansatz zur Durchführung
der Vergleiche zwischen Profilen. Dieser Ansatz besteht darin, die erhaltenen Profile
oder Fingerabdrücke im n-dimensionalen Raum aufzutragen, wobei n die Anzahl
der Mitglieder des relevanten Panels ist und die Anordnung des Punktes in der Dimension
eine Funktion der Reaktivität mit jedem Panelmitglied ist. Die Nähe der
Punkte, die das unbekannte oder irgendein zuvor bestimmtes Profil im n-dimensionalen
Raum repräsentieren, repräsentiert die Ähnlichkeit ihrer Zusammensetzungen.
Es können auch multiparametrische statistische Techniken angewandt werden,
um zu definieren, welche der n Dimensionen den größten Informationsgehalt
relativ zu dem Assay aufweist, so dass die Auswahl einer minimalen Anzahl an Charakteristika
oder Dimensionen, die vermessen werden, möglich wird.
Um die Profile als Werkzeuge bei der Vorhersage von Eigenschaften
von Testsubstanzen oder in anderen Pattern-Matching-Anwendungen zu nutzen, und zwar
unabhängig von den speziellen genutzten Pattern-Matching-Techniken, sollte
das Referenzpanel geeignet sein, mindestens 90 % des chemischen Raums abzudecken,
und es sollte einen mittleren Abstand zwischen Fingerabdrücken von allen Paaren
von mindesten etwa dem Dreifachen des Rauschpegels, der durch wiederholte Bestimmung
der Profile für eine einzelne Verbindung erzeugt wird, bereitstellen. Außerdem
sollten die Fingerabdrücke, die durch das Referenzpanel bereitgestellt werden,
mindestens fünf Hauptkomponenten im Hinblick auf den Bereich von kleinen organischen
Verbindungen, die kommerziell erhältlich sind, bereitstellen. Z.B. wird dieser
Bereich in typischer Form verwirklicht durch einen beliebigen Satz von ungefähr
1000 Verbindungen unter denen, die aus dem Aldrich Catalog of Fine Chemicals erhältlich
sind.
Verwendung von Surrogaten
Die Panels werden auch herangezogen, um Surrogate für ein gewünschtes
Ziel zu erzeugen, um die Bindung von Kandidatenverbindungen zu bewerten, wie vorstehend
beschrieben.
Anwendungen
Die Anwendungen dieser Pattern-Matching-Verfahren im Hinblick auf
die Profile oder Fingerabdrücke sind vielfältig. Z.B. ist es möglich,
Peptide oder Proteine zu erhalten, die sich in biologisch wichtiger Weise verhalten,
und zwar aufgrund der Einfachheit der Synthese oder aufgrund ihres natürlichen
Auftretens. Peptide und Proteine sind jedoch nicht attraktiv als Arzneistoffe, da
sie nicht leicht oral verabreicht und metabolisiert werden können, und da sie
Probleme bei der Herstellung und Lagerung aufweisen; kleine Moleküle sind bevorzugt.
Durch Abgleichung der Profile entweder durch direktes Pattern-Matching, inverse
Panels oder Surrogate können geeignete kleine Ersatzmoleküle gefunden
werden.
Eine weitere wichtige Anwendung ist die Vorhersage der Toxizität
von Kandidatenarzneistoffen. Der Vergleich der entsprechenden Aspekte des Fingerabdrucks
des Kandidatenarzneistoffs mit Merkmalen der Fingerabdrücke von bekannten Toxinen
erlaubt eine derartige Vorhersage. In gleicher Weise erlaubt die Konstruktion von
Surrogaten für Proteine, die ähnlich hinsichtlich der Sequenz oder Funktion
zu dem Ziel sind, Nebenwirkungen aufgrund von Kreuzreaktionen vor Tierversuchen
abzuschätzen, wobei nur Spurenmengen des betreffenden Proteins verwendet werden.
Noch eine weitere Anwendung der Profile und ihrer Korrelation betrifft
die Bereitstellung von Parametern für die Verbesserung von
dreidimensionalen Modellen der räumlichen Anordnung von Pharmacophoren, die
durch herkömmliches Computer-Modelling erhalten werden. Der Vergleich des Fingerabdrucks
einer speziellen Kandidatenverbindung, deren dreidimensionale Struktur mit einer
idealisierten Beschreibung eines entsprechenden Liganden (des Pharmacophors) verglichen
werden soll, mit Fingerabdrücken von Verbindungen, die verwandte Aktivitäten
aufweisen, ergibt erhebliche zusätzliche empirische Informationen, die die
Konstruktion genauerer dreidimensionaler Darstellungen von Peptiden oder anderen
Makromolekülen erlauben können, die der konformationellen Variation unterliegen.
Diese Techniken erlauben auch die Verkleinerung großer Bibliotheken
von Verbindungen auf kleinere Sätze, die dennoch die Verbindungen enthalten,
die mit größter Wahrscheinlichkeit eine gewünschte biologische Aktivität
aufweisen. Die verringerte Größe der Bibliothek erlaubt die Anwendung
höher entwickelter Werkzeuge auf die Vorhersage der Affinität der Verbindungen
in der verkleinerten Bibliothek für ein Ziel. Da die Größe der Bibliothek
verringert ist, können umfangreiche Konformationsanalysen des Liganden an der
aktiven Stelle sowie Konformationsänderungen der aktiven Stelle in Gegenwart
des Liganden für die Bibliotheksmitglieder untersucht werden. Dies erlaubt
auch eine genauere Analyse der elektrostatischen Wechselwirkungen zwischen dem Liganden
und der Bindungsstelle unter Einschluss von Solvatationseffekten, die in Beziehung
zur Desolvatation der Bindungskavität und des Liganden, wenn diese in Wechselwirkung
treten, stehen. Die verkleinerte Bibliothek, die durch die Erfindung ermöglicht
wird, ist erheblich kleiner als die, die üblicherweise in dreidimensionalen
Datenbanken verwendet wird, was relativ größere Berechnungsanstrengungen
im Hinblick auf jede Verbindung erlaubt.
Die allgemeinste Anwendung besteht einfach darin, die maximale funktionelle
Verschiedenheit für eine gegebene Größe einer chemischen Bibliothek
bereitzustellen; diese chemische Bibliothek stellt einen Kernsatz für ein Screening,
einen Kernsatz für ein Computerscreening, Trainingssätze allgemein und
chromatographische Liganden bereit. Diese Anwendung ist besonders nützlich
für eine kombinatorische Bibliothek, in der sich typischerweise große
Zahlen von recht ähnlichen Verbindungen finden.
Die Brauchbarkeit des Mustervergleichsansatzes ist erfolgreich gezeigt
worden bei der Identifizierung nicht-steroidaler entzündungshemmender Arzneistoffe
(NSAIDs). Viele NSAIDs sind auf der Basis ihrer Fähigkeit zur Inhibition von
Cyclooxygenase (COX, auch bekannt als Prostaglandinsynthase) ausgewählt worden,
die den ersten Schritt der Synthese von Prostaglandinen katalysiert, sowie aufgrund
ihrer Aktivität in Tiermodellen. Kürzlich ist eine zweite Cyclooxygenase,
COX-II, entdeckt worden, bei der es sich um ein Isoenzym der ursprünglich bekannten
COX-I handelt. COX-II ist weitgehend beschränkt auf Zellen des Immunsystems,
und es wird angenommen, dass sie bei Entzündungen wichtiger ist als COX-I.
Wie ausführlicher in Beispiel 2 dargelegt wird, wurden Fingerabdrücke
für mehrere hundert Verbindungen unter Einschluss von zwei NSAIDs unter Verwendung
der Proteinpanels (enthaltend 8 bis 10 Proteine) erhalten. Die Untersuchung der
Fingerabdrücke dieser beiden Verbindungen zeigte ein gemeinsames Merkmal, von
dem sich herausstellte, dass es von mehreren zusätzlichen bekannten NSAIDs,
für die Profile oder Fingerabdrücke anschließend erhalten wurden,
geteilt wird. Die Fingerabdrücke für mehrere hundert Verbindungen, die
bereits getestet waren, wurden dann auf das Vorhandensein oder die Abwesenheit dieses
Merkmals abgesucht. Es wurden zwölf Verbindungen aufgefunden, und diese wurden
auf ihre Fähigkeit zur Inhibition von COX-I getestet. Zwei Verbindungen zeigten
eine mäßige und eine eine messbare, jedoch geringe Fähigkeit in dieser
Hinsicht, obgleich keine NSAID-Aktivität für diese Verbindungen zuvor
angegeben wurde.
Das Panel der Proteine wurde dann optimiert, wie es vorstehend allgemein
beschrieben wurde, und zur Bewertung einer Gruppe von strukturell verschiedenen
Verbindungen herangezogen, die sieben bekannte COX-Inhibitoren und sechs Inhibitoren
anderer Ziele umfasste. Die erhaltenen Fingerabdrücke erlaubten eine vollkommen
genaue Vorhersage, ob eine Verbindung ein COX-Inhibitor ist oder nicht, obgleich
die Proteine in dem Panel keinerlei Proteine repräsentierten, die zu COX durch
Homologie oder durch Enzymaktivität verwandt waren.
Fingerprint-Datenbanken
Die hier beschriebenen Referenzpanels und Referenzpanels im Allgemeinen
können herangezogen werden, um eine Fingerabdruckdatenbank zu erzeugen, die
Fingerabdrücke einer Bibliothek von Verbindungen in physikalisch gespeicherter
Form enthält, so dass sie deren Abfrage erlaubt. Diese Form kann entweder eine
„Papier"-Datenbank sein oder vorzugsweise eine computerlesbare Form. Die
Datenbank enthält die Fingerabdrücke von im Allgemeinen über 1000
Verbindungen im Hinblick auf ein Panel von Proteinen oder anderen Mitgliedern, wobei
die Anzahl an Panelmitgliedern kleiner ist als der dreifache Wert der Anzahl der
Hauptkomponenten, die in dem Panel repräsentiert sind. Die
Verbindungen repräsentieren einen Bereich von Bindungsaffinitäten für
die Panelmitglieder, der größer ist als drei Log, dargestellt als IC50-Werte.
In der ausgewählten Datenbank stellen mehr als 95 % der Verbindungen Fingerabdrücke
bereit, die sichtbar sind, d.h. größer sind als der Rauschabstand vom
Ursprung, und die eine mittlere Trennung von ihrem nächsten Nachbarn von mehr
als dreimal dem Rauschabstand haben.
Diese Datenbanken sind nützlich in einer Reihe von Zusammenhängen.
Durch Anwendung multivariater statistischer Methoden können gleich diverse
Untergruppen erhalten werden, so dass verifiziert werden kann, dass eine aus der
Datenbank ausgewählte Untergruppe von gleichem Interesse hinsichtlich der Vielfachheit
ist, die von einer alternativen Untergruppe repräsentiert wird, die nach einem
anderen Verfahren erhalten wurde. Multivariate Statistiken können auch herangezogen
werden, um eine Untergruppe mit maximaler Verschiedenheit bei einer definierten
Größe der Bibliothek auszuwählen; wenn z.B. die gewünschte Größe
dem fünffachen Wert der Anzahl der Mitglieder des Referenzpanels entspricht,
dann kann sie herangezogen werden als ein Trainingssatz, wie vorstehend beschrieben.
Die Datenbank kann auch als eine Quelle für einen verschiedenartigen Satz von
Chromatographieliganden verwendet werden.
Die nachstehenden Beispiele sollen die Erfindung veranschaulichen,
aber nicht beschränken.
Beispiel 1
Faktoren, die die minimalen Anforderungen für die Surrogatkonstruktion
bestimmen
Um ein Surrogat zu konstruieren, müssen sowohl das Referenzpanel
als auch der Trainingssatz adäquat sein. Um erfolgreiche Kandidatensubstanzen
für eine gewünschte Eigenschaft zu erhalten, muss auch die Bibliothek
adäquat sein.
Eine Bestätigung dafür, dass das Referenzpanel eine adäquate
Anzahl von richtig gewählten Proteinen enthält, kann erhalten werden,
indem ein X-Y-Plot des Abstandes zwischen Punkten im n-dimensionalen Raum (X-Achse),
aufgetragen gegen die Häufigkeit dieses beobachteten Abstandes (Y-Achse), erhalten
wird (Abstandsverteilung). Es ist daran zu erinnern, dass jeder Punkt im n-dimensionalen
Raum das Profil repräsentiert, das für eine einzelne Verbindung aus der
Verbindungsbibliothek im Hinblick auf ein Referenzpanel von n Mitgliedern erhalten
wurde. Die Höhe, Form und maximale Spannweite dieser Abstandsverteilung ergibt
Informationen zur Angemessenheit des Panels und der Bibliothek. Idealerweise sollte
eine Poisson-Verteilung erhalten werden, wobei das Maximum der Verteilung bei einem
hohen Wert des Abstandes zwischen Paaren liegt.
Die 7a, 7b
und 7c repräsentieren die Abstandsverteilungen
für den gleichen Satz von Verbindungen im Hinblick auf Referenzpanels, die
5, 7 bzw. 10 Proteine enthalten. Es ist ersichtlich, dass bei Verwendung von nur
fünf Proteinen in dem Panel die Form der Verteilung etwas unregelmäßig
ist und der häufigste Abstand zwischen Punkten relativ gering ist. Wenn jedoch
die Anzahl der Proteine in dem Panel erhöht wird, ergibt sich eine regelmäßiger
geformte Poisson-Verteilung mit einem größeren Abstand zwischen Punkten
an ihrem Maximum. Die Anzahl der Mitglieder in dem Panel ist angemessen, wenn das
weitere Zufügen von Mitgliedern die Position und Form dieser Verteilung nicht
mehr verbessert.
Umgekehrt spiegeln die 8a bis
8c einen Fortschritt im Hinblick auf die Erzielung
einer idealen Verteilung durch einfache Erhöhung der Anzahl von zufällig
ausgewählten Verbindungen in der Verbindungsbibliothek wider. Der Plot von
paarweisen Abständen zwischen den Verbindungen in einer chemischen Bibliothek
sollte eine zufällige Verteilung von Abständen ergeben, wenn die Sammlung
der Verbindungen vollständig ist. Wenn es Diskontinuitäten gibt, ist die
Sammlung unvollständig. Darüber hinaus zeigen große Werte des maximalen
Abstandes zwischen Mitgliedern eines Paars eine größere Mannigfaltigkeit
in einem Satz von Verbindungen. Dies ist in den 8a
bis 8c veranschaulicht. 8a
zeigt den Plot Häufigkeit, aufgetragen gegen Abstand, vier Punkte, die Fingerabdrücke
repräsentieren, die gegen einen Satz von zehn Referenzproteinen für 50
zufällig ausgewählte Verbindungen bestimmt wurden. Die Daten führen
nicht zu einer Poisson-Verteilung, und die maximale Spannweite des Abstandes liegt
bei etwas über acht Einheiten. 8b zeigt ähnliche
Ergebnisse, wenn die Fingerabdrücke von 100 Verbindungen eingeschlossen werden;
die Verteilung ist regelmäßiger geworden, und die maximale Spannweite
hat auf ungefähr 12 Einheiten zugenommen. Wenn Fingerabdrücke für
1000 Verbindungen erhalten und verglichen werden, erreicht die maximale Trennung
zwischen den Punkten im n-dimensionalen Raum 15 Einheiten, und die Verteilung nimmt
die typische Poisson-Form an (8c).
Ähnliche Vergleiche können herangezogen werden, um die Angemessenheit
von kleinen Anzahlen von möglicherweise stärker repräsentativen Verbindungen
zu bewerten, z.B. um die Angemessenheit von kombinatorischen Bibliotheken zu bewerten,
die vollständig aus Peptiden bestehen. 9b zeigt
die Abstandsverteilung für 50 kommerziell erhältliche Arzneistoffe. Ein
Vergleich dieser Verteilung mit der, die in 9a (entspricht
8a) für 50 strukturell verschiedene zufällige
Verbindungen gezeigt ist, ergibt, dass die Verteilungen recht ähnlich sind.
Wenn diese Verteilungen jedoch mit der verglichen werden, die für eine Bibliothek
von Peptiden im Bereich von Dipeptiden bis zu 32-Meren erhalten wird, wie in
9c gezeigt, dann ist der überspannte Anteil des
Raums um mehr als eine Einheit kleiner. Dies führt zu dem Schluss, dass Peptidbibliotheken
als solche möglicherweise nicht angemessen sind, um den gesamten chemischen
Raum zu repräsentieren.
Der Charakter der Abstandsverteilung kann auch herangezogen werden
als ein Maß für die Mannigfaltigkeit eines speziellen Satzes von Kandidatenverbindungen,
z.B. Substanzen, die als chromatographische Liganden erhältlich sind. Unter
Verwendung der Abstandsverteilung als ein Kriterium kann eine minimale Anzahl von
Liganden bereitgestellt werden, um das größtmögliche Spektrum des
Trennungswirkungsgrades zu bieten. Mit anderen Worten können derartige Abstandsverteilungen
herangezogen werden, um die maximale Mannigfaltigkeit von Panels von chromatographischen
Liganden, die konstruiert wurden, wie in US-Patent
4,963,263 beschrieben, zu verifizieren oder nichtpolymere Verbindungen
zu wählen, die als verschiedenartige chromatographische Liganden dienen.
Beispiel 2
Entdeckung zusätzlicher NSAIDs
Eine Datenbank von einem Fingerabdruckbestimmung unterzogenen Verbindungen,
die Fenoprofen, Flufenaminsäure, Ibuprofen, Endoprofen, Ketoprofen, Mefenaminsäure,
Naproxen, Piroxicam und Sulindac umfasste, wurde erstellt. Ein Panel von Proteinen
wurde hergestellt, wobei die Proteine kommerziell erhalten oder rekombinant in E.
coli expremiert und gereinigt wurden. Alle diese Proteine waren Enzyme im Anfangspanel,
und ein IC50-Wert wurde in einem enzymatischen Assay bestimmt. Ein überarbeitetes
Panel umfasste weitere Proteine, und die Bindung konnte durch Fluoreszenzpolarisation
bestimmt werden. Keines dieser Proteine hatte irgendeine Homologie zu einem Ziel
der NSAIDs, nämlich Cyclooxygenase.
Die Verifikation der vorhergesagten COX-Inhibitoren erfolgte durch
Bewertung der COX-Aktivität in Gegenwart und Abwesenheit der der Fingerabdruckabdruckbestimmung
unterzogenen Verbindung. Sowohl COX-I vom Widder als auch COX-II vom Schaf wurden
getestet. Die Assays wurden durch Inkubation des Enzyms bei 37°C in 0,1 mM
Arachidonsäure, enthalten in 0,1 M TRIS, pH-Wert: 8,0, mit 20 mM Phenol durchgeführt.
Das Reaktionsgemisch wurde kräftig gerührt, um eine signifikante Konzentration
an gelöstem Sauerstoff zu erhalten, und zwar für 3 Minuten. Die Reaktion
wurde dann durch Zugabe von 5 mM Zitronensäure abgebrochen, und die Proben
wurden verdünnt. Die PGE2-Konzentration wurde durch EIA unter Verwendung
eines Standardkits von Caymen Chemicals gemessen.
Die ersten mehreren hundert Verbindungen, die gegen das Anfangspanel
von 10 Enzymen getestet wurden, enthielten Ibuprofen und Indomethacin, zwei bekannte
NSAIDs. Die 10 Enzyme in diesem Panel sind die, die hier in 10
gezeigt und im nachstehenden Beispiel 3 aufgelistet sind. Beide wiesen gemeinsame
Merkmale in ihren Fingerabdrücken auf, von denen versuchsweise angenommen wurde,
dass sie diagnostisch für einen NSAID sind. Bei der Bewertung der restlichen
Verbindungsfingerabdrücke wurden 12 zusätzliche Verbindungen gewählt,
die diese Merkmale teilten. Diese wurden auf ihre Fähigkeit zur Inhibition
von COX-I und COX-II untersucht. Es wurden zwei COX-I-Inhibitoren mit mäßiger
Affinität und ein COX-I-Inhibitor mit niedriger Affinität gefunden. Neun
Verbindungen, die versuchsweise identifiziert worden waren, inhibierten also diese
Enzyme nicht, es wurden jedoch zwei neue Leitverbindungen ohne Screening der gesamten
Bibliothek gegen COX gefunden. Diese neuen Leitverbindungen waren in ihrer Struktur
signifikant verschieden von den bekannten NSAIDs: Ibuprofen und Indomethacin.
Das Referenzpanel wurde dann überarbeitet, so dass Enzyme eingeschlossen
waren, die das Panel durch Erweiterung des Bereiches von Chemikalien, die einem
Fingerabdruck unterzogen werden können, und durch Erhöhung der mittleren
und maximalen Abstände zwischen Fingerabdrücken anreicherten. Die Proteine
in dem Panel sind die, die in 13 und nachstehend im Beispiel 4
aufgelistet sind. Die Verbindungen wurden erneuten Fingerabdruckbestimmungen unterzogen.
Von den neun Verbindungen, die ursprünglich ausgewählt wurden, die dann
aber COX nicht inhibierten, blieben nur zwei mutmaßlich ähnlich zu dem
NSAID-Profil gegenüber diesem überarbeiteten Panel.
Das überarbeitete Panel wurde herangezogen, um eine Gruppe von
13 nicht identifizierten Verbindungen Fingerabdruckbestimmungen zu unterziehen,
und die Fingerabdrücke wurden mit dem NSAID-Konsensus-Fingerabdruck, der von
Ibuprofen und Indomethacin erhalten wurde, verglichen. Beim Vergleich zeigten sieben
der Verbindungen Merkmale, die vorhersagten, dass sie COX inhibieren würden,
und sechs führten zur Vorhersage, dass sie dies nicht tun würden. Die
Fingerabdrücke identifizierten in genauer Weise Flosulid, Phenylbutazon, Pirprofen,
Prinomid, Oxindanac, Oxindanac-Analogon und Diclofenac als Inhibitoren von COX und
die Verbindungen Chlordiazepoxid, Maprotilin, Imipramin, Metoprolol und Pentopril
als Nichtinhibitoren. Zu diesen Nichtinhibitoren gehörte auch ein Diclofenac-Prodrug,
das selbst dieses Enzym nicht inhibiert.
Beispiel 3
Konstruktion eines Surrogats
In diesem Beispiel sind die Panelmitglieder, deren Profile im Hinblick
auf einen Trainingssatz von Verbindungen erhalten werden, Isoenzyme von Glutathion-S-Transferase
(GST). Das Referenzpanel, das 10 derartige Isoenzyme enthält, ist oben in
10 gezeigt. Das Ziel war in diesem Beispiel Glutathionreductase
(GRd), rechts gezeigt. Die ersten 20 Verbindungen, die oben aufgelistet sind, wurden
als ein Trainingssatz verwendet, und beim Test auf die Bindung an Glutathionreductase
erzeugten sie das Profil, das rechts mit GRd markiert ist. In dieser „Grauskala"
gilt: je dunkler das Quadrat, umso fester bindet die Verbindung; je heller, desto
weniger fest bindet sie. Die Liste der Verbindungen und Abkürzungen ist auf
der linken Seite von 10 angegeben.
Für das Referenzpanel wurden die GSTs A1-1, P1-1, M1a-1a und
M2-2 als rekombinante humane Enzyme bereitgestellt; R1-1, R8-8 sind Rattenenzyme
der Alpha-Klasse; R1(25)-8 ist eine gerichtete Mutante von R8-8. HF2 und HF3 sind
Stubenfliegen-GST-Enzyme, gereinigt durch Hexyl-glutathion-Affinitätschromatographie
aus Zelllinien, die von M. Syvanen bei UC Davis bereitgestellt wurden; Schistosoma-GSTS1
ist erhältlich von Pharmacia als Teil eines Fusionsproteinklonierungsvektors.
Glutathionreduktase aus Hefe wurde von Sigma bezogen.
Um den Grad der Bindung zwischen den GSTs und den Verbindungen auf
der linken Seite der Tabelle zu testen, wurden fünf serielle 5-fach-Verdünnungen
von 250 &mgr;M bis 0,4 &mgr;M getestet, und die 50%-ige Inhibitionskonzentration
(IC50) wurde aus einer Kurve, die an die Daten angepasst wurde, berechnet.
Für Verbindungen mit einem abgeschätzten IC50-Wert unter 0,4
&mgr;M wurden zusätzliche Verdünnungen getestet, bis der wahre IC50-Wert
eingeklammert war. Vier der GSTs und 20 Verbindungen wurden als maximal mannigfaltig
ausgewählt. Die IC50-Werte sind in der Figur auf einer Skala angezeichnet,
und zwar von kleiner als 0,4 &mgr;M; kleiner als 2,0 &mgr;M; kleiner als 10,0
&mgr;M; kleiner als 50 &mgr;M; kleiner als 250 &mgr;M; und kleiner als 1000
&mgr;M. IC50-Werte kleiner als 0,4 &mgr;M erscheinen schwarz auf
dieser Skala; die mit IC50-Werten kleiner als 1000 &mgr;M erscheinen
weiß. Zwischenwerte haben variierende Grauschattierungen.
Die Spalte, die als „angepasste vorhergesagte Werte" in
10 markiert ist, wird durch lineare Kombination der Ergebnisse
für die vier Enzyme, die in dem Panel von Referenzrezeptoren verwendet wurden,
die gegen die 20 Verbindungen getestet wurden, die in dem Diagramm zuerst angegeben
sind, erhalten. Diese gleiche Anpassungskombination wird dann herangezogen, um die
GRd-Bindung der restlichen Verbindungen vorherzusagen. Die vorhergesagten Ergebnisse
werden mit den tatsächlichen Ergebnissen gegenüber dem Ziel in den rechten
Spalten der Figur verglichen. Es wird eine gute Korrelation erhalten; der Regressionskoeffizient
beträgt 0,8 bei einem Dispersionsfaktor von 0,7, wie in den 11a
und 11b gezeigt ist; dies ist mehr als angemessen,
um Vorhersagen für neue Verbindungen zu machen. 11a
zeigt die Daten für die 80 Testverbindungen von 10, die in
dem Anpassungsverfahren nicht berücksichtigt wurden, und 11b
zeigt die Reste (experimentell vorhergesagt) aus 11a.
Die mathematische Form für die lineare Regression lautet:
log(IC50)i,T = &Sgr;nj=1 CRj
log(IC50)i,Rj(1)
Wie in dieser Formel angegeben, wird der IC50-Wert für
Verbindung i gegenüber Ziel T oder Referenzprotein Rj gemessen,
gewichtet durch den Anpassungskoeffizienten CRj.
Die erfolgreiche Korrelation, die vorstehend erhalten wurde, ist überraschend,
da GRd, die aus Hefe stammt, ein NADPH-abhängiges Protein ist, das eine andere
enzymatische Funktion als GST hat. Diese Enzyme teilen keine Sequenzhomologie, und
ein Vergleich der Kristallstrukturen von GST und GRd zeigt keine Tertiärstrukturähnlichkeiten.
Die gemeinsame Nutzung von Glutathion scheint zur Korrelation nicht beizutragen,
da die sechs Peptidvarianten von Glutathion, die an verschiedene GSTs binden, nicht
besonders gut an GRd binden.
Beispiel 4
Verbesserte Referenzpanel/Verbindungsbibliothek-Kombinationen
Das allgemeine Verfahren, das in Beispiel 3 angegeben ist, wurde befolgt,
jedoch unter Verwendung eines anderen Referenzpanels und einer erweiterten Verbindungsbibliothek.
Ein Anfangssatz von acht Proteinen wurde durch primäres Screening
von etwa 100 Proteinen gewählt, von denen allgemein erwartet wurde, dass sie
eine breite Kreuzreaktivität gegenüber kleinen organischen Molekülen
zeigen. Die acht Panelmitglieder wurden auf der Basis der Anreicherung des Panels
der GSTs, das in Beispiel 3 verwendet wurde, wie vorstehend beschrieben, gewählt.
Vier der schließlichen Panelmitglieder waren Glutathion-S-Transferase (GST)-Isoenzyme:
humanes A1, Ratten-R8, Stubenfliegen-HF2 und Schistosoma-S1. Die restlichen Panelmitglieder
waren D-Aminosäureoxidase (DAO) aus Schweineniere (EC 1.4.3.3); Butyrylcholinesterase
(BCh) aus Pferdeserum (EC 3.1.1.8); Papain (Pap) (EC 3.4.22.2) und Schlangengiftphosphodiesterase
I (PDE) aus Crotalus adamantaeus (EC 3.1.4.1). Kreuzreaktivitätsprofile wurden
im Hinblick auf dieses Panel von acht Proteinen für eine repräsentative
Probe von 122 verschiedenartigen Verbindungen, die zusammen mit ihren Identifikationscodes
in 12 aufgelistet sind, erhalten.
Aus Gründen der Zweckmäßigkeit wurde bei der Bestimmung
der Fingerabdrücke die Bindung der einzelnen Verbindungen an die einzelnen
Proteine quantitativ bestimmt als die Konzentration, die erforderlich ist, um 50
% der Proteinaktivität zu hemmen (IC50). Die IC50-Werte
erstrecken sich über einen Bereich von mehr als vier logarithmischen Einheiten
von 1 mM bis weniger als 0,05 &mgr;M.
Eine Untergruppe von 12 der 122 zunächst getesteten Verbindungen
wurde auf der Basis einer hohen Selektivität dieser Verbindungen zu dem einen
oder anderen Protein in dem Referenzpanel ausgewählt. Dieser anfängliche
Trainingssatz von 12 Verbindungen wurde auf die inhibitorische Aktivität im
Hinblick auf die beiden Zielenzyme Glutathionreduktase (GRd) und Aldehyddehydrogenase
(AdDH) untersucht. Diese beiden Proteine sind nicht miteinander verwandt, und sie
sind nicht durch Aminosäurehomologie oder Aktivität zu irgendeinem der
Referenzproteine in dem Panel verwandt. Die 12 ausgewählten Verbindungen für
den Trainingssatz sind die ersten 12 Verbindungen, für die Ergebnisse in
13 gezeigt sind. Ein Surrogat wurde auf der Basis dieses Trainingssatzes
durch Anwendung einer linearen Regression auf die Daten erhalten, um die Koeffizienten
in der vorstehenden Gleichung (1) zu erhalten. Dies führte zu den folgenden
Regressionsgleichungen für diese Iteration:
Für Glutathionreduktase: 0,11 BCh + 0,19 HF2 + 1,79;
Für Aldehyddehydrogenase: 0,55 PDE + 1,35.
Das resultierende Surrogat wurde herangezogen, um für jedes Ziel
einen zweiten Satz von 10 Verbindungen (aus den restlichen 110) auszuwählen,
von denen angenommen wurde, dass sie stärker repräsentativ für den
Bereich der Potenzen für diese Ziele waren. Diese 10 Verbindungen (markiert
durch senkrechte Balken in 13 und in den meisten Fällen verschieden
für die Ziele) wurden dann direkt gegenüber den Zielverbindungen getestet,
und die aus diesen Tests erhaltenen Daten wurden herangezogen, um die Ergebnisse
der ersten 12 Verbindungen zu ergänzen, wobei ein gesamter Trainingssatz von
22 Verbindungen für jedes Ziel bereitgestellt wurde. Eine lineare Regression,
angewandt auf diesen neu definierten Trainingssatz, ergab die folgenden Formen von
Gleichung (1) für die beiden Ziele:
Für Gluthationreduktase: 0,21 BCh + 0,72 HF2 + 0,24 S1 – 0,05;
Für Aldehyddehydrogenase: 0,58 PDE + 0,25 R8 + 0,43.
Die Vorhersagen auf der Basis dieser zweiten Iteration für die
restlichen 100 Verbindungen wurden dann mit den tatsächlichen empirischen Werten,
die getrennt gemessen wurden, wie in den 14a und
14b gezeigt, verglichen. Jeder dieser Graphen repräsentiert
einen Korrelationsplot der Werte –logIC50 für das Ziel, wie
experimentell bestimmt (auf der X-Achse), mit den vorhergesagten Werten –logIC50
(auf der Y-Achse).
Die auf diese Weise erhaltenen statistischen Parameter zeigten, dass
eine vernünftige Korrelation erhalten wurde und dass die Korrelation durch
die zweite Iteration verbessert wurde. Für Glutathionreduktase betrug der Regressionskoeffizient
(R), der die Korrelation zwischen Experiment und Vorhersage misst, 0,72 für die
erste Iteration und 0,85 für die zweite. Die Dispersionen (&sgr;), die die
Streuung um die Regressionslinie für den Trainingssatz oder den Vorhersagesatz
messen, betrugen 0,22 bzw. 0,59 für die Iteration 1 und 0,41 bzw. 0,46 für
die Iteration 2. Der F-Testwert (F), der die Verbesserung der Anpassung als das
Verhältnis der Dispersion für die gegenwärtige Anpassung, verglichen
mit der vorherigen Iteration, unter Verwendung von zufälligen Daten für
den Anfangsvergleich misst, betrug 4,7 für Iteration 1 und 15,9 für Iteration
2.
Für Aldehyddehydrogenase betrug R 0,4 für Iteration 1 und
0,86 für Iteration 2, eine erhebliche Verbesserung. Die Sigma-Werte für
den Trainingssatz und den Vorhersagesatz betrugen 0,51 bzw. 0,6 für Iteration
1 und 0,50 bzw. 0,48 für Iteration 2. Der F-Wert betrug 6,9 für Iteration
1 und 27,4 für Iteration 2.
Die mathematischen Techniken, die angewandt wurden, um die vorstehenden
Daten zu erzeugen, werden in J.R. Green et al., „Statistical Treatment of
Experimental Data" (Elsevier, Amsterdam 1978) und D. Massart et al., Chemometrics
(Elsevier, New York 1988) beschrieben.
Beispiel 5
Zusätzliche Zielkorrelationen
Die in Beispiel 4 beschriebenen Techniken wurden auf verschiedene
Ziele zusätzlich zu Aldehyddehydrogenase und Glutathionreduktase unter Verwendung
eines Panels von 13 Proteinen angewandt, das weiter angereichert war gegenüber
dem Panel von Beispiel 4, und zwar in der gleichen Weise, in der Beispiel 4 ein
Panel nutzte, das im Hinblick auf das von Beispiel 3 angereichert war. Surrogate
wurden gegenüber den zusätzlichen Zielen konstruiert: Östrogenrezeptor,
Glycerolkinase, Schistosoma-GST, Nucleosid-5'-diphosphatkinase, humaner Faktor Xa,
Trypsin und Glyoxalase I. In jedem Fall wurde ein mannigfaltiger Satz von 15 bis
50 Verbindungen, genommen aus einem Datenbankkatalog von über 1000 Verbindungen,
für die Anpassung verwendet. Für jede Bestimmung umfasste das Panel mindestens
die folgenden Enzyme: GST A1-1; saures &agr;-1-Glycoprotein; GST P1-1; Humanserumalbumin;
Papain; GST Ratte 12:12 (&thgr;); GST Stubenfliege 3; Butyrylcholinesterase; GST
Ratte 8:8; Trypsin; und Alkoholdehydrogenase. Selbstverständlich wurde Trypsin
nicht in das Panel aufgenommen, für das Trypsin das Gegenstückziel war.
In einigen Fällen wurde GST Ratte 8:8 durch Plasmin ersetzt, und/oder Alkoholdehydrogenase
wurde durch Antitrypsin ersetzt.
Diese Surrogate wurden mit experimentell bestimmter Bindung korreliert,
wie es in 15 gezeigt ist. Die Korrelationen zeigten
im Allgemeinen eine gute Übereinstimmung zwischen dem Surrogat und dem tatsächlichen
Ziel. In jedem Fall ergab eine andere lineare Kombination der Referenzproteine die
beste Anpassung. In keinem Fall gab es eine Sequenzhomologie zwischen Ziel und Anpassungsproteinen.