Direkter Rückschluss und Kontrolle der genetischen Populationsstruktur aus RNA-Sequenzierungsdaten
Communications Biology Band 6, Artikelnummer: 804 (2023) Diesen Artikel zitieren
2275 Zugriffe
21 Altmetrisch
Details zu den Metriken
RNAseq-Daten können verwendet werden, um auf genetische Varianten zu schließen, ihre Verwendung zur Schätzung der genetischen Populationsstruktur ist jedoch noch wenig erforscht. Hier entwickeln wir ein frei verfügbares Rechentool (RGStraP), um RNAseq-basierte genetische Hauptkomponenten (RG-PCs) abzuschätzen und zu bewerten, ob RG-PCs zur Kontrolle der Populationsstruktur in Genexpressionsanalysen verwendet werden können. Anhand von Vollblutproben aus wenig untersuchten nepalesischen Populationen und der Geuvadis-Studie zeigen wir, dass RG-PCs vergleichbare Ergebnisse mit gepaarten Array-basierten Genotypen erzielten, mit hoher Genotypkonkordanz und hohen Korrelationen genetischer Hauptkomponenten, wobei Subpopulationen innerhalb des Datensatzes erfasst wurden. Bei der Analyse der differentiellen Genexpression stellten wir fest, dass die Einbeziehung von RG-PCs als Kovariaten die Inflation der Teststatistik verringerte. Unser Artikel zeigt, dass die genetische Populationsstruktur für die Verwendung von RNAseq-Daten direkt abgeleitet und kontrolliert werden kann, was eine verbesserte retrospektive und zukünftige Analyse transkriptomischer Daten ermöglicht.
Die RNA-Sequenzierung (RNAseq) hat unser Verständnis des Transkriptoms revolutioniert und bietet sowohl eine genaue Quantifizierungsmethode für die Genexpression als auch die Identifizierung spezifischer alternativer Spleißstellen und zelltypspezifischer Transkripte1,2. Seine Anwendung erstreckt sich auf den klinischen Bereich und ermöglicht es uns, komplexe Krankheiten weiter aufzuklären und potenzielle Biomarker sowohl für übertragbare als auch nicht übertragbare Krankheiten zu identifizieren3.
Dennoch berücksichtigen Studien mit RNAseq selten die genetische Variation der Keimbahn, die auch in RNAseq-Lesesätzen enthalten ist. Studien, die diese Informationen nicht nutzen, können anfällig für Verzerrungen und Verwirrungen sein, wie z. B. eine Bevölkerungsschichtung, die sich auf die Transkription zwischen Gruppen auswirken kann4,5,6,7. Um dieses Problem zu lösen, haben sich Forscher in der Regel auf genomweite Array- oder Whole-Genome-Sequence-Daten (WGS) verlassen, die für dieselben Personen mit RNAseq abgeglichen wurden. Dies ermöglicht es Forschern, Kontrollansätze für die Bevölkerungsschichtung einzusetzen, beispielsweise die Berechnung genetischer Hauptkomponenten (PCs) und deren Verwendung als Kovariaten in nachfolgenden statistischen Assoziationsmodellen8,9,10. Die genetischen PCs stellen die latente genetische Struktur innerhalb und zwischen Populationen dar, die aufgrund von Unterschieden im sozialen Umfeld11 oder (im Fall der differentiellen Genexpression) aufgrund der Heterogenität quantitativer Merkmalsorte zwischen Gruppen zu Verwirrungen führen. Allerdings ist die Notwendigkeit eines genomweiten Arrays oder WGS zum Abgleich mit RNAseq-Daten möglicherweise unnötig und möglicherweise in Umgebungen mit begrenzten Ressourcen, wie z. B. Ländern mit niedrigem und niedrigem mittlerem Einkommen (LMICs) mit sehr unterschiedlichen und wenig erforschten Bevölkerungsgruppen, möglicherweise nicht möglich.
Es wurde gezeigt, dass Genotypaufrufe aus RNAseq-Daten mithilfe von Tools wie GATK12,13,14 durchgeführt werden können. Der Ansatz, RNAseq-Daten zur Erfassung der genetischen Struktur zu nutzen, wurde für Nutztierhaltung und landwirtschaftliche Zwecke15,16,17,18 angewendet, beispielsweise um die Populationsstruktur, Geschichte und Anpassung domestizierter Gerste (Hordeum vulgare) zu untersuchen17. Während der Proof-of-Concept und die anschließende Nützlichkeit von RNAseq-basierten Genotypen nachgewiesen wurden, beispielsweise für gewebespezifische Varianten19, ist ihre Anwendung zur Ableitung der menschlichen Populationsstruktur vielversprechend, aber noch relativ wenig erforscht20.
Die Ziele dieser Studie bestehen darin, (i) zu zeigen, dass RNAseq-basierte Genotypen die genetische Populationsstruktur einer vielfältigen, noch wenig erforschten menschlichen Population erfassen können, und (ii) zu zeigen, dass die Verwendung von RNAseq-basierten genetischen Hauptkomponenten (RG-PCs) dies kann effektive Kontrolle der Populationsstruktur in der Assoziationsanalyse. Hier haben wir Vollblut-RNAseq-Daten von 376 Personen aus Nepal rekrutiert und generiert, einem Binnenland im Himalaya mit über 125 ethnischen Gruppen21,22. Wir haben eine RNAseq-Analysepipeline (RGStraP) entwickelt, um genetische Hauptkomponenten direkt aus RNAseq-Daten zu berechnen, und dann die Leistung von RGStraP mit genomweiten Array-Genotypdaten derselben nepalesischen Individuen validiert. Wir haben die Pipeline auch an Proben des Geuvadis-Konsortiums getestet, das 465 Proben mit gepaarten Genotyp-RNAseq-Daten aus fünf der 1000 Genompopulationen enthält23. Abschließend zeigen wir die Gültigkeit der Anpassung an RG-PCs in einer Assoziationsanalyse zur Identifizierung der geschlechtsspezifischen Genexpression. Insgesamt zeigt unsere Studie, dass die menschliche Bevölkerungsstruktur, insbesondere aus einer wenig erforschten, aber vielfältigen Bevölkerung, mithilfe von RNAseq-Daten effektiv erfasst und direkt kontrolliert werden kann.
In dieser Studie haben wir die RGStrap-Pipeline konstruiert, um RG-PCs aus genetischen Varianten zu berechnen, die aus RNAseq-Daten aufgerufen werden. RGStrap verlässt sich für seine Variantenaufruf-Suite auf GATK sowie auf PLINK und flashPCA, um die SNPs zu filtern und daraus jeweils genetische Hauptkomponenten zu berechnen (Methoden). Wir stellen RGStraP der Community über Github (https://github.com/fachrulm/RGStraP)24 zur Verfügung.
Wir haben Vollblutproben von 376 Personen gesammelt, die im Rahmen der STRATAA-Studie in Latlipur, Nepal, rekrutiert wurden, und anschließend eine Vollblut-RNAseq mit Illumina Novaseq (Methoden) durchgeführt. Die Kohorte umfasste Personen mit und ohne bestätigter S. Typhi-Infektion; Für die Zwecke dieser Studie wurden die Krankheitsgruppen als Regressionskovariate verwendet, um die Genexpression während nachgelagerter Analysen anzupassen. Die selbst gemeldete ethnische Zugehörigkeit ergab, dass Personen sechs großen ethnischen Gruppen bzw. Kastengruppen angehörten.
Wir ließen die RGStrap-Pipeline (Abb. 1) an 376 Vollblut-RNAseq-Proben laufen, von denen 362 die Qualitätskontrolle nach dem Aufruf genetischer Varianten bestanden. Über alle Proben hinweg wurden insgesamt 4.921.472 genetische Varianten aufgerufen (Methoden). Mit einem Median von 92.782.803 Lesevorgängen pro Probe (Bereich 21.545.569 bis 182.140.303) korrelierten die Sequenzierungstiefen mäßig (ρ = 0, 487) mit den insgesamt pro Probe aufgerufenen genetischen Varianten (ergänzende Abbildung 1a).
Anschließend wurde eine weitere Filterung basierend auf Fehlen, MAF und LD durchgeführt, bevor Hauptkomponenten (PCs) generiert wurden, die die Bevölkerungsstruktur darstellen.
Um die Effizienz der Schätzung genetischer PCs anhand von RNAseq-Daten zu bestimmen, untersuchten wir die Auswirkungen der Minor-Allel-Frequenz (MAF), des Kopplungsungleichgewichts (LD) und der Verwendung eines vorab festgelegten Satzes genetischer Varianten. Wir fanden heraus, dass die Auswahl eines MAF-Schwellenwerts von> 0, 05 und eines paarweisen LD-Schwellenwerts von r2 <0, 05 das optimale Gleichgewicht zwischen der Bereitstellung der meisten Varianten für die Analyse und der höchsten Korrelation zwischen RNAseq- und Array-basierten genetischen PCs ergab (ergänzende Abbildung 2). ). Von den insgesamt 4.921.472 genetischen Varianten passierten 152.072 SNPs den MAF-Filter (MAF > 0,05) und 36.440 SNPs passierten zusätzlich den LD-Filter (LD < 0,05). Für 299 der ursprünglich 376 Individuen liegen genetische Varianten aus gepaarten Genomdaten vor; Insgesamt wurden 552.758 SNPs identifiziert und bestanden erste Qualitätskontrollfilter (Methoden), von denen 315.615 SNPs und 29.943 SNPs dann MAF > 0,05- bzw. weitere LD < 0,05-Filter bestanden. Von den 299 Proben mit sowohl RNAseq- als auch gepaarten Array-Genotypen bestanden 280 die Qualitätskontrolle und wurden für weitere nachgelagerte Analysen verwendet.
Unter den 280 Proben mit passenden Array- und RNAseq-basierten Genotypen fanden wir 7343 überlappende SNPs zwischen den MAF-gefilterten RNAseq- und Array-SNP-Sätzen, basierend auf ihren genauen Chromosomenpositionen. Anschließend wurde die genetische Konkordanz aus den gemeinsamen SNPs basierend auf übereinstimmenden Allel-Genotypen für jede Position unter Berücksichtigung des Strang-Flippings berechnet. Die meisten RNAseq-Proben stimmten mit ihren jeweiligen gepaarten Array-Genotypen überein, wobei die mittlere Konkordanz für alle Proben 0,925 betrug und 232 Probenpaare (82,8 %) eine Konkordanz von mehr als 0,90 aufwiesen (Abb. 2a). Wir fanden heraus, dass eine hohe RNAseq-Tiefe positiv mit einer hohen genetischen Übereinstimmung mit gepaarten Array-Genotypen korreliert; In großen Tiefen waren jedoch auch Ausreißer mit geringer genetischer Konkordanz vorhanden (ρ = 0, 1926; ergänzende Abbildung 1b).
Es wurde festgestellt, dass die Genotypkonkordanz häufiger SNPs zwischen Array- und RNAseq-Proben hoch ist, wobei die meisten Proben (232 von 280) >0,90 Konkordanzen erreichten. b Die kanonische Korrelationsanalyse zwischen zehn RG-PCs und zehn Array-PCs zeigte signifikante (Wilks' Lambda, p-Wert < 0,05) Korrelationen für die ersten sieben kanonischen Variablen (CVs) zwischen den beiden Sätzen. Die ersten 3 CVs von 10 RG-PCs erfassten stark die genetischen Informationen von Array-PCs (Rc1 = 0,946, Rc2 = 0,864, Rc3 = 0,853), wobei der kumulative Anteil der gemeinsamen Varianz zwischen den beiden Sätzen von allein bis zu 0,956 erreichte 3 Lebensläufe.
Bei der Betrachtung der Korrelationen zwischen Array-basierten genetischen PCs und RG-PCs stellten wir fest, dass eine bloße Filterung auf Basis von MAF und LD nicht ausreichend war, da die wichtigsten RG-PCs (insbesondere PCs 1 und 2) die gefundene genetische Struktur nicht repräsentierten In den Array-basierten PCs wurde eine sinnvolle Korrelation erst ab RG-PC3 gefunden (ergänzende Abbildung 3). Wir fanden heraus, dass der übliche Ansatz, die Genotypaufrufe den Varianten in HapMap325 zu unterteilen, qualitativ hochwertigere Genotypaufrufe und eine verbesserte Korrelation zwischen RNAseq und Array-basierten genetischen PCs ermöglichte (ergänzende Abbildung 4). Zwischen HapMap3 und den MAF-gefilterten (MAF > 0,05) Varianten wurde eine Überlappung von 23.227 wohldefinierten SNPs gefunden, von denen 4887 den LD-Filter (LD < 0,05) bestanden und zur Berechnung von RG-PCs verwendet wurden. Wir haben auch genetische PCs aus den 29.943 gepaarten Genotyp-Array-SNPs als Maß für die tatsächliche genetische Struktur berechnet, die mit RG-PCs verglichen werden soll. Um die Konsistenz der abgeleiteten Populationsstruktur zwischen den beiden Ansätzen zu beurteilen, haben wir die Spearman-Korrelation zwischen genetischen PCs aus gepaarten Genotyp-Array-SNPs und den RG-PCs berechnet. PC1 sowohl der RNAseq- als auch der Array-Sätze korrelierte stark miteinander (|ρ| = 0,93), gefolgt von RG-PC3 und PC2 aus Array-Daten (|ρ| = 0,61) und RG-PC2 und PC3 aus Array-Daten (|ρ|). = 0,6) (Ergänzende Abbildung 4). Wie erwartet entsprechen die genetischen PCs des einen Ansatzes nicht ausschließlich nur einem PC des anderen Ansatzes, wie anhand signifikanter Korrelationen eines einzelnen Array-PCs mit mehreren RG-PCs zu erkennen ist. Um dies weiter zu untersuchen, führten wir eine kanonische Korrelationsanalyse zwischen den Top-10-Array-PCs und den RG-PCs durch und stellten fest, dass die RG-PCs die Varianz der Top-10-Array-PCs vollständig erklärten (Abb. 2b).
Die PCA sowohl der Array- als auch der RG-PCs zeigte eine sichtbare Häufung nach der von den Patienten selbst gemeldeten ethnischen Zugehörigkeit. Array PC1 vs. PC2 erfasste die Häufung von Janajati-Hill-, Newar- und Madhesi-Gruppen, wobei Array PC3 eine klare Unterscheidung zwischen den Newar-Proben und anderen Proben zeigte (Abb. 3). In Übereinstimmung mit ihren Spearman-Korrelationen erfassten RG-PC1, RG-PC2 und RG-PC3 auch die in den Array-Daten gezeigte Häufung der Gruppen, es fehlte jedoch ein gewisser Abstand zwischen den Gruppen, hauptsächlich aufgrund von Array PC2.
SNPs aus der Überlappung der RNAseq-Variantenaufrufergebnisse und HapMap3 konnten die genetische Struktur erfassen, die selbst gemeldete Ethnien in Nepal trennt, im Vergleich zu den gepaarten Array-Genotypen, gezeigt durch die Gruppierungen in den PCA-Diagrammen.
Wir haben die Leistung von RGStrap auch anhand eines Datensatzes von 465 Proben des Geuvadis-Konsortiums getestet, verteilt auf fünf verschiedene Bevölkerungsgruppen: Briten in England und Schottland (GBR), Einwohner Utahs mit nord- und westeuropäischer Abstammung (CEU), Finnen in Finnland (FIN), Toscani in Italien (TSI) und Yoruba in Ibadan, Nigeria (YRI)23. Insgesamt 463 Proben haben die nachgeschaltete Filterung im Rahmen des Variantenaufrufprozesses (Methoden) bestanden. In den Haupt-PCs ist eine Clusterbildung nach jeder Population sowohl aus gepaarten Array- als auch aus RNAseq-Daten zu erkennen: PC1 trennt die europäischen (EUR) und afrikanischen (AFR) Stichproben, während PC2 die EUR-Stichproben trennt, wobei bei FIN- und TSI-Stichproben deutlichere Cluster zu sehen sind (Ergänzende Abbildung 5A). Die kanonische Korrelationsanalyse zwischen den Top-10-Array-PCs und RG-PCs zeigte, dass RG-PCs die Varianz der Array-PCs vollständig erklärten, wobei CV1 von RG-PCs einen Anteil von 0,903 an der geteilten Varianz darstellte und die ersten 3 CVs (Rc1 = 0,994, Rc2 = 0,942, Rc3 = 0,752) und erreicht einen kumulativen Anteil der gemeinsamen Varianz von 0,998 (Abb. 4a).
Eine kanonische Korrelationsanalyse zwischen zehn RG-PCs und zehn Array-PCs der Geuvadis-Proben zeigte signifikante (Wilks' Lambda, p-Wert < 0,05) Korrelationen für die ersten vier kanonischen Variablen (CVs) zwischen den beiden Sätzen. Die ersten 3 CVs von 10 RG-PCs erfassten die genetischen Informationen von Array-PCs stark (Rc1 = 0,994, Rc2 = 0,942, Rc3 = 0,752). Der kumulative Anteil der gemeinsamen Varianz zwischen den drei Sätzen erreichte 0,998 allein für die 3 CVs, wobei 0,903 davon durch CV1 repräsentiert wurden. b PCA-Diagramme der Nepal- und Geuvadis-Stichproben, die eine vergleichbare Populationsstruktur zwischen den Array-basierten PCs und RG-PCs zeigen und die Abstammungsgruppen (Europäer, Afrikaner und Südasiaten) in den Haupt-PCs trennen.
Um die nepalesischen Proben zusammen mit anderen Populationen in den PC-Raum zu projizieren, führten wir gemeinsam eine PCA der nepalesischen und Geuvadis-Proben durch. Ähnlich wie bei den Array-PCs konnten mit den Ergebnissen von RGStrap die breiten Abstammungsgruppen unterschieden werden; RG-PC1 konnte zwischen AFR- und anderen Proben unterscheiden, während RG-PC2 die EUR- und Nepal-Proben (in diesem Fall südasiatische Proben) unterscheiden konnte (Abb. 4b). Die Trennung innerhalb der EUR-Proben war auch in RG-PC4 sichtbar und zeigte deutliche Cluster von FIN- und TSI-Proben (Abb. 4b). Bei der Projektion mit den Geuvadis-Proben waren auch weiterhin Cluster der nepalesischen, selbst gemeldeten ethnischen Gruppen sichtbar (ergänzende Abbildung 5b). Diese Analyse bestätigt die Leistung von RGStrap bei der Erfassung genetischer Strukturen, die mit Array-Genotypen in verschiedenen Populationen vergleichbar sind, weiter, was auch durch die Ergebnisse der kanonischen Korrelationsanalyse gestützt wird (ergänzende Abbildung 5c).
Um zu beurteilen, inwieweit genetische PCs die Populationsschichtung in der differenziellen Genexpressionsanalyse (DGE) dieser Personen steuern, führten wir eine DGE an den 280 nepalesischen Proben durch, um die geschlechtsspezifische Genexpression zu identifizieren, mit und ohne Anpassung für genetische PCs unter Verwendung eines der beiden Array-PCs oder RG-PCs (Methoden). Bevor wir edgeR für die DGE-Analyse verwendeten, haben wir niedrig exprimierte Gene basierend auf der Anzahl pro Million (CPM > 0,05) herausgefiltert, um Unterschiede in der Sequenzierungstiefe zu berücksichtigen. In die Analysen wurden nur autosomale Gene einbezogen.
Bei der Anpassung an die Bevölkerungsstruktur in der DGE-Analyse war eine systematische Reduzierung erkennbar. Insgesamt wurden 3038 (p-Wert < 0,05) und 325 (FDR < 0,05) Gene unterschiedlich exprimiert, wenn nur die Alters- und Krankheitsgruppen berücksichtigt wurden, wohingegen die Zahl nach der Anpassung mit genetischen PCs zurückging; Durch die Einbeziehung von Array-PCs verringerte sich die Anzahl der differentiell exprimierten Gene auf 2585 (p-Wert < 0,05) und 144 (FDR < 0,05), während die Anzahl bei Einbeziehung auf 2778 (p-Wert < 0,05) und 272 (FDR < 0,05) sank RG-PCs. Die Mehrzahl der differentiell exprimierten Gene, die ohne Berücksichtigung genetischer PCs identifiziert wurden, wurden auch nach Einbeziehung von Array-PCs oder RG-PCs noch gefunden (2478 und 2381 bei p-Wert < 0,05; 138 und 213 bei FDR < 0,05). Die Mehrzahl der DE-Gene wurde zwischen den Ergebnissen unter Verwendung von Array-PCs und RG-PCs geteilt (2175 bei p-Wert < 0,05 und 130 bei FDR < 0,05). Unter Berücksichtigung der Log-Fold-Änderung passierten 4 Gene den Filter (FDR < 0,05, |logFC| > 1) im Satz ohne Berücksichtigung genetischer PCs, und die Anzahl verringerte sich auf 3, wenn entweder Array- oder RG-PCs einbezogen wurden. Dies zeigt, wie RG-PCs die Populationsschichtung in der nachgeschalteten RNAseq-Analyse steuern, ähnlich wie die genetischen PCs, die aus gepaarten Array-Genotypen berechnet wurden, wodurch signifikante Assoziationen reduziert werden, die Variationen in der Populationsstruktur anstelle der interessierenden Biologie widerspiegeln.
Auswirkungen der Populationsstruktur waren in Quantil-Quantil-Diagrammen (QQ) sichtbar, wobei die Teststatistiken im gesamten Transkriptom in der Analyse mit RG-PCs abgeschwächt wurden (Abb. 5a). Dies wird quantitativ durch eine geringere systematische Inflation (m) gestützt; Beim Vergleich des Verhältnisses der Mediane der Chi-Quadrat-Statistik zwischen DGE-Ergebnissen ohne genetische PCs und mit RG-PCs als Kovariaten stellten wir eine leichte systematische Reduzierung der Teststatistiken nach Einbeziehung von RG-PCs fest (m = 0,935). Eine ähnliche Reduzierung findet sich auch bei der Verwendung von Array-PCs als Kovariaten (m = 0,92; ergänzende Abbildung 6). Schließlich bewerteten wir ein gemischtes lineares Modell (MLM) mit einer genomischen Beziehungsmatrix (GRM), die aus den RNAseq-basierten SNPs (Methoden) erstellt wurde. In ähnlicher Weise fanden wir heraus, dass RG-PCs in der Lage waren, die Populationsstruktur im RNAseq-basierten GRM (m = 0,985) zu kontrollieren (Abb. 5b).
Ergebnisse der differentiellen Genexpressionsanalyse zwischen Proben unterschiedlichen Geschlechts zeigen (a) eine systematische Verringerung der Teststatistiken bei Einbeziehung von RNAseq-basierten genetischen PCs als Kovariaten im Vergleich zu ohne, was durch die niedrige systematische Inflationsmetrik (m) gezeigt wird; b Es wurde festgestellt, dass die Wahrscheinlichkeitsverteilung nach dem gemischten linearen Modell (MLM) auf einer genetischen Beziehungsmatrix (GRM) in der Analyse mit genetischen PCs im Vergleich zu der ohne PCs ebenfalls leicht deflationiert war, allerdings nicht im Ausmaß der DGE-Analyse.
Die Populationsstruktur wird typischerweise über Genotyp-Arrays erfasst, was bei Projekten, die sich auf Genexpressionsanalysen konzentrieren, nicht immer durchgeführt wird. Die Genotypisierung ist möglicherweise nicht praktikabel, wenn die Ressourcen begrenzt sind oder wenn vorhandene und/oder öffentlich verfügbare RNAseq-Datensätze analysiert werden, die fast immer keinen Zugriff auf Originalproben bieten. In dieser Studie haben wir gezeigt, wie SNPs, die ausschließlich durch RNAseq-Variantenaufrufe erworben wurden, eine Populationsstruktur erfassen konnten, die mit den Ergebnissen aus Array-Daten vergleichbar war. Wir haben außerdem gezeigt, dass RNAseq-basierte genetische Hauptkomponenten (RG-PCs) in der Lage waren, die Populationsstruktur in der differenziellen Genexpressionsanalyse zu kontrollieren, und dass eine gemischte lineare Modellanalyse unter Verwendung einer genetischen Verwandtschaftsmatrix basierend auf RNAseq-Genotypaufrufen ähnliche Ergebnisse erzielen konnte. Um die Nutzung von RG-PCs zu erleichtern, entwickeln wir außerdem das Tool RGStraP (https://github.com/fachrulm/RGStraP) und stellen es der breiteren Forschungsgemeinschaft frei zur Verfügung.
Unsere Studie ermöglicht die Kontrolle der genetischen Populationsstruktur in Analysen aktueller und historischer transkriptomischer Datensätze, die häufig keine passenden Genotypen aufweisen. Dies ist besonders wichtig in Gebieten mit geringen Ressourcen, insbesondere in LMICs (z. B. Nepal) mit sehr vielfältigen und strukturierten Populationen oder für Merkmale, bei denen eine genetische Populationsstruktur im Feinmaßstab verwirrend sein kann.
Unsere Studie weist mehrere Einschränkungen auf. Die größte Herausforderung bei der Konstruktion genetischer PCs aus RNAseq-Variantenaufrufergebnissen besteht darin, die einzubeziehenden SNPs richtig zu kuratieren, da MAF- und LD-Filterung nicht ausreichen, um nicht informative SNPs zu entfernen, was dazu führt, dass die Haupt-PCs nicht der selbst gemeldeten ethnischen Zugehörigkeit entsprechen. Dies wurde durch die Verwendung der überlappenden SNPs zwischen den Aufrufergebnissen der RNAseq-Variante und den HapMap3-Varianten behoben, wodurch wir eine Reihe gut etablierter SNPs erhalten konnten; In diesem SNP-Satz fehlen jedoch möglicherweise immer noch wichtige genetische Strukturen, z. B. seltene und seltene Varianten. Aufgrund der Natur von RNAseq-Plattformen, die nur Varianten in transkribierten Regionen erfassen, bleiben seltenere Varianten, die in entscheidende funktionelle Regionen wie Promotor- und Enhancer-Regionen fallen, unberücksichtigt25. Diese seltenen, nicht transkribierten Varianten sind meist mit einem erhöhten Risiko für verschiedene Krankheiten verbunden und sind in exprimierten quantitativen Merkmalsloci (eQTLs) angereichert26,27,28.
Es wurde berichtet, dass Varianten, die mithilfe einer vergleichbaren GATK-Methode aus RNAseq-Daten aufgerufen wurden, für die gewebespezifische eQTL-Kartierung und Allel-spezifische Expressionsanalysen (ASE) zuverlässig sind19. Der Ansatz stützte sich jedoch stark auf die Genotyp-Imputation unter Verwendung eines Referenzpanels, das nach wie vor überwiegend europäisch ist, was den Ansatz für die eQTL-Analyse in anderen Populationen, insbesondere solchen, die noch wenig erforscht sind, immer noch suboptimal macht. Daher sollte die in unserer Studie beschriebene Methode nicht als Eins-zu-eins-Ersatz für herkömmliche Genotypisierungsarrays oder die Sequenzierung des gesamten Genoms verwendet werden.
Zusammenfassend haben wir einen Ansatz und ein Werkzeug entwickelt, um die genetische Populationsstruktur direkt aus RNAseq-Daten verschiedener Populationen abzuleiten, und dann seine Verwendung in der differenziellen Genexpressionsanalyse zur Kontrolle der genetischen Struktur demonstriert, wenn keine Genotypisierungsdaten verfügbar sind. Wir hoffen, dass unsere Ergebnisse eine bessere Kontrolle von Confounding in RNAseq-Analysen ermöglichen und strengere Retrospektiven und Metaanalysen von RNAseq-Daten ermöglichen.
Die STRATAA-Studie wurde vom Nepal Health Research Council (NHRC, Ref. 306/2015) und OxTREC (Oxford Tropical Research Ethics Committee, Ref. 39-15) genehmigt. Alle Teilnehmer gaben eine Einverständniserklärung für humangenetische Tests ab. Blut- und Nukleinsäureproben sowie zugehörige Daten wurden vom STRATAA-Team in Nepal deidentifiziert, bevor sie zur Analyse ins Ausland geschickt wurden.
In dieser Studie wurden Blutproben verwendet, die in Lalitpur, Nepal, im Rahmen der Studie der Strategic Typhoid Alliance across Africa and Asia (STRATAA) gesammelt wurden, die eine passive Überwachung auf Darmfieber und eine bevölkerungsbasierte Serosurvey umfasste29,30. Es wurde Blut von fieberhaften Teilnehmern gesammelt, die in die passive Überwachungsstudie aufgenommen wurden, insbesondere von solchen, die eine Temperatur von >38,5 °C aufwiesen oder seit >72 Stunden Fieber in der Vorgeschichte hatten. Von den gesamten Blutprobenvolumina (≤ 16 ml für Patienten > 16 Jahre, ≤ 7 ml für ≤ 16 Jahre) wurden Aliquote (i) einer bakteriologischen Kultur unterzogen, um das Vorhandensein von Salmonella enterica-Serovaren Typhi (S. Typhi) festzustellen; (ii) Lagerung in PAXgene-Röhrchen zur späteren RNA-Extraktion; und (iii) DNA-Extraktion und anschließende menschliche Genotypisierung. Es wurde auch Blut von gesunden Teilnehmern der Serosurvey entnommen (≤ 8 ml für Patienten > 16 Jahre, ≤ 7 ml für ≤ 16 Jahre), von dem Aliquots auch einer (i) serologischen Analyse unterzogen wurden; (ii) PAXgene-Speicherung für die RNA-Analyse; und (iii) DNA-Extraktion.
Wir analysierten die RNA von 49 S. Typhi-Kultur-positiven Teilnehmern und 275 S. Typhi-Kultur-negativen Teilnehmern aus der passiven Überwachung sowie 52 gesunden Kontrollpersonen aus der Serosurvey. PAXgene-Röhrchen wurden an die Monash University in Melbourne, Australien, geschickt, wo die RNA mit dem PAXgene Blood RNA Kit extrahiert wurde. Ein RNA-Aliquot (60 μl, 10–20 ng/ul) für jede Probe wurde zur Sequenzierung an das Wellcome Sanger Institute in Hinxton, England, geschickt. Die Bibliotheksvorbereitung erfolgte mit dem maßgeschneiderten NEBNext Ultra II RNA-Kit auf einer Agilent Bravo WS-Automatisierungsplattform, wobei Poly(A)-Schwänze heruntergezogen wurden. Nach den Zyklen der Polymerasekettenreaktion (PCR) (14 Standardzyklen) wurden die Platten mit Agencourt AMPure XP SPRI-Perlen gereinigt und die Bibliotheken anschließend mit dem Biotium Accuclear Ultra High Sensitivity dsDNA Quantitative Kit quantifiziert. Gepoolte Bibliotheken wurden mit einem Agilent-Bioanalysegerät quantifiziert und auf 2,8 nM normalisiert. Anschließend wurden die Proben mithilfe des KAPA RNA HyperPrep mit RiboErase (HMR) Globin-Kits einer Globin-Abreicherung unterzogen. Bibliotheken wurden einer 2 × 100 bp Paired-End-Sequenzierung unter Verwendung der Illumina Novaseq-Plattform unterzogen. Abhängig vom Grad des Multiplexings wurde jede Bibliothek bis zu dreimal sequenziert, um durchschnittlich bis zu 80 Millionen Lesevorgänge pro Probe zu generieren.
Für 299 der nepalesischen Teilnehmer mit RNAseq-Daten wurde menschliche DNA erfolgreich extrahiert (im Patan Hospital in Nepal) mit dem QIAamp DNA Blood Midi Kit (QIAGEN) und ein DNA-Aliquot zur SNP-Genotypisierung an das Genome Institute of Singapore geschickt. Die Genotypisierung wurde mit dem Illumina Infinium Global Screening Array-24 Kit (GSAMD-24v2_A1-Chip) durchgeführt. Um leistungsschwache SNP-Marker zu entfernen, wurden strenge Qualitätskontrollfilter eingesetzt. SNPs wurden basierend auf den folgenden Parametern entfernt; SNPs mit einer Anrufrate von <95 %; SNPs mit unterschiedlicher Anrufrate zwischen Fällen und Kontrolle P-Wert < 0,001; SNPs mit einem Hardy-Weinberg-Gleichgewichts-P-Wert < 1e−07 in den Kontrollen; SNPs mit einem Hardy-Weinberg-Gleichgewichts-P-Wert < 1e−11 in Fällen. Es wurden Proben mit einer Anrufrate von <95 %, diejenigen mit einer niedrigeren Anrufrate aus jedem Probenpaar, die eine Beziehung ersten oder zweiten Grades von Identität durch Abstammung (IBD) aufwiesen, und diejenigen, bei denen es sich um PCA-Ausreißerproben handelte, entfernt.
Wir haben auch einen Validierungsdatensatz des Geuvadis-Konsortiums verwendet, der 465 Proben lymphoblastoider Zelllinien (LCL) aus fünf der 1000 Genompopulationen enthält: Briten in England und Schottland (GBR), Einwohner Utahs mit nord- und westeuropäischer Abstammung (CEU), Finnisch in Finnland (FIN), Toscani in Italien (TSI) und Yoruba in Ibadan, Nigeria (YRI)23,31. Nach der Extraktion der Gesamt-RNA mit TRIzol-Reagenz (Ambion) und der Bewertung der RNA-Qualität mit dem Agilent Bioanalyzer RNA 6000 Nano Kit erfolgte die Bibliotheksvorbereitung mit dem TruSeq RNA Sample Prep Kit v2 für die 2 × 75 bp Paired-End-mRNA-Sequenzierung auf der Illumina HiSeq2000-Plattform23 . Die verfügbaren gepaarten Genotypdaten stammen aus dem Phase-3-Datensatz des 1000 Genomes Project31.
Computeranalysen wurden auf einem HPC-Cluster mit 6 Knoten durchgeführt, die jeweils mit 2 × 16 Kernen (32 Threads) CPUs und 512 GB Speicher ausgestattet waren. Es wird empfohlen, RGStrap auf einem High-Performance-Computing-Cluster (HC) auszuführen, da allein für den Ausrichtungsschritt mindestens 32 GB RAM erforderlich sind. Wir empfehlen mindestens 100 GB Arbeitsspeicher, einen Mehrkernprozessor mit mindestens 8 Kernen und ausreichend Speicherplatz, abhängig von der Anzahl der verarbeiteten Proben. Für ein besseres Ressourcenmanagement empfiehlt sich außerdem ein Workload-Management-System wie SLURM.
An den Sequenzierungsdaten wurde eine Qualitätskontrolle (QC) gemäß den FastQC-Auslesungen (bioinformatics.babraham.ac.uk/projects/fastqc) durchgeführt. Illumina-Adapter wurden dann mit Trim Galore zugeschnitten! (bioinformatics.babraham.ac.uk/projects/trim_galore) und optische Duplikate wurden mit Clumpify von bbmap entfernt. Anschließend folgten wir der Best-Practices-Pipeline von GATK für die Entdeckung kurzer RNAseq-Varianten, die mit einem zweistufigen Kartierungsprozess zum menschlichen Genom GRCh38 unter Verwendung von STAR32 begann, aus dem die resultierenden Sequencing Alignment Map (BAM)-Dateien aus den verschiedenen Läufen jeder Probe zusammengeführt wurden Picard33. Lesevorgänge mit geringer Qualität (MAPQ < 20) wurden mit SAMtools34 aus den zusammengeführten Dateien herausgefiltert, gefolgt von weiteren QC-, Variantenaufruf- und Filterschritten mit GATK412. Die analysebereiten Varianten wurden dann mit PLINK35,36 gefiltert, wobei duplizierte und palindromische Varianten entfernt wurden und nur autosomale Einzelnukleotidpolymorphismen (SNPs) erhalten blieben. Wir haben Personen mit mehr als 20 % fehlenden Genotypen ausgeschlossen und RNAseq-basierte SNPs weiter gefiltert, nachdem wir Varianten in der HLA-Region entfernt hatten, basierend auf der geringen Allelhäufigkeit (MAF; maf = 0,01, hwe = 0, geno = 0,1, mind = 0,2). sowie Verknüpfungsungleichgewicht (LD; Gewinn = 1000, Schritt = 50, r2 = 0,05). RG-PCs wurden für 351 bzw. 463 Personen in der Nepal- und der Geuvadis-Kohorte erfolgreich erfasst. Dieselben SNP-Filter wurden auch auf die Array-basierten SNPs angewendet, und für die Korrelationsanalysen auf SNP-Ebene haben wir Genomanmerkungen der Array-SNPs von GRCh37 in GRCh38 konvertiert (//genome.ucsc.edu/cgi-bin/hgLiftOver). ). Die Zusammenführung der SNP-Sets aus den Proben Nepal und Geuvadis erfolgte mit PLINK35,36.
Um die Konkordanz auf SNP-Ebene zu berechnen, haben wir überlappende SNPs zwischen MAF-gefilterten Array- und RNAseq-Ergebnissen basierend auf der Chromosomenposition genommen und die Konkordanz gepaarter Proben basierend auf dem übereinstimmenden Genotyp (unter Berücksichtigung von Heterozygotie und möglichem Strang-Flipping) für jeden SNP in beiden Ergebnissen berechnet. Für diese Analyse wurden insgesamt 280 nepalesische Proben mit RG-PCs und passendem Array-Genotyp verwendet.
Um nur aussagekräftige SNPs aus den Aufrufergebnissen der RNAseq-Variante für die Generierung genetischer Hauptkomponenten (PCs) beizubehalten, haben wir überlappende SNPs (identische Chromosomenpositionen und übereinstimmende Genotypen unter Berücksichtigung eines möglichen Strang-Flippings) zwischen MAF-gefilterten RNAseq-SNPs und HapMap3-Varianten verwendet, um eine zu erhalten Satz wohldefinierter SNPs, woraufhin eine LD-Filterung für den Satz durchgeführt wurde. Anschließend generierten wir genetische PCs für die LD-gefilterten RNAseq- und Array-SNP-Sätze separat mit flashPCA37, aus denen PCA-Plots mit ggplot238 erstellt wurden und Spearman-Korrelationen zwischen den beiden PC-Sätzen mithilfe der Funktion aus dem Statistikpaket von R39 berechnet wurden. Wir haben auch kanonische Korrelationskoeffizienten40,41,42 zwischen den Array-PCs und den RG-PCs berechnet, um zu beurteilen, wie gut die letzteren die von den ersteren präsentierten genetischen Strukturinformationen erfasst haben, da ein einzelner Array-PC durch mehrere RG-PCs dargestellt werden kann.
Sequenzierungszähldaten der nepalesischen Proben wurden mithilfe von featureCounts (http://bioinf.wehi.edu.au/featureCounts/) aus den ausgerichteten Sequenzdateien extrahiert, wobei wir in mindestens 20 Fällen nur autosomale Gene und Gene mit CPM> 0,05 behielten % der Proben aus den Analysen. Differenzielle Genexpressionsanalysen (DGE) wurden mit der Gegenüberstellung von Männern und Frauen unter Verwendung von EdgeR43,44 unter Berücksichtigung von Alter, Krankheitsgruppe und Sequenzierungschargen durchgeführt; Wir haben die Analysen mit und ohne Populationsstruktur-PCs als zusätzliche Kovariate durchgeführt, um dann zu vergleichen, wie die genetische Struktur die Genexpression schichten kann. Aus beiden Ergebnissen haben wir auch das QQ-Diagramm erstellt und die systematische Inflation (m) berechnet, die das Verhältnis des Medians der empirisch beobachteten Chi-Quadrat-Teststatistiken (in unserem Fall Ergebnisse der DGE-Analyse mit RG-PCs) zu ist die erwartete mittlere Chi-Quadrat-Teststatistik (Ergebnisse der DGE-Analyse ohne RG-PCs), um die Schichtung aufgrund der Populationsstruktur in Genexpressionsdaten zu quantifizieren.
Wir haben außerdem eine genetische Beziehungsmatrix (GRM) erstellt und ein gemischtes lineares Modell (MLM) für die RNAseq-SNPs mit und ohne Populationsstruktur-PCs als zufällige Effekte mit fastGWA45 ausgeführt. Aus den beiden Ergebnissen wurde ein Quantil-Quantil-Diagramm (QQ) erstellt und anschließend die systematische Inflation (m) berechnet, um die Auswirkung von Populationsstruktur-PCs auf die Genomdaten zu quantifizieren46.
Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.
Die mit dieser Studie verbundenen Sequenzdaten wurden im Europäischen Genom-Phänomen-Archiv (EGA) unter der Zugangsnummer EGAD00001011131 hinterlegt. Alle anderen Daten, die die Ergebnisse stützen, werden entweder als ergänzende Daten 1 präsentiert oder können von der STRATAA-Studiengruppe bezogen werden (kontaktieren Sie Dr. Mila Shakya unter [email protected]).
Die RGStraP-Pipeline ist unter https://github.com/fachrulm/RGStraP und Zenodo unter https://doi.org/10.5281/zenodo.808023024 verfügbar.
Kukurba, KR & Montgomery, SB RNA-Sequenzierung und -Analyse. Kalter Frühling Harb. Protokoll. 2015, pdb.top084970 (2015).
Artikel Google Scholar
Wang, Z., Gerstein, M. & Snyder, M. RNA-Seq: ein revolutionäres Werkzeug für die Transkriptomik. Nat. Rev. Genet. 10, 57–63 (2009).
Artikel CAS PubMed PubMed Central Google Scholar
Byron, SA et al. Umsetzung der RNA-Sequenzierung in die klinische Diagnostik: Chancen und Herausforderungen. Nat. Rev. Genet. 17, 257–271 (2016).
Artikel CAS PubMed PubMed Central Google Scholar
Storey, JD et al. Variation der Genexpression innerhalb und zwischen menschlichen Populationen. Bin. J. Hum. Genet. 80, 502–509 (2007).
Artikel CAS PubMed PubMed Central Google Scholar
Thami, PK & Chimusa, ER Populationsstruktur und Auswirkungen auf die genetische Architektur von HIV-1-Phänotypen im südlichen Afrika. Vorderseite. Genet. 10, 905 (2019).
Artikel PubMed PubMed Central Google Scholar
Li, J., Liu, Y., Kim, T., Min, R. & Zhang, Z. Genexpressionsvariabilität innerhalb und zwischen menschlichen Populationen und Auswirkungen auf die Krankheitsanfälligkeit. PLoS Comput. Biol. 6, e1000910 (2010).
Artikel PubMed PubMed Central Google Scholar
Jovov, B. et al. Differenzielle Genexpression zwischen afroamerikanischen und europäisch-amerikanischen Darmkrebspatienten. PLoS ONE 7, e30168 (2012).
Artikel CAS PubMed PubMed Central Google Scholar
Price, AL et al. Die Hauptkomponentenanalyse korrigiert die Stratifizierung in genomweiten Assoziationsstudien. Nat. Genet. 38, 904–909 (2006).
Artikel CAS PubMed Google Scholar
Kryvokhyzha, D. et al. Der Einfluss der Populationsstruktur auf die Genexpression und die Variation der Blütezeit beim allgegenwärtigen Unkraut Capsella bursa-pastoris (Brassicaceae). Mol. Ökologisch. 25, 1106–1121 (2016).
Artikel CAS PubMed Google Scholar
Sillanpää, MJ Überblick über Techniken zur Berücksichtigung von Verwechslungen aufgrund von Bevölkerungsschichtung und kryptischer Verwandtschaft bei Assoziationsanalysen genomischer Daten. Heredity 106, 511–519 (2010).
Artikel PubMed PubMed Central Google Scholar
Tian, C., Gregersen, PK & Seldin, MF Berücksichtigung der Abstammung: Populationsunterstruktur und genomweite Assoziationsstudien. Summen. Mol. Genet. 17, R143 (2008).
Artikel CAS PubMed PubMed Central Google Scholar
GATK-Team. Entdeckung kurzer RNAseq-Varianten (SNPs + Indels). Verfügbar unter: https://gatk.broadinstitute.org/hc/en-us/articles/360035531192-RNAseq-short-variant-discovery-SNPs-Indels- (Zugriff: 30. Juli 2021).
Brouard, JS, Schenkel, F., Marete, A. & Bissonnette, N. Der gemeinsame Genotypisierungs-Workflow von GATK eignet sich zum Aufrufen von Varianten in RNA-seq-Experimenten. J. Anim. Wissenschaft. Biotechnologie. 10, 44 (2019).
Artikel PubMed PubMed Central Google Scholar
Piskol, R., Ramaswami, G. & Li, JB Zuverlässige Identifizierung genomischer Varianten aus RNA-seq-Daten. Bin. J. Hum. Genet. 93, 641–651 (2013).
Artikel CAS PubMed PubMed Central Google Scholar
Rogier, O. et al. Genauigkeit der RNAseq-basierten SNP-Entdeckung und Genotypisierung in Populus nigra. BMC Genomics 19, 909 (2018).
Artikel CAS PubMed PubMed Central Google Scholar
Bakhtiarizadeh, MR & Alamouti, AA Die RNA-Seq-basierte Entdeckung genetischer Varianten liefert neue Erkenntnisse zur Kontrolle der Fettablagerung im Schwanz von Schafen. Wissenschaft. Rep. 10, 13525 (2020).
Artikel CAS PubMed PubMed Central Google Scholar
Takahagi, K. et al. Analyse einzelner Nukleotidpolymorphismen basierend auf RNA-Sequenzierungsdaten verschiedener biogeografischer Akzessionen in Gerste. Wissenschaft. Rep. 6, 1–11 (2016).
Artikel Google Scholar
Wang, W. et al. Genetische Struktur von sechs Rinderpopulationen, enthüllt durch transkriptomweite SNPs und Genexpression. Genes Genomics 40, 715–724 (2018).
Artikel CAS PubMed PubMed Central Google Scholar
Deelen, P. et al. Das Aufrufen von Genotypen aus öffentlichen RNA-Sequenzierungsdaten ermöglicht die Identifizierung genetischer Varianten, die sich auf die Genexpressionsniveaus auswirken. Genommed. 7, 1–13 (2015).
Artikel Google Scholar
Barral-Arca, R., Pardo-Seco, J., Bello, X., Martinón-Torres, F. & Salas, A. Abstammungsmuster abgeleitet aus massiven RNA-seq-Daten. RNA 27, 857–868 (2019).
Artikel Google Scholar
Außenministerium Nepal. Nepal-Profil – Außenministerium Nepal MOFA. Verfügbar unter: https://mofa.gov.np/about-nepal/nepal-profile/ (Zugriff: 12. März 2021).
Bevölkerungsfonds der Vereinten Nationen. Bevölkerungssituationsanalyse Nepals (im Hinblick auf nachhaltige Entwicklung). Unfpa Nepal 47 (2017).
Lappalainen, T. et al. Die Transkriptom- und Genomsequenzierung deckt funktionelle Variationen beim Menschen auf. Natur 501, 506–511 (2013).
Artikel CAS PubMed PubMed Central Google Scholar
Fachrul, M. fachrulm/RGStraP: RGStraP v1.0.0. https://doi.org/10.5281/ZENODO.8080230 (2023).
Konsortium, TIH 3. Integration häufiger und seltener genetischer Variationen in verschiedenen menschlichen Populationen. Natur 467, 52 (2010).
Artikel Google Scholar
Huyghe, JR et al. Entdeckung häufiger und seltener genetischer Risikovarianten für Darmkrebs. Nat. Genet. 51, 76–87 (2018).
Artikel PubMed PubMed Central Google Scholar
Li, X. et al. Der Einfluss seltener Variationen auf die Genexpression in verschiedenen Geweben. Natur 550, 239–243 (2017).
Artikel PubMed PubMed Central Google Scholar
Lange, M., Begolli, R. & Giakountis, A. Nicht-kodierende Varianten bei Krebs: mechanistische Erkenntnisse und klinisches Potenzial für personalisierte Medizin. Nicht-kodierende RNA 7, 47 7–4747 (2021).
Artikel Google Scholar
Darton, TC et al. Das STRATAA-Studienprotokoll: ein Programm zur Bewertung der Belastung durch Darmfieber in Bangladesch, Malawi und Nepal mithilfe einer prospektiven Bevölkerungszählung, passiver Überwachung, serologischer Studien und Umfragen zur Inanspruchnahme der Gesundheitsversorgung. BMJ Open 7, e016283 (2017).
Artikel PubMed PubMed Central Google Scholar
Meiring, JE et al. Belastung durch Darmfieber an drei städtischen Standorten in Afrika und Asien: eine multizentrische bevölkerungsbasierte Studie. Lancet Glob. Heilen. 9, e1688–e1696 (2021).
Artikel CAS Google Scholar
Auton, A. et al. Eine globale Referenz für die genetische Variation des Menschen. Natur 526, 68–74 (2015).
Artikel PubMed Google Scholar
Dobin, A. et al. STAR: Ultraschneller universeller RNA-seq-Aligner. Bioinformatik https://doi.org/10.1093/bioinformatics/bts635 (2013).
Breites Institut. Picard-Toolkit. Broad Institute, GitHub Repository (2019). Verfügbar unter: https://github.com/broadinstitute/picard. (Zugriff: 30. Juli 2021).
Danecek, P. et al. Zwölf Jahre SAMtools und BCFtools. Gigascience 10, giab008 (2021).
Purcell, S. et al. PLINK: Ein Werkzeugsatz für die Assoziation des gesamten Genoms und bevölkerungsbasierte Verknüpfungsanalysen. Bin. J. Hum. Genet. 81, 559 (2007).
Artikel CAS PubMed PubMed Central Google Scholar
Purcell, S. & Chang, C. PLINK 1.9. https://www.cog-genomics.org/plink2 (2015).
Abraham, G., Qiu, Y. & Inouye, M. FlashPCA2: Hauptkomponentenanalyse von Genotyp-Datensätzen im Biobank-Maßstab. Bioinformatik 33, 2776–2778 (2017).
Artikel CAS PubMed Google Scholar
Wickham, H. ggplot2: Elegante Grafiken für die Datenanalyse. (Springer-Verlag New York, 2016).
R-Kernteam. R: Eine Sprache und Umgebung für statistische Berechnungen. R Stiftung für Statistisches Rechnen Wien (2018).
Rozeboom, WW Lineare Korrelationen zwischen Variablensätzen. Psychometrika 30, 57–71 (1965).
Artikel CAS PubMed Google Scholar
Alpert, MI & Peterson, RA Zur Interpretation der kanonischen Analyse. J. Mark. Res. 9, 187 (1972).
Artikel Google Scholar
Sherry, A. & Henson, RK Durchführung und Interpretation kanonischer Korrelationsanalysen in der Persönlichkeitsforschung: eine benutzerfreundliche Einführung. J. Pers. Bewerten. 84, 37–48 (2005).
Artikel PubMed Google Scholar
McCarthy, DJ, Chen, Y. & Smyth, GK Differenzielle Expressionsanalyse von Multifaktor-RNA-Seq-Experimenten im Hinblick auf biologische Variation. Nukleinsäuren Res. https://doi.org/10.1093/nar/gks042 (2012).
Robinson, MD, McCarthy, DJ & Smyth, GK EdgeR: ein Bioconductor-Paket für die differenzielle Expressionsanalyse digitaler Genexpressionsdaten. Bioinformatik 26, 139–140 (2010).
Artikel CAS PubMed Google Scholar
Jiang, L. et al. Ein ressourceneffizientes Tool für die gemischte Modellassoziationsanalyse großer Datenmengen. Nat. Genet. 51, 1749–1755 (2019).
Artikel CAS PubMed Google Scholar
Devlin, B. & Roeder, K. Genomische Kontrolle für Assoziationsstudien. Biometrie 55, 997–1004 (1999).
Artikel CAS PubMed Google Scholar
Referenzen herunterladen
Wir würdigen die Beiträge von Einzelpersonen und Organisationen, die die Studien organisiert und daran teilgenommen haben, sowie der Labor- und Feldteams vor Ort, einschließlich der STRATAA-Studiengruppe und des Teams der Nepal Family Development Foundation. Wir danken den Sanger-Sequenzierungsteams. Diese Forschung wurde ganz oder teilweise vom Wellcome Trust [STRATAA, 106158/Z/14/Z und Sanger, 098051] finanziert. Zum Zweck des offenen Zugangs hat der Autor eine öffentliche CC BY-Urheberrechtslizenz auf alle vom Autor akzeptierten Manuskriptversionen angewendet, die sich aus dieser Einreichung ergeben. Diese Forschung wurde auch vom NHMRC finanziert [Projektstipendium APP1101728] und durch Kernfinanzierungen der British Heart Foundation (RG/18/13/33946) und des NIHR Cambridge Biomedical Research Centre (BRC-1215-20014; NIHR203312) unterstützt.[*] . *Die geäußerten Ansichten sind die der Autoren und nicht unbedingt die des NIHR oder des Ministeriums für Gesundheit und Soziales. MI wird vom Munz-Lehrstuhl für kardiovaskuläre Vorhersage und Prävention und dem NIHR Cambridge Biomedical Research Centre (BRC-1215-20014; NIHR203312) unterstützt [*]. MI wurde auch vom UK Economic and Social Research 878 Council (ES/T013192/1) unterstützt. MF wurde durch ein Melbourne-Forschungsstipendium der University of Melbourne unterstützt, das gemeinsam vom Baker Heart and Diabetes Institute finanziert wurde. Diese Arbeit wurde von Health Data Research UK unterstützt, das vom UK Medical Research Council, dem Engineering and Physical Sciences Research Council, dem Economic and Social Research Council, dem Department of Health and Social Care (England) und dem Chief Scientist Office der schottischen Regierung finanziert wird Direktionen für Gesundheits- und Sozialwesen, Forschungs- und Entwicklungsabteilung für Gesundheits- und Sozialwesen (walisische Regierung), Gesundheitsbehörde (Nordirland), British Heart Foundation und Wellcome. Diese Studie wurde auch durch das Operational Infrastructure Support (OIS)-Programm der viktorianischen Regierung unterstützt. *Die geäußerten Ansichten sind die der Autoren und nicht unbedingt die des NIHR oder des Ministeriums für Gesundheit und Soziales. Die Geldgeber hatten keinen Einfluss auf das Studiendesign, die Datenerhebung und -analyse, die Entscheidung zur Veröffentlichung oder die Erstellung des Manuskripts. Die in diesem Manuskript geäußerten Ansichten sind die der Autoren und nicht unbedingt die des NIHR oder des Ministeriums für Gesundheit und Soziales.
Cambridge Baker Systems Genomics Initiative, Baker Heart and Diabetes Institute, Melbourne, VIC, Australien
Muhamad Fachrul & Michael Inouye
Abteilung für klinische Pathologie, University of Melbourne, Parkville, VIC, Australien
Muhamad Fachrul & Michael Inouye
School of BioSciences, The University of Melbourne, Parkville, VIC, Australien
Muhammad Fachrul
Klinische Forschungseinheit der Universität Oxford, Patan Academy of Health Sciences, Kathmandu, Nepal
Abhilasha Karkey, Mila Shakya, Sabina Dongol, Anup Adhikari, Maheshwar Ghimire und Buddha Basnyat
Patan Academy of Health Sciences, Patan Hospital, Lalitpur, Nepal
Abhilasha Karkey, Mila Shakya, Sabina Dongol und Rajendra Shrestha
Abteilung für Infektionskrankheiten, Central Clinical School, Monash University, Melbourne, VIC, Australien
Louise M. Judd, Taylor Harshegyi und Kathryn E. Holt
Genominstitut Singapur, Singapur, Singapur
Klicken Sie auf „Herunterladen“, um „Kar Seng Sim & Chiea Chuen Khor mp3 youtube com“ zu speichern
Oxford Vaccine Group, Abteilung für Pädiatrie, Universität Oxford und NIHR Oxford Biomedical Research Centre, Oxford, Großbritannien
Susan Tonks, Christoph Blohmke, Thomas C. Darton, Yama Farooq, Jennifer Hill, James Meiring, Merryn Voysey und Andrew J. Pollard
Zentrum für Epidemiologie und Biostatistik, Melbourne School of Population and Global Health, The University of Melbourne, Melbourne, VIC, Australien
Und Salim
Fakultät für Mathematik und Statistik, The University of Melbourne, Melbourne, VIC, Australien
Und Salim
Abteilung für Bevölkerungsgesundheit, Baker Heart and Diabetes Institute, Melbourne, VIC, Australien
Und Salim
Medizinische Fakultät, Universität Cambridge, Cambridge, Großbritannien
Stephen Baker
Nuffield Department of Medicine, Zentrum für Tropenmedizin und globale Gesundheit, Universität Oxford, Oxford, Großbritannien
Christiane Dolecek & Buddha Basnyat
Mahidol Oxford Tropical Medicine Research Unit, Mahidol University, Bangkok, Thailand
Christiane Dolecek
Das Peter Doherty Institute for Infection and Immunity, The University of Melbourne, Melbourne, VIC, Australien
Sarah J. Dunstan
Abteilung für Infektionsbiologie, London School of Hygiene & Tropical Medicine, London, Großbritannien
Kathryn E. Holt
Cambridge Baker Systems Genomics Initiative, Abteilung für öffentliche Gesundheit und Grundversorgung, Universität Cambridge, Cambridge, Großbritannien
Michael Inouye
Health Data Research UK Cambridge, Wellcome Genome Campus und University of Cambridge, Cambridge, Großbritannien
Michael Inouye
Abteilung für kardiovaskuläre Epidemiologie der British Heart Foundation, Abteilung für öffentliche Gesundheit und Grundversorgung, Universität Cambridge, Cambridge, Großbritannien
Michael Inouye
British Heart Foundation Centre of Research Excellence, Universität Cambridge, Cambridge, Großbritannien
Michael Inouye
Victor Phillip Dahdaleh Heart and Lung Research Institute, Universität Cambridge, Cambridge, Großbritannien
Michael Inouye
Malawi-Liverpool-Wellcome-Programm, Blantyre, Malawi
Happy Chimphako Banda, Tikhala Makhaza Jere, Moses Kamzati, Clemens Masesa, Maurice Mbewe, Harrison Msuku, Patrick Munthali, Rose Nkhata, Deus Thindwa, James Meiring und Melita A. Gordon
Das Krankenhaus für Tropenkrankheiten, Wellcome Trust Major Overseas Programme, Klinische Forschungseinheit der Universität Oxford, Ho-Chi-Minh-Stadt, Vietnam
Nhu Tran Hoang, Tran Vu Thieu Nga und Trinh Van Tan
Abteilung für Epidemiologie mikrobieller Erkrankungen und Public Health Modeling Unit, Yale School of Public Health, Yale University, New Haven, CT, USA
Yu-Han Cao, Neil J. Saad und Virginia E. Pitzer
Internationales Zentrum für Durchfallkrankheitsforschung, Dhaka, Bangladesch
Farhana Khanam, John D. Clemens und Firdausi Qadri
Abteilung für Infektion, Immunität und Herz-Kreislauf-Erkrankungen, University of Sheffield, Sheffield, Großbritannien
James Meiring
International Vaccine Institute, Seoul, Südkorea
John D. Clemens
Abteilung für Medizin, Cambridge Institute of Therapeutic Immunology and Infectious Diseases (CITIID), University of Cambridge, Cambridge, Großbritannien
Gordon Dougan
National Institute for Health Research Global Health Research Unit on Mucosal Pathogens, Division of Infection and Immunity, University College London, London, Vereinigtes Königreich
Robert S. Heyderman
Institut für Infektions-, Veterinär- und Ökologiewissenschaften, Universität Liverpool, Liverpool, Großbritannien
Melita A. Gordon
Kamuzu University of Health Sciences, Blantyre, Malawi
Melita A. Gordon
Abteilung für klinische Wissenschaften, Liverpool School of Tropical Medicine, Liverpool, Großbritannien
Melita A. Gordon
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
MF und MI hatten die Idee für RGStrap und schrieben dieses Manuskript. ST, SB, AJP, CD, BB, SJD und KEH sind Teil des Kernteams von SSG, das zur Konzeption und Gestaltung des Hauptrahmens mehrerer S. Typhi-Studien beigetragen hat, einschließlich des in diesem Projekt verwendeten Hauptdatensatzes. AK, MS, SD, RS und BB sind Teil des nepalesischen Teams und waren an der Gestaltung und Durchführung der Feldarbeit in Nepal beteiligt, einschließlich der Einbindung der Gemeinschaft, der Logistikplanung und der Probenahme. LMJ, TH und KEH waren für die nepalesische RNAseq-Probenvorbereitung verantwortlich, einschließlich der RNA-Extraktion und der Vorbereitung der Sequenzierungsbibliothek. CCK und KSS verarbeiteten und analysierten die gepaarten Genotypisierungsdaten der nepalesischen Proben vorab. MF führte die Computerexperimente durch, analysierte die Daten, erstellte die Zahlen und konstruierte die in der Studie hervorgehobene Pipeline. MI, SJD und AS überwachten die Computerexperimente. Alle Autoren haben das Manuskript gelesen und genehmigt.
Korrespondenz mit Muhamad Fachrul oder Michael Inouye.
CCK ist Mitglied des Redaktionsausschusses für Kommunikationsbiologie, war jedoch weder an der redaktionellen Überprüfung noch an der Entscheidung zur Veröffentlichung dieses Artikels beteiligt. Alle anderen Autoren erklären keine Interessenkonflikte.
Communications Biology dankt den anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Hauptredakteure: Kaoru Ito und George Inglis. Eine Peer-Review-Datei ist verfügbar.
Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.
Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.
Nachdrucke und Genehmigungen
Fachrul, M., Karkey, A., Shakya, M. et al. Direkter Rückschluss und Kontrolle der genetischen Populationsstruktur aus RNA-Sequenzierungsdaten. Commun Biol 6, 804 (2023). https://doi.org/10.1038/s42003-023-05171-9
Zitat herunterladen
Eingegangen: 09. November 2022
Angenommen: 24. Juli 2023
Veröffentlicht: 02. August 2023
DOI: https://doi.org/10.1038/s42003-023-05171-9
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt
Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.