banner

Blog

May 31, 2023

Multiplo

Nature Biotechnology volume 40, pagine 1458–1466 (2022)Citare questo articolo

59k accessi

55 citazioni

187 Altmetrico

Dettagli sulle metriche

Nonostante l'emergere di metodi sperimentali per la misurazione simultanea di più modalità omiche in singole cellule, la maggior parte dei set di dati a singola cellula include solo una modalità. Uno dei principali ostacoli nell'integrazione dei dati omici provenienti da più modalità è che i diversi strati omici hanno tipicamente spazi di caratteristiche distinti. Qui, proponiamo un quadro computazionale chiamato GLUE (embedding unificato collegato al grafico), che colma il divario modellando esplicitamente le interazioni normative tra gli strati omici. Il benchmarking sistematico ha dimostrato che GLUE è più accurato, robusto e scalabile rispetto agli strumenti all'avanguardia per dati multi-omici a cella singola eterogenei. Abbiamo applicato GLUE a vari compiti impegnativi, tra cui l’integrazione tripla-omica, l’inferenza normativa integrativa e la costruzione di atlanti di cellule umane multi-omiche su milioni di cellule, dove GLUE è stata in grado di correggere le annotazioni precedenti. GLUE presenta un design modulare che può essere esteso e migliorato in modo flessibile per nuove attività di analisi. Il pacchetto completo è disponibile online su https://github.com/gao-lab/GLUE.

I recenti progressi tecnologici nel sequenziamento di singole cellule hanno consentito l'indagine di mappe regolatorie attraverso più strati omici, come l'accessibilità della cromatina (sequenziamento ATAC a singola cellula (scATAC-seq)1,2), metilazione del DNA (snmC-seq3, sci- MET4) e il trascrittoma (scRNA-seq5,6), offrendo un'opportunità unica per svelare le basi regolatorie sottostanti per le funzionalità di diversi tipi cellulari7. Sebbene recentemente siano emersi test simultanei8,9,10,11, diversi omici vengono solitamente misurati in modo indipendente e producono dati non accoppiati, il che richiede un'integrazione multi-omica efficace ed efficiente in silico12,13.

Dal punto di vista computazionale, uno dei principali ostacoli incontrati quando si integrano dati multi-omici non accoppiati (noti anche come integrazione diagonale) sono gli spazi caratteristici distinti di diverse modalità (ad esempio, regioni di cromatina accessibili in scATAC-seq rispetto ai geni in scRNA-seq)14. Una soluzione rapida consiste nel convertire i dati multimodali in uno spazio di funzionalità comuni basato sulla conoscenza precedente e applicare metodi di integrazione dei dati single-omics15,16,17,18. Tale "conversione di funzionalità" esplicita è semplice, ma è stato segnalato che comporta una perdita di informazioni19. Gli algoritmi basati sulla fattorizzazione di matrici accoppiate eludono la conversione esplicita ma difficilmente gestiscono più di due strati omici20,21. Un'opzione alternativa è quella di abbinare celle di diversi strati omici tramite un allineamento molteplice non lineare, che elimina completamente il requisito della conoscenza precedente e potrebbe ridurre in teoria la perdita di informazioni intermodali22,23,24,25; tuttavia, questa tecnica è stata applicata principalmente a set di dati relativamente piccoli con un numero limitato di tipi di celle.

Il volume sempre crescente di dati rappresenta un’altra sfida seria26. Le tecnologie sviluppate di recente possono generare abitualmente set di dati su scala di milioni di celle27,28,29, mentre gli attuali metodi di integrazione sono stati applicati solo a set di dati con volumi molto più piccoli15,17,20,21,22,23. Per stare al passo con la crescita del throughput dei dati, i metodi di integrazione computazionale dovrebbero essere progettati tenendo presente la scalabilità.

Con la presente, introduciamo GLUE (embedding unificato collegato al grafico), un framework modulare per integrare dati multi-omici a cella singola non accoppiati e dedurre simultaneamente interazioni normative. Modellando esplicitamente le interazioni normative tra gli strati omici, GLUE colma le lacune tra i vari spazi di caratteristiche specifiche degli omici in modo biologicamente intuitivo. Benchmark sistematici e casi di studio dimostrano che GLUE è accurato, robusto e scalabile per dati multi-omici a cella singola eterogenei. Inoltre, GLUE è progettato come un framework generalizzabile che consente una facile estensione e una rapida adozione a scenari particolari in modo modulare. GLUE è accessibile pubblicamente all'indirizzo https://github.com/gao-lab/GLUE.

0.5, and then normalize by cluster size, which effectively balances the contribution of matching clusters regardless of their sizes. In the second stage, we fine-tune the GLUE model with the estimated balancing weights, during which the additive noise \({\boldsymbol{\epsilon}} \sim {{{\mathcal{N}}}}\left( {{\boldsymbol{\epsilon}} ;\mathbf{0},\tau \cdot {\mathbf{\Sigma}}} \right)\) gradually anneals to 0 (with τ starting at 1 and decreasing linearly per epoch until 0). The number of annealing epochs was set automatically based on the data size and learning rate to match a learning progress equivalent to 4,000 iterations at a learning rate of 0.002./p>0 for scRNA-seq/scATAC-seq; FDR < 0.05 and log fold change of <0 for snmC-seq. The significance of marker overlap was determined by the three-way Fisher’s exact test40./p>
CONDIVIDERE