Multi

Nature Biotechnology volumen 40, páginas 1458–1466 (2022)Cite este artículo

59k Accesos

55 citas

187 altmétrico

Detalles de métricas

A pesar de la aparición de métodos experimentales para la medición simultánea de múltiples modalidades ómicas en celdas individuales, la mayoría de los conjuntos de datos de una sola celda incluyen solo una modalidad. Un obstáculo importante en la integración de datos ómicos de múltiples modalidades es que las diferentes capas ómicas suelen tener espacios de características distintos. Aquí, proponemos un marco computacional llamado GLUE (incrustación unificada vinculada a gráficos), que cierra la brecha modelando explícitamente las interacciones regulatorias entre capas ómicas. La evaluación comparativa sistemática demostró que GLUE es más preciso, sólido y escalable que las herramientas de última generación para datos multiómicos unicelulares heterogéneos. Aplicamos GLUE a varias tareas desafiantes, incluida la integración de triple ómica, la inferencia regulatoria integradora y la construcción de atlas de células humanas multiómicas en millones de células, donde GLUE pudo corregir anotaciones anteriores. GLUE presenta un diseño modular que se puede ampliar y mejorar de manera flexible para nuevas tareas de análisis. El paquete completo está disponible en línea en https://github.com/gao-lab/GLUE.

Los avances tecnológicos recientes en la secuenciación unicelular han permitido sondear mapas regulatorios a través de múltiples capas ómicas, como la accesibilidad a la cromatina (secuenciación ATAC unicelular (scATAC-seq)1,2), la metilación del ADN (snmC-seq3, ciencia- MET4) y el transcriptoma (scRNA-seq5,6), ofreciendo una oportunidad única para revelar las bases reguladoras subyacentes para las funcionalidades de diversos tipos de células7. Si bien recientemente han surgido ensayos simultáneos8,9,10,11, diferentes ómicas generalmente se miden de forma independiente y producen datos no apareados, lo que exige una integración multiómica in silico eficaz y eficiente12,13.

Computacionalmente, un obstáculo importante al que se enfrenta al integrar datos multiómicos no apareados (también conocido como integración diagonal) son los distintos espacios de características de diferentes modalidades (por ejemplo, regiones de cromatina accesibles en scATAC-seq versus genes en scRNA-seq)14. Una solución rápida es convertir datos multimodales en un espacio de características común basado en conocimientos previos y aplicar métodos de integración de datos de ómica simple15,16,17,18. Esta "conversión de características" explícita es sencilla, pero se ha informado que produce pérdida de información19. Los algoritmos basados en factorización de matrices acopladas evitan la conversión explícita pero apenas manejan más de dos capas ómicas20,21. Una opción alternativa es hacer coincidir células de diferentes capas ómicas mediante una alineación múltiple no lineal, lo que elimina por completo el requisito de conocimiento previo y podría reducir la pérdida de información intermodal en teoría22,23,24,25; sin embargo, esta técnica se ha aplicado principalmente a conjuntos de datos relativamente pequeños con un número limitado de tipos de células.

El volumen cada vez mayor de datos es otro desafío grave26. Las tecnologías desarrolladas recientemente pueden generar rutinariamente conjuntos de datos a escala de millones de células27,28,29, mientras que los métodos de integración actuales solo se han aplicado a conjuntos de datos con volúmenes mucho más pequeños15,17,20,21,22,23. Para ponerse al día con el crecimiento del rendimiento de datos, los métodos de integración computacional deben diseñarse teniendo en cuenta la escalabilidad.

Por la presente, presentamos GLUE (incrustación unificada vinculada a gráficos), un marco modular para integrar datos multiómicos unicelulares no apareados e inferir interacciones regulatorias simultáneamente. Al modelar explícitamente las interacciones regulatorias entre capas ómicas, GLUE cierra las brechas entre varios espacios de características específicas de las ómicas de una manera biológicamente intuitiva. Los puntos de referencia sistemáticos y los estudios de casos demuestran que GLUE es preciso, sólido y escalable para datos multiómicos unicelulares heterogéneos. Además, GLUE está diseñado como un marco generalizable que permite una fácil extensión y una rápida adopción a escenarios particulares de forma modular. GLUE es de acceso público en https://github.com/gao-lab/GLUE.

Inspirándonos en estudios previos, modelamos los estados celulares como incrustaciones de células de baja dimensión aprendidas a través de autocodificadores variacionales30,31. Dadas sus diferencias intrínsecas en la naturaleza biológica y la tecnología de ensayo, cada capa ómica está equipada con un codificador automático separado que utiliza un modelo generativo probabilístico adaptado al espacio de características específico de la capa (Fig. 1 y Métodos).

Denotando datos no emparejados de tres capas ómicas como \({{{\mathbf{X}}}}_1 \in {\Bbb R}^{N_1 \times \left| {{{{\mathcal{V}}}}_1 } \right|},{{{\mathbf{X}}}}_2 \in {\Bbb R}^{N_2 \times \left| {{{{\mathcal{V}}}}_2} \right| },{{{\mathbf{X}}}}_3 \in {\Bbb R}^{N_3 \times \left| {{{{\mathcal{V}}}}_3} \right|}\), donde N1, N2, N3 son números de celda y \({{{\mathcal{V}}}}_1,{{{\mathcal{V}}}}_2,{{{\mathcal{V}}}} _3\) son conjuntos de características ómicas en cada capa, GLUE utiliza codificadores automáticos variacionales específicos de ómicas para aprender las incrustaciones de celdas de baja dimensión U1, U2, U3 de cada capa ómica. La dimensionalidad de los datos y la distribución generativa pueden diferir entre capas, pero la dimensión de incrustación m es compartida. Para vincular los espacios de datos específicos de las ómicas, GLUE hace uso del conocimiento previo sobre las interacciones regulatorias en forma de un gráfico guía \({{{\mathcal{G}}}} = \left( {{{{\mathcal{V }}}},{{{\mathcal{E}}}}} \right)\), donde vértices \({{{\mathcal{V}}}} = {{{\mathcal{V}}}} _1 \cup {{{\mathcal{V}}}}_2 \cup {{{\mathcal{V}}}}_3\) son características ómicas. Se utiliza un codificador automático variacional de gráficos para aprender las incorporaciones de características \({{{\mathbf{V}}}} = \left( {{{{\mathbf{V}}}}_1^ \top ,{{{\mathbf{ V}}}}_2^ \top ,{{{\mathbf{V}}}}_3^ \top } \right)^ \top\) del gráfico de orientación basado en conocimiento anterior, que luego se utiliza en decodificadores de datos para reconstruir datos ómicos a través del producto interno con incrustaciones de celdas, vinculando efectivamente los espacios de datos específicos de ómicos para garantizar una orientación de incrustación consistente. Por último, se utiliza un discriminador ómico D para alinear las incrustaciones de células de diferentes capas ómicas mediante el aprendizaje contradictorio. \(\phi _1,\phi _2,\phi _3,\phi _{{{\mathcal{G}}}}\) representan parámetros que se pueden aprender en codificadores de datos y gráficos. \(\theta _1,\theta _2,\theta _3,\theta _{{{\mathcal{G}}}}\) representan parámetros que se pueden aprender en decodificadores de datos y gráficos. ψ representa parámetros que se pueden aprender en el discriminador ómico.

Aprovechando el conocimiento biológico previo, proponemos el uso de un gráfico basado en conocimiento ("gráfico de orientación") que modela explícitamente las interacciones regulatorias entre capas para vincular espacios de características específicas de cada capa; los vértices del gráfico corresponden a las características de diferentes capas ómicas y los bordes representan interacciones regulatorias firmadas. Por ejemplo, al integrar datos de scRNA-seq y scATAC-seq, los vértices son genes y regiones de cromatina accesibles (es decir, picos ATAC), y se puede conectar un borde positivo entre una región accesible y su gen putativo aguas abajo. Luego, la alineación multimodal adversaria de las celdas se realiza como un procedimiento de optimización iterativo, guiado por incorporaciones de características codificadas a partir del gráfico32 (Fig. 1 y Métodos). En particular, cuando el proceso iterativo converge, el gráfico se puede refinar con entradas del procedimiento de alineación y usarse para inferencia regulatoria orientada a datos (ver más abajo para más detalles).

Primero comparamos GLUE con múltiples métodos populares de integración multiómica no apareada15,16,17,18,23,24,25,33 utilizando tres conjuntos de datos estándar generados por tecnologías recientes scRNA-seq y scATAC-seq simultáneas (SNARE-seq8, SHARE-seq9 y 10X Multiome34), junto con dos conjuntos de datos no emparejados (Nephron35 y MOp36).

Un método de integración eficaz debe hacer coincidir los estados celulares correspondientes de diferentes capas ómicas, produciendo incrustaciones celulares donde la variación biológica se conserva fielmente y las capas ómicas están bien mezcladas. En comparación con otros métodos, GLUE logró un alto nivel de conservación de la biología y mezcla ómica simultáneamente (Fig. 2a, cada una cuantificada por tres métricas separadas como se muestra en la Fig. 1 de datos extendidos), y fue consistentemente el mejor método en todos los conjuntos de datos de referencia en términos de puntuación general (Fig. 2b, consulte Métodos para obtener detalles sobre la agregación de métricas); Estos resultados también fueron validados mediante visualización de proyección y aproximación múltiple uniforme (UMAP) de las incrustaciones de células alineadas (Figuras complementarias 1 a 5).

a, Puntuación de conservación biológica versus puntuación de integración ómica para diferentes métodos de integración. b, Puntuación de integración general (definida como 0,6 × conservación de la biología + 0,4 × integración ómica) de diferentes métodos de integración (n = 8 repeticiones con diferentes semillas aleatorias de modelos). c, Error de alineación a nivel de celda única (cuantificado por FOSCTTM) de diferentes métodos de integración (n = 8 repeticiones con diferentes semillas aleatorias de modelo). d, Aumentos en FOSCTTM con diferentes tasas de corrupción de conocimiento previo para métodos de integración que se basan en relaciones de características previas (n = 8 repeticiones con diferentes semillas aleatorias de corrupción). e, valores FOSCTTM de diferentes métodos de integración en conjuntos de datos submuestreados de diferentes tamaños (n = 8 repeticiones con diferentes semillas aleatorias de submuestreo). FiG es un método de conversión de características alternativo recomendado por iNMF y LIGER (métodos) en línea. iNMF y LIGER en línea no pudieron ejecutarse con la conversión FiG en los datos SNARE-seq porque el archivo de fragmento ATAC sin procesar no estaba disponible, por lo que se marcó como 'NA'. Otras marcas de NA se hicieron debido a un desbordamiento de la memoria. Las barras de error indican media ± sd

Un método de integración óptimo debería producir alineaciones precisas no sólo a nivel del tipo de célula sino también a escalas más finas. Al explotar la correspondencia real entre celdas en los conjuntos de datos estándar, cuantificamos aún más el error de alineación a nivel de celda única a través de la métrica FOSCTTM (fracción de muestras más cercana a la coincidencia real)25. En los tres conjuntos de datos, GLUE logró el FOSCTTM más bajo, disminuyendo el error de alineación por grandes márgenes en comparación con el segundo mejor método en cada conjunto de datos (Fig. 2c, las disminuciones fueron 3,6 veces para SNARE-seq, 1,7 veces para SHARE- seq y 1,5 veces para 10X Multiome).

Durante la evaluación descrita anteriormente, adoptamos un esquema estándar (los picos ATAC estaban vinculados a genes de ARN si se superponían en el cuerpo del gen o en las regiones promotoras proximales) para construir el gráfico de guía para GLUE y realizar la conversión de características para otros métodos basados en conversión. Dado que nuestro conocimiento actual sobre las interacciones regulatorias aún está lejos de ser perfecto, un método de integración útil debe ser resistente a tales imprecisiones. Por lo tanto, evaluamos aún más la solidez de los métodos ante la corrupción de las interacciones regulatorias reemplazando aleatoriamente diversas fracciones de interacciones existentes con otras inexistentes. Para los tres conjuntos de datos, GLUE exhibió los cambios de desempeño más pequeños incluso con tasas de corrupción de hasta el 90% (Fig. 2d y Datos extendidos Fig. 2a), lo que sugiere su solidez superior. Consistentemente, encontramos que el uso de gráficos de guía alternativos definidos en ventanas genómicas más grandes tuvo una influencia mínima en el rendimiento de la integración (Datos ampliados, Fig. 2b, c).

Dada su naturaleza basada en redes neuronales, GLUE puede sufrir un entrenamiento insuficiente cuando trabaja con conjuntos de datos pequeños. Por lo tanto, repetimos las evaluaciones utilizando conjuntos de datos submuestreados de varios tamaños. GLUE siguió siendo el método de mayor rango con tan solo 2000 celdas, pero el error de alineación aumentó más pronunciadamente cuando el volumen de datos disminuyó a menos de 1000 celdas (Fig. 2e y Datos extendidos Fig. 2d). Además, también notamos que el rendimiento de integración de GLUE fue sólido para una amplia gama de configuraciones de selección de características y hiperparámetros (Datos extendidos, figuras 3 y 4). Además de las incrustaciones de celdas, las incorporaciones de características de GLUE también exhiben una solidez considerable ante la configuración de hiperparámetros, la corrupción del conocimiento previo y el submuestreo de datos (Datos extendidos, figura 5).

Además de la diferencia sistemática entre las capas ómicas, los datos unicelulares a menudo se complican por el efecto por lotes dentro de la misma capa. Por ejemplo, los datos de SHARE-seq se procesaron en cuatro bibliotecas, una de las cuales mostró un efecto por lotes en comparación con las otras tres en scRNA-seq (Figura complementaria 6a), mientras que los datos de Nephron perfilaron a cuatro donantes, todos los cuales mostraron un lote sustancial. efecto entre sí tanto en scRNA-seq como en scATAC-seq (Figuras complementarias 7a, c). Como solución a escenarios tan complejos, GLUE proporciona capacidad de corrección por lotes al incluir el lote como covariable del decodificador (Métodos). Con la corrección de lotes habilitada, GLUE pudo corregir estos efectos de lotes de manera efectiva, produciendo una mezcla de lotes sustancialmente mejor (Figuras complementarias 6b y Figuras complementarias 7b,d). Para protegerse contra una posible corrección excesiva, por ejemplo, al forzar una integración en conjuntos de datos que carecen de estados de celda comunes, ideamos una métrica de diagnóstico llamada puntuación de coherencia de integración, que mide la coherencia entre el espacio multiómico integrado y el conocimiento previo en la guía. gráfico (Métodos). Observamos puntuaciones sustancialmente más bajas (cercanas a 0) al integrar datos de tejidos inconsistentes en comparación con la integración dentro del mismo tejido, lo que lo convierte en un indicador confiable de la calidad de la integración (Datos ampliados, figura 6).

Beneficiándose de un diseño modular y una alineación adversa escalable, GLUE se extiende fácilmente a más de dos capas ómicas. Como estudio de caso, utilizamos GLUE para integrar tres capas ómicas distintas de células neuronales en la corteza del ratón adulto, incluida la expresión genética37, la accesibilidad a la cromatina38 y la metilación del ADN3.

A diferencia de la accesibilidad a la cromatina, la metilación del ADN del cuerpo genético generalmente muestra una correlación negativa con la expresión genética en las células neuronales39. GLUE admite de forma nativa la combinación de efectos regulatorios modelando señales de borde en el gráfico de guía. Esta estrategia evita la inversión de datos, que es requerida por métodos anteriores16,17 y puede romper la escasez de datos y la distribución subyacente. Para el gráfico de guía de triple ómica, vinculamos los niveles de mCH y mCG del cuerpo del gen a los genes a través de bordes negativos, mientras que los bordes positivos entre las regiones accesibles y los genes permanecieron iguales.

La alineación de GLUE reveló con éxito una variedad compartida de estados celulares en las tres capas ómicas (Fig. 3a-d). En particular, los tipos de células originales no se anotaron con la misma resolución, y muchos podrían agruparse en subtipos más pequeños incluso dentro de capas individuales (Figuras complementarias 8a a f). Para unificar las anotaciones de tipos de células, se realizó una transferencia de etiquetas basada en vecinos utilizando las incrustaciones de células integradas y observamos una superposición de marcadores muy significativa (Fig. 3e, prueba exacta de Fisher de tres vías40, tasa de descubrimiento falso (FDR) <5 × 10-17 ) para 12 de los 14 tipos de células mapeados (Figuras complementarias 8g-o y 9 y Métodos), lo que indica una alineación confiable. La alineación de GLUE ayudó a mejorar los efectos de la tipificación celular en todas las capas ómicas, incluida la división adicional del grupo scRNA-seq 'MGE' en subtipos Pvalb+ ('mPv') y Sst+ ('mSst') (resaltados con círculos/flujos verdes). en la Fig. 3 y la Fig. complementaria 8), la partición del grupo scRNA-seq 'CGE' y del grupo scATAC-seq 'Vip' en subtipos Vip+ ('mVip') y Ndnf+ ('mNdnf') (resaltados con azul oscuro círculos/flujos en la Fig. 3 y la Fig. complementaria 8), y la identificación de células snmC-seq 'mDL-3' y un subconjunto de células scATAC-seq 'L6 IT' como células de claustro (resaltadas con círculos/flujos de color azul claro en la Fig. 3 y en la Fig. complementaria 8).

a – c, visualizaciones UMAP de las incrustaciones de células integradas para scRNA-seq (a), snmC-seq (b) y scATAC-seq (c), coloreadas según los tipos de células originales. Las celdas que se alinean con 'mPv' y 'mSst' están resaltadas con círculos verdes. Las celdas que se alinean con 'mNdnf' y 'mVip' están resaltadas con círculos de color azul oscuro. Las celdas que se alinean con 'mDL-3' están resaltadas con círculos de color azul claro. d, visualizaciones UMAP de las incrustaciones de células integradas para todas las células, coloreadas por capas ómicas. e, Importancia de la superposición de genes marcadores para cada tipo de célula en las tres capas ómicas (prueba exacta de Fisher de tres vías40). La línea vertical discontinua indica que FDR = 0,01. Observamos una superposición de marcadores muy significativa (FDR <5 × 10-17) para 12 de los 14 tipos de células, lo que indica una alineación confiable. Para los dos tipos de células restantes, 'mDL-1' tuvo una superposición de marcadores marginalmente significativa con FDR = 0,003, mientras que las células 'mIn-1' en snmC-seq no se alinearon correctamente con las células scRNA-seq o scATAC-seq. f, Coeficiente de determinación (R2) para predecir la expresión génica en función de cada capa epigenética, así como la combinación de todas las capas (n = 2677 genes altamente variables comunes a las tres capas ómicas). Los diagramas de caja indican las medianas (líneas centrales), las medias (triángulos), el primer y tercer cuartil (límites de cajas) y el rango intercuartil de 1,5 × (bigotes).

Esta integración de triple ómica también arroja luz sobre las contribuciones cuantitativas de diferentes mecanismos de regulación epigenética (Métodos). Entre mCH, mCG y accesibilidad a la cromatina, encontramos que el nivel de mCH tenía el mayor poder predictivo para la expresión génica en las neuronas corticales (R2 promedio = 0,187). Cuando se consideraron todas las capas epigenéticas, la previsibilidad de la expresión aumentó aún más (R2 promedio = 0,236), lo que sugiere la presencia de contribuciones no redundantes (Fig. 3f). Entre las neuronas de diferentes capas, la metilación del ADN (especialmente mCH) mostró una previsibilidad ligeramente mayor para la expresión génica en capas más profundas que en capas superficiales (Figura complementaria 10a). En todos los genes, la previsibilidad de la expresión genética generalmente estuvo correlacionada entre las diferentes capas epigenéticas (Figura complementaria 10b). También observamos diversas asociaciones con las características genéticas. Por ejemplo, mCH tuvo una mayor previsibilidad de expresión para genes más largos, lo que fue consistente con estudios previos 17,41, mientras que la accesibilidad a la cromatina contribuyó más a genes con mayor variabilidad de expresión (Figura complementaria 10c). También repetimos el mismo análisis utilizando iNMF en línea, que actualmente es el único otro método capaz de integrar las tres capas ómicas simultáneamente, pero produjo una resolución del tipo de célula y una correlación epigenética mucho más bajas (Figura complementaria 11).

La incorporación de un gráfico que modela explícitamente las interacciones regulatorias en GLUE permite aún más un enfoque tipo bayesiano que combina el conocimiento previo y los datos observados para la inferencia regulatoria posterior. Específicamente, dado que las incorporaciones de características están diseñadas para reconstruir el gráfico de guía basado en el conocimiento y los datos multiómicos unicelulares simultáneamente (Fig. 1), sus similitudes de cosenos deben reflejar información de ambos aspectos, que adoptamos como "puntuaciones regulatorias".

Como demostración, utilizamos el conjunto de datos oficial Multiome de células mononucleares de sangre periférica de 10X34 y lo alimentamos a GLUE como datos scRNA-seq y scATAC-seq no apareados. Para capturar interacciones reguladoras cis remotas, utilizamos un gráfico de guía de largo alcance que conecta los picos de ATAC y los genes de ARN en ventanas de 150 kb ponderadas por una función de ley de potencia que modela la probabilidad de contacto con la cromatina42,43 (Métodos). La visualización de las incrustaciones de células confirmó que la alineación de GLUE era correcta y precisa (Figuras complementarias 12a, b). Como era de esperar, encontramos que la puntuación regulatoria se correlacionaba negativamente con la distancia genómica (Fig. 4a) y se correlacionaba positivamente con la correlación empírica pico-gen (calculada con células emparejadas, Fig. 4b), con robustez en diferentes semillas aleatorias (Figura complementaria). .12c).

a, Puntuaciones reguladoras de GLUE para pares de genes pico en diferentes rangos genómicos, agrupados según si tenían soporte pcHi-C. Los diagramas de caja indican las medianas (líneas centrales), las medias (triángulos), el primer y tercer cuartil (límites de cajas) y el rango intercuartil de 1,5 × (bigotes). b, Comparación entre las puntuaciones reguladoras de GLUE y las correlaciones empíricas entre pico y gen calculadas en células pareadas. Los pares pico-gene se colorean según si tenían soporte para pcHi-C. c, Curvas características operativas del receptor para predecir las interacciones pcHi-C basadas en diferentes puntuaciones de asociación pico-gene. AUROC es el área bajo la curva característica operativa del receptor. d, e, interacciones reguladoras cis identificadas por GLUE de NCF2 (d) y CD83 (e), junto con evidencia regulatoria individual. SPI1 (resaltado con un cuadro verde) es un regulador conocido de NCF2.

Para evaluar más a fondo si la puntuación reflejaba interacciones reguladoras cis reales, la comparamos con evidencia externa, incluidos pcHi-C44 y eQTL45. La puntuación reguladora de GLUE fue más alta para los pares de genes pico soportados por pcHi-C en todos los rangos de distancia (Fig. 4a) y fue un mejor predictor de las interacciones pcHi-C que las correlaciones empíricas pico-gen (Fig. 4b), así como LASSO y Cicero43, el método de predicción regulatoria basado en coaccesibilidad (Fig. 4c y Fig. complementaria 12d). Lo mismo se aplica a eQTL (Figuras complementarias 12e-h).

El marco GLUE también permite incorporar evidencia regulatoria adicional, como pcHi-C, de forma intuitiva a través del gráfico de orientación. Por lo tanto, entrenamos aún más los modelos con un gráfico de guía compuesto que contiene interacciones ponderadas por distancia, así como interacciones compatibles con pcHi-C y eQTL (Figura complementaria 13). La importancia de la puntuación regulatoria se evaluó comparándola con una distribución NULL obtenida a partir de incorporaciones de características aleatorias (Métodos). Como se esperaba, si bien la alineación multiómica fue insensible al cambio en el gráfico de guía, las interacciones regulatorias inferidas mostraron un enriquecimiento más fuerte para pcHi-C y eQTL (Figuras complementarias 13a-d). Grandes fracciones de interacciones de alta confianza respaldadas simultáneamente por pcHi-C, eQTL y correlación podrían recuperarse de manera sólida (FDR <0,05), incluso si estuvieran corruptas en el gráfico de guía (Figura complementaria 13e). Además, la red de genes objetivo del factor de transcripción derivado de GLUE (TF-) (Métodos) mostró una concordancia más significativa con las conexiones seleccionadas manualmente en la base de datos TRRUST v246 que las redes individuales basadas en evidencia (Figuras complementarias 13f y Figuras complementarias 14 y Datos complementarios). 2).

Notamos que las interacciones reguladoras cis inferidas por GLUE podrían proporcionar pistas sobre los mecanismos reguladores de pares TF-objetivo conocidos. Por ejemplo, SPI1 es un regulador conocido del gen NCF2, y ambos se expresan altamente en monocitos (Figuras complementarias 15a, b). GLUE identificó tres picos regulatorios remotos para NCF2 con varias pruebas, es decir, aproximadamente 120 kb en sentido descendente, 25 kb en sentido descendente y 20 kb en sentido ascendente desde el sitio de inicio de la transcripción (TSS) (Fig. 4d), todos los cuales estaban unidos por SPI1 . Mientras tanto, la mayoría de las supuestas interacciones regulatorias se desconocían anteriormente. Por ejemplo, CD83 se vinculó con tres picos reguladores (dos aproximadamente 25 kb aguas arriba, uno aproximadamente 10 kb aguas arriba del TSS), que se enriquecieron para la unión de tres TF (BCL11A, PAX5 y RELB; Fig. 4e). Si bien CD83 se expresó altamente tanto en monocitos como en células B, los TF inferidos mostraron patrones de expresión más restringidos (Figuras complementarias 15c-f), lo que sugiere que sus reguladores activos podrían diferir según el tipo de célula. La figura complementaria 16 muestra más ejemplos de interacciones regulatorias inferidas por GLUE.

A medida que las tecnologías continúan evolucionando, el rendimiento de los experimentos unicelulares aumenta constantemente. Estudios recientes han generado atlas de células humanas para la expresión genética28 y la accesibilidad a la cromatina29 que contienen millones de células. La integración de estos atlas plantea un desafío sustancial para los métodos computacionales debido al gran volumen de datos, la amplia heterogeneidad, la baja cobertura por célula y las composiciones de tipos de células desequilibradas, y aún no se ha logrado a nivel de una sola célula.

Implementado como una red neuronal con optimización de minibatch, GLUE ofrece una escalabilidad superior con un costo de tiempo sublineal, lo que promete su aplicabilidad a escala de atlas (Figura complementaria 17a). Utilizando una estrategia de entrenamiento eficiente de varias etapas para GLUE (Métodos), integramos con éxito los datos de expresión génica y accesibilidad de la cromatina en un atlas multiómico unificado de células humanas (Fig. 5).

a, b, visualizaciones UMAP de las incrustaciones de células integradas, coloreadas por capas ómicas (a) y tipos de células (b). Los círculos rosados resaltan las células etiquetadas como "neuronas excitadoras" en scRNA-seq pero como "astrocitos" en scATAC-seq. Los círculos azules resaltan las células etiquetadas como "Astrocitos" en scRNA-seq pero como "Astrocitos/oligodendrocitos" en scATAC-seq. Los círculos marrones resaltan las células etiquetadas como "Oligodendrocitos" en scRNA-seq pero como "Astrocitos/oligodendrocitos" en scATAC-seq.

Si bien el atlas alineado era en gran medida consistente con las anotaciones originales29 (Figuras complementarias 17c-e), también notamos varias discrepancias. Por ejemplo, las células originalmente anotadas como 'Astrocitos' en scATAC-seq se alinearon con un grupo de 'neuronas excitadoras' en scRNA-seq (resaltadas con círculos/flujos rosados en la figura complementaria 17). Una inspección más detallada reveló que los marcadores gliales radiales canónicos como PAX6, HES1 y HOPX47,48 se transcribieron activamente en este grupo, tanto en el dominio de ARN como en el dominio ATAC (Figura 18 complementaria), y también se detectó cebado de cromatina9 en marcadores neuronales y gliales ( Figuras complementarias 19 a 21), lo que sugiere que el grupo está formado por progenitores neurales multipotentes (probablemente marcadores gliales radiales) en lugar de neuronas excitadoras o astrocitos como se anotó originalmente. La integración basada en GLUE también resolvió varios grupos scATAC-seq que estaban anotados de manera ambigua. Por ejemplo, el grupo 'Astrocitos/Oligodendrocitos' se dividió en dos mitades y se alineó con los grupos de scRNA-seq 'Astrocitos' y 'Oligodendrocitos' (resaltados, respectivamente, con círculos/flujos azules y marrones en la Fig. 17 complementaria). que también fue respaldado por la expresión de marcadores y la accesibilidad (Figuras complementarias 20 y 21). Estos resultados demuestran el valor único de la integración multiómica a escala de atlas, donde la tipificación celular se puede realizar de manera imparcial y orientada a datos en todas las modalidades sin perder la resolución de una sola celda. En particular, la incorporación de la corrección por lotes podría permitir aún más la curación efectiva de nuevos conjuntos de datos con el atlas integrado como referencia global49.

En comparación, también intentamos realizar la integración utilizando iNMF en línea, que era el único otro método capaz de integrar los datos a escala completa, pero el resultado estuvo lejos de ser óptimo (Figuras complementarias 22a, b y 23). Mientras tanto, un intento de integrar los datos como metaceldas agregadas (Métodos) a través del popular método Seurat v3 también fracasó (Figura complementaria 22c, d).

Combinando codificadores automáticos específicos de ómicas con acoplamiento basado en gráficos y alineación adversaria, diseñamos el marco GLUE para la integración de datos multiómicos de una sola celda no emparejados con precisión y solidez superiores. Al modelar explícitamente las interacciones regulatorias entre capas ómicas, GLUE admite de manera única la inferencia regulatoria integradora para conjuntos de datos multiómicos no apareados. En particular, en una interpretación bayesiana, la inferencia regulatoria de GLUE puede verse como una estimación posterior, que puede perfeccionarse continuamente con la llegada de nuevos datos.

La integración multiómica no apareada comparte algunas similitudes conceptuales con la corrección del efecto por lotes50, pero la primera es sustancialmente más desafiante debido a los distintos espacios de características específicas de las ómicas. Si bien la conversión de funciones puede parecer una solución sencilla, la inevitable pérdida de información19 puede ser perjudicial. Seurat v3 (ref. 15) y bindSC33 también idearon estrategias heurísticas para utilizar información en los espacios de características originales además de los datos convertidos, lo que puede explicar su mejor rendimiento que los métodos que no lo hacen. Mientras tanto, también se han utilizado tipos de células conocidos para guiar la integración a través del aprendizaje (semi)supervisado51,52, pero este enfoque presenta limitaciones sustanciales en términos de aplicabilidad, ya que dicha supervisión generalmente no está disponible y en muchos casos sirve como propósito de las multiómicas. integración per se29. En particular, uno de estos métodos se propuso con una arquitectura de codificador automático similar y una alineación adversaria52, pero se basaba en tipos de células o grupos coincidentes para orientar la alineación. De hecho, GLUE comparte más similitud conceptual con los métodos de factorización de matrices acopladas20,21, pero con un rendimiento superior, que se beneficia principalmente de su diseño profundo basado en modelos generativos.

Observamos que el marco actual también funciona para integrar capas ómicas con características compartidas (por ejemplo, la integración entre scRNA-seq y transcriptómica espacial53,54), mediante el uso del mismo vértice o vértices sustitutos conectados para características compartidas en el gráfico de guía. Además, la imputación cruzada también podría implementarse encadenando codificadores y decodificadores de diferentes capas ómicas. Sin embargo, dado un informe reciente de que la imputación de datos podría inducir artefactos y deteriorar la precisión de la inferencia reguladora de genes55, tal función puede necesitar más investigación.

Como marco generalizable, GLUE presenta un diseño modular, donde los codificadores automáticos de datos y gráficos se pueden configurar de forma independiente.

Los codificadores automáticos de datos en GLUE se pueden personalizar con modelos generativos apropiados que se ajustan a distribuciones de datos específicas de ómicas. En el trabajo actual, utilizamos un binomio negativo para scRNA-seq y scATAC-seq, y un log normal inflado a cero para snmC-seq (Métodos). Sin embargo, las distribuciones generativas pueden reconfigurarse fácilmente para adaptarse a otras capas ómicas, como la abundancia de proteínas56 y la modificación de histonas57, y para adoptar nuevos avances en técnicas de modelado de datos58.

Los gráficos de guía utilizados en GLUE se han limitado actualmente a gráficos multipartitos, que contienen solo bordes entre entidades de diferentes capas. No obstante, los gráficos, como representaciones intuitivas y flexibles del conocimiento regulatorio, pueden incorporar patrones regulatorios más complejos, incluidas interacciones dentro de la modalidad, vértices sin características y relaciones múltiples. Más allá de la convolución de gráficos canónicos, también se pueden adoptar arquitecturas de redes neuronales de gráficos más avanzadas59,60,61 para extraer información más rica del gráfico regulatorio. En particular, los avances recientes en el modelado de hipergráficos62,63 podrían facilitar el uso de conocimientos previos sobre interacciones regulatorias que involucran a múltiples reguladores simultáneamente, así como permitir la inferencia regulatoria para tales interacciones.

Los avances recientes en tecnologías experimentales multiómicas han aumentado la disponibilidad de datos emparejados8,9,10,11,34. Si bien la mayoría de los protocolos multiómicos simultáneos actuales todavía sufren de una menor calidad de datos o rendimiento que los métodos de ómicos simples64, las células emparejadas pueden ser muy informativas para anclar diferentes capas ómicas y deben usarse junto con células no emparejadas siempre que estén disponibles. Es sencillo ampliar el marco GLUE para incorporar dicha información de emparejamiento, por ejemplo, agregando términos de pérdida que penalicen las distancias de incrustación entre celdas emparejadas65. Esta extensión puede conducir en última instancia a una solución para el caso general de la integración en mosaico14.

Además de la integración multiómica, también observamos que el marco GLUE podría ser adecuado para la integración entre especies, especialmente cuando se trata de especies distales y los ortólogos uno a uno son limitados. Específicamente, podemos compilar todos los ortólogos en un gráfico de guía GLUE y realizar la integración sin una conversión explícita de ortólogos. En ese contexto, el enfoque GLUE también podría conectarse conceptualmente con un trabajo reciente llamado SAMap66.

Finalmente, observamos que las interacciones regulatorias inferidas del modelo GLUE actual se basan en todo el conjunto de datos de entrada y pueden ser una agregación de múltiples circuitos espaciotemporales específicos, especialmente para datos derivados de distintos tejidos (por ejemplo, atlas). Mientras tanto, observamos que, en paralelo al modelo global de escala gruesa (por ejemplo, el modelo de integración del atlas completo), se podría realizar una inferencia regulatoria de escala más fina entrenando modelos dedicados en células de un solo tejido, potencialmente con características espaciotemporales específicas. También se incorporan conocimientos previos67. Una extensión de este tipo de "refinamiento gradual" ayudaría efectivamente a identificar circuitos reguladores y reguladores clave específicos espaciotemporales.

Creemos que GLUE, como marco modular y generalizable, crea una oportunidad sin precedentes para delinear eficazmente mapas reguladores de genes a través de la integración multiómica a gran escala con resolución unicelular. El paquete completo de GLUE, junto con tutoriales y casos de demostración, está disponible en línea en https://github.com/gao-lab/GLUE para la comunidad.

Suponemos que hay K capas ómicas diferentes para integrar, cada una con un conjunto de características distinto \({{{\mathcal{V}}}}_k,k = 1,2, \ldots ,K\). Por ejemplo, en scRNA-seq, \({\mathcal{V}}_k\) es el conjunto de genes, mientras que en scATAC-seq, \({{{\mathcal{V}}}}_k\) es el conjunto de regiones de cromatina. Los espacios de datos de diferentes capas ómicas se denotan como \({{{\mathcal{X}}}}_k \subseteq {\Bbb R}^{\left| {{{{\mathcal{V}}}}_k} \right|}\) con diferentes dimensionalidades. Usamos \({{{\mathbf{x}}}}_k^{(n)} \in {{{\mathcal{X}}}}_k,n = 1,2, \ldots ,N_K\) para denota celdas de la k-ésima capa ómica y \({{{\mathbf{x}}_{k}}_{i}}^{(n)},i \in {{{\mathcal{V}}}} _k\) para denotar el valor observado de la característica i de la k-ésima capa en la enésima celda. NK es el tamaño de muestra de la k-ésima capa. En particular, las células de diferentes capas ómicas no están apareadas y pueden tener diferentes tamaños de muestra. Para evitar el desorden, eliminamos el superíndice (n) cuando nos referimos a una celda arbitraria.

Modelamos los datos observados de diferentes capas ómicas generados por una variable latente de baja dimensión (es decir, incrustación de células) \({{{\mathbf{u}}}} \in {\Bbb R}^m\):

donde p(u) es la distribución a priori de la variable latente, \(p\left( {{{{\mathbf{x}}}}_k|{{{\mathbf{u}}}};\theta _k} \right)\) son distribuciones generativas que se pueden aprender (es decir, decodificadores de datos) y θk denota parámetros que se pueden aprender en los decodificadores. La variable latente de la célula u se comparte entre diferentes capas ómicas. En otras palabras, u representa los estados celulares comunes subyacentes a todas las observaciones ómicas, mientras que los datos observados de cada capa se generan mediante un tipo específico de medición de los estados celulares subyacentes.

Con la introducción de posteriores variacionales \(q\left( {{{{\mathbf{u}}}}|{{{\mathbf{x}}}}_k;\phi _k} \right)\) (es decir , codificadores de datos, donde ϕk son parámetros que se pueden aprender en los codificadores), el ajuste del modelo se puede realizar de manera eficiente maximizando los siguientes límites inferiores de evidencia:

Dado que diferentes codificadores automáticos se parametrizan y entrenan de forma independiente con datos separados, las incrustaciones de celdas aprendidas para diferentes capas ómicas podrían tener significados semánticos inconsistentes a menos que estén vinculadas correctamente.

Para vincular los codificadores automáticos, proponemos un gráfico de guía \({{{\mathcal{G}}}} = \left( {{{{\mathcal{V}}}},{{{\mathcal{E}}} }} \right)\), que incorpora conocimientos previos sobre las interacciones regulatorias entre características en distintas capas ómicas, donde \({{{\mathcal{V}}}} = \mathop {\bigcup}\nolimits_{k = 1 }^K {{{{\mathcal{V}}}}_k}\) es el conjunto de características universales y \({{{\mathcal{E}}}} = \left\{ {\left( {i, j} \right)|i,j \in {{{\mathcal{V}}}}} \right\}\) es el conjunto de aristas. Cada borde también está asociado con signos y pesos, que se indican como sij y wij, respectivamente. Requerimos que wij ∈ (0,1], que puede interpretarse como credibilidad de la interacción, y que \(s_{ij} \in \left\{ { - 1,1} \right\}\), que especifica el signo de la interacción reguladora. Por ejemplo, normalmente se supone que un pico ATAC situado cerca del promotor de un gen regula positivamente su expresión, por lo que se pueden conectar con un borde positivo (sij = 1). Mientras tanto, la metilación del ADN en el promotor del gen Generalmente se supone que suprime la expresión, por lo que se pueden conectar con un borde negativo (sij = 1). Además de las conexiones entre características, también se agregan bucles propios para estabilidad numérica, con \(s_{ii} = 1, w_{ii} = 1,\forall i \in {{{\mathcal{V}}}}\). Se permite que el gráfico guía sea un gráfico múltiple, donde puede existir más de una arista entre el mismo par de vértices, que representan diferentes tipos de evidencia regulatoria previa.

Tratamos el gráfico de guía como una variable observada y lo modelamos como generado por variables latentes de características de baja dimensión (es decir, incorporaciones de características) \({{{\mathbf{v}}}}_i \in {\Bbb R}^m ,i \en {{{\mathcal{V}}}}\). Además, a diferencia del modelo anterior, ahora modelamos xk generado por la combinación de variables latentes de características \({{{\mathbf{v}}}}_i \in {\Bbb R}^m,i \in {{ {\mathcal{V}}}}_k\) y la variable latente celular \({{{\mathbf{u}}}} \in {\Bbb R}^m\). Por conveniencia, introducimos la notación \({{{\mathbf{V}}}} \in {\Bbb R}^{m \times \left| {{{\mathcal{V}}}} \right|} \), que combina todas las características incorporadas en una sola matriz. Por tanto, la probabilidad del modelo se puede escribir como:

donde \(p\left( {{{{\mathbf{x}}}}_k|{{{\mathbf{u}}}},{{{\mathbf{V}}}};\theta_k}\ right )\) y \(p\left({{{{\mathcal{G}}}}|{{{\mathbf{V}}}};\theta_{{{\mathcal{G}}}} } \ derecha)\) son distribuciones generativas que se pueden aprender para los datos ómicos (es decir, decodificadores de datos) y el gráfico de conocimiento (es decir, decodificadores de gráficos), respectivamente. θk y \(\theta_{{{\mathcal{G}}}}\) son parámetros que se pueden aprender en los decodificadores. p(u) y p(V) son las distribuciones previas de la variable latente de celda y las variables latentes de características, respectivamente.

aunque también se pueden utilizar alternativas68. Por conveniencia, también introducimos la notación \({{{\mathbf{V}}}}_k \in {\Bbb R}^{m \times \left| {{{{\mathcal{V}}}}_k } \right|}\), que contiene solo incrustaciones de características en la capa kth ómicas, y uk, que enfatiza que la incrustación de celda es de una celda en la capa kth ómicas.

La gráfica de probabilidad \(p\left( {{{{\mathcal{G}}}}|{{{\mathbf{V}}}};\theta _{{{\mathcal{G}}}}} \ derecha)\) (es decir, decodificador de gráficos) se define como:

donde σ es la función sigmoidea y pns es una distribución muestral negativa69. Aquí la probabilidad del gráfico no tiene parámetros entrenables, por lo que \(\theta _{{{\mathcal{G}}}} = \emptyset\). En otras palabras, primero tomamos muestras de las aristas (i, j) con probabilidades proporcionales a los pesos de las aristas y luego tomamos muestras de los vértices j′ que no están conectados a i y los tratamos como si \(s_{ij\prime } = s_{ij }\). Al maximizar la probabilidad del gráfico, los productos internos entre entidades se maximizan o minimizan (por signo de borde) según la distribución de Bernoulli. Por ejemplo, se alentaría que los picos ATAC ubicados cerca del promotor de un gen tuvieran incrustaciones similares a las del gen, mientras que se alentaría que la metilación del ADN en el promotor del gen tuviera una incrustación diferente a la del gen.

Las probabilidades de los datos \(p\left( {{{{\mathbf{x}}}}_k|{{{\mathbf{u}}}},{{{\mathbf{V}}}};\theta _k } \right)\) (es decir, los decodificadores de datos) en la ecuación (3) se construyen sobre el producto interno entre la incrustación de celda u y las incrustaciones de características Vk. Por lo tanto, de manera análoga a la matriz de carga en el análisis de componentes principales (PCA), las incorporaciones de características Vk confieren significados semánticos para el espacio de incorporación de celdas. A medida que los Vk se modulan mediante interacciones entre características ómicas en el gráfico de guía, los significados semánticos se vinculan. Si bien esta linealidad limita la capacidad del decodificador, nuestras evaluaciones empíricas muestran que los codificadores no lineales la compensan bien, lo que produce alineamientos multiómicos de alta calidad (Fig. 2, Datos extendidos, Figs. 1 a 4 y Figs. complementarias 1 a 7). La formulación exacta de la probabilidad de los datos depende de la distribución de los datos ómicos. Por ejemplo, para los datos de scRNA-seq y scATAC-seq basados en recuentos, utilizamos la distribución binomial negativa (NB):

donde \({{{\mathbf{\mu}}}},{{{\mathbf{\theta}}}} \in {\Bbb R}_ + ^{\left|{{{{\mathcal{V }}}}_k} \right|}\) son la media y la dispersión de la distribución binomial negativa, respectivamente, \({{{\mathbf{\alpha }}}} \in {\Bbb R}_ + ^{ \left| {{{{\mathcal{V}}}}_k} \right|},{{{\mathbf{\beta}}}}\in {\Bbb R}^{\left| \mathcal{V }}}}_k} \right|}\) son factores de escala y sesgo, ⊙ es el producto de Hadamard, Softmax representa la iésima dimensión de la salida de softmax y \(\mathop {\sum}\nolimits_{j \in {{ {\mathcal{V}}}}_k} {{\mathbf{x}_{k}}_{j}}\) da el recuento total en la celda. Tomar softmax y luego multiplicarlo por el recuento total garantiza que el tamaño de la biblioteca de datos reconstruidos coincida con el original30. El conjunto de parámetros que se pueden aprender es \(\theta_k = \left\{{{{{\mathbf{\theta}}}},{{{\mathbf{\alpha}}}},{{{\mathbf{\\ beta }}}}}\right\}\). De manera análoga, también se pueden admitir muchas otras distribuciones, siempre que podamos parametrizar las medias de las distribuciones mediante productos internos de celdas de características.

Para una inferencia y optimización eficientes, introducimos el siguiente posterior variacional factorizado:

El gráfico variacional posterior \(q\left( {{{{\mathbf{V}}}}|{{{\mathcal{G}}}};\phi _{{{\mathcal{G}}}}} \right)\) (es decir, codificador de gráficos) se modela como distribuciones normales de covarianza diagonal parametrizadas por una red convolucional de gráficos70:

donde \(\phi _{{{\mathcal{G}}}}\) representa los parámetros que se pueden aprender en el codificador de red convolucional de gráficos (GCN).

Los datos variacionales posteriores \(q\left( {{{{\mathbf{u}}}}|{{{\mathbf{x}}}}_k;\phi _k} \right)\) (es decir, datos codificadores) se modelan como distribuciones normales de covarianza diagonal parametrizadas por redes neuronales de perceptrón multicapa (MLP):

donde ϕk es el conjunto de parámetros que se pueden aprender en el codificador perceptrón multicapa de la capa kth ómica.

Luego, el ajuste del modelo se puede realizar maximizando el siguiente límite inferior de evidencia:

que se puede reorganizar aún más en la siguiente forma:

donde tenemos

A continuación, por conveniencia, denotamos la unión de todos los parámetros del codificador como \(\phi = \left( {\mathop {\bigcup}\nolimits_{k = 1}^K {\phi _k} } \right) \cup \ phi _{{{\mathcal{G}}}}\) y la unión de todos los parámetros del decodificador como \(\theta = \left( {\mathop {\bigcup}\nolimits_{k = 1}^K {\theta _k} } \right) \cup \theta _{{{\mathcal{G}}}}\).

Para garantizar la alineación adecuada de las diferentes capas ómicas, utilizamos la estrategia de alineación adversarial31,71. Se introduce un discriminador D con una salida softmax K-dimensional, que predice las capas ómicas de células en función de sus incrustaciones u. El discriminador D se entrena minimizando la entropía cruzada de clasificación multiclase:

donde Dk representa la k-ésima dimensión de la salida del discriminador y ψ es el conjunto de parámetros que se pueden aprender en el discriminador. Luego, los codificadores de datos pueden entrenarse en la dirección opuesta para engañar al discriminador, lo que en última instancia conduce a la alineación de incrustaciones de células de diferentes capas ómicas72.

El objetivo general de formación de GLUE consiste, por tanto, en:

Los dos hiperparámetros λD y \(\lambda _{{{\mathcal{G}}}}\) controlan las contribuciones de la alineación adversaria y la incorporación de características basadas en gráficos, respectivamente. Utilizamos el descenso de gradiente estocástico para entrenar el modelo GLUE. Cada iteración de descenso de gradiente estocástico se divide en dos pasos. En el primer paso, el discriminador se actualiza según la ecuación objetiva (19). En el segundo paso, los codificadores automáticos de datos y gráficos se actualizan según la ecuación (20). El optimizador RMSprop sin término de impulso se utiliza para garantizar la estabilidad del entrenamiento adversario.

Como se muestra en trabajos anteriores31, el alineamiento adversario canónico equivale a minimizar una forma generalizada de divergencia de Jensen-Shannon entre las distribuciones de incrustación de células de diferentes capas ómicas:

donde \(q_k\left( {{{\mathbf{u}}}} \right) = {\Bbb E}_{{{{\mathbf{x}}}}_k \sim p_{{{{\mathrm {datos}}}}}\left( {{{{\mathbf{x}}}}_k} \right)}q\left( {{{{\mathbf{u}}}}|{{{\mathbf {x}}}}_k;\phi _k} \right)\) representa la distribución de incrustación de celdas marginales de la k-ésima capa. Sin otros términos de pérdida, la ecuación (21) converge en una alineación perfecta, es decir, cuando \(q_i\left( {{{\mathbf{u}}}} \right) = q_j\left( {{{\mathbf{u }}}} \right),\forall i \ne j\). Esto puede resultar problemático cuando las composiciones de los tipos de células difieren drásticamente entre diferentes capas, por ejemplo, en la integración del atlas celular. Para abordar este problema, agregamos pesos específicos de celda w(n) a la pérdida del discriminador en la ecuación (18):

donde el normalizador \(W_k = \mathop {\sum}\nolimits_{n = 1}^{N_k} {w^{\left( n \right)}}\). La alineación adversativa todavía equivale a minimizar la ecuación (21), pero con distribuciones de inclusión de celdas marginales ponderadas \(q_k\left( {{{\mathbf{u}}}} \right) = \frac{1}{{W_k}}\ mathop {\sum}\limits_{n = 1}^{N_k} {w^{\left( n \right)}} q\left( {{{{\mathbf{u}}}}|{{{\ mathbf{x}}}}_k^{\left( n \right)};\phi _k} \right)\). Al asignar pesos apropiados para equilibrar las distribuciones de celdas en diferentes capas, el óptimo de \(q_i\left( {{{\mathbf{u}}}} \right) = q_j\left( {{{\mathbf{u}} }} \right),\forall i \ne j\) podría estar mucho más cerca de la alineación deseada.

Para obtener los pesos de equilibrio de forma no supervisada, ideamos el siguiente procedimiento de entrenamiento en dos etapas. Primero, preentrenamos el modelo GLUE con peso constante \(w^{\left( n \right)} = 1\), durante el cual ruido \({\boldsymbol{\epsilon}} \sim {{{\mathcal{N }}}}\left( {{\boldsymbol{\epsilon}} ;\mathbf{0},{\mathbf{\Sigma}}} \right)\) se agregó a las incrustaciones de celdas antes de pasar al discriminador. Establecimos que ∑ sea 1,5 veces la varianza empírica de las incrustaciones celulares en cada minilote, lo que ayuda a producir una alineación aproximada inmune al desequilibrio de la composición. Luego, agrupamos las incrustaciones de células aproximadamente alineadas por capa ómica utilizando la agrupación de Leiden. El peso de equilibrio wi para las celdas del grupo i se calcula como:

donde ui es la incrustación promedio de celdas del grupo i, ki denota la capa ómica del grupo i y ni es el número de celdas en el grupo i. En otras palabras, sumamos las similitudes de cosenos (elevadas a la potencia de 4 para aumentar el contraste) entre el grupo i y todos sus grupos coincidentes en otras capas con similitud de coseno >0,5, y luego las normalizamos por el tamaño del grupo, lo que efectivamente equilibra la contribución. de conglomerados coincidentes independientemente de su tamaño. En la segunda etapa, ajustamos el modelo GLUE con los pesos de equilibrio estimados, durante los cuales el ruido aditivo \({\boldsymbol{\epsilon}} \sim {{{\mathcal{N}}}}\left( { {\boldsymbol{\epsilon}} ;\mathbf{0},\tau \cdot {\mathbf{\Sigma}}} \right)\) se recoce gradualmente hasta 0 (con τ comenzando en 1 y disminuyendo linealmente por época hasta 0 ). El número de épocas de recocido se estableció automáticamente en función del tamaño de los datos y la tasa de aprendizaje para igualar un progreso de aprendizaje equivalente a 4000 iteraciones a una tasa de aprendizaje de 0,002.

Todos los puntos de referencia y estudios de casos del estudio se realizaron con el procedimiento de capacitación en dos etapas descrito anteriormente, independientemente de si el conjunto de datos utilizado está equilibrado o no.

Para manejar el efecto por lotes dentro de las capas ómicas, incorporamos el lote como covariable de los decodificadores de datos. Suponiendo que \(b \in \left\{ {1,2, \ldots ,B} \right\}\), es el índice del lote, donde B es el número total de lotes, la probabilidad del decodificador se extiende a \(p \left( {{{{\mathbf{x}}}}_k|{{{\mathbf{u}}}},{{{\mathbf{V}}}},b;\theta _k} \right) \). Específicamente, esto se logra convirtiendo los parámetros que se pueden aprender en el decodificador de datos para que dependan del lote. Por ejemplo, en el caso de un decodificador binomial negativo, la red ahora utiliza parámetros α, β y θ específicos del lote:

donde \({{{\mathbf{\alpha}}}}\in {\Bbb R}_ + ^{B\times\left|{{{{\mathcal{V}}}}_k}\right|} ,{{{\mathbf{\beta}}}} \in {\Bbb R}^{B\times\left|{{{{\mathcal{V}}}}_k}\right|},{{{ \mathbf{\theta}}}}\in {\BbbR}_ + ^{B\times\left|{{{{\mathcal{V}}}}_k}\right|}\), y αb, βb , θb son las b-ésimas filas de α, β, θ. Otros decodificadores probabilísticos también se pueden ampliar de manera similar.

Aplicamos la reducción de dimensionalidad lineal utilizando métodos canónicos como PCA (para scRNA-seq) o LSI (indexación semántica latente, para scATAC-seq) como las primeras capas de transformación de los codificadores de datos (tenga en cuenta que los decodificadores todavía estaban instalados en la característica original espacios). Esto redujo efectivamente el tamaño del modelo y permitió una entrada modular, por lo que los métodos avanzados de reducción de dimensionalidad o corrección del efecto por lotes también se pueden usar como pasos de preprocesamiento para la integración de GLUE.

Durante el entrenamiento del modelo, se utilizó el 10% de las celdas como conjunto de validación. En la etapa final del entrenamiento, la tasa de aprendizaje se reduciría en factores de 10 si la pérdida de validación no mejorara durante épocas consecutivas. El entrenamiento finalizaría si la pérdida de validación aún no mejorara durante épocas consecutivas. La paciencia para la reducción de la tasa de aprendizaje, la finalización del entrenamiento y el número máximo de épocas de entrenamiento se establecieron automáticamente en función del tamaño de los datos y la tasa de aprendizaje para igualar un progreso de aprendizaje equivalente a 1000, 2000 y 16 000 iteraciones a una tasa de aprendizaje de 0,002, respectivamente.

Para todos los puntos de referencia y estudios de casos con GLUE, utilizamos los hiperparámetros predeterminados a menos que se indique explícitamente. El conjunto de hiperparámetros predeterminados se presenta en la Fig. 3 de datos extendidos.

La puntuación de coherencia de la integración es una medida de coherencia entre los datos multiómicos integrados y el gráfico de orientación. Primero, agrupamos conjuntamente células de todas las capas ómicas en el espacio de incrustación de células alineadas usando k-medias. Para cada capa ómica, las celdas de cada grupo se agregan en una metacelda. Las metacélulas se establecen como muestras pareadas, en función de las cuales se puede calcular la correlación de características. Usando las metaceldas emparejadas, luego calculamos la correlación de Spearman para cada borde en el gráfico de guía. La puntuación de coherencia de la integración se define como la correlación promedio en todos los bordes del gráfico, negada por signo de borde y ponderada por el peso del borde.

UnionCom23, Pamona24 y GLUE se ejecutaron utilizando los paquetes de Python 'unioncom' (v.0.3.0), 'Pamona' (v.0.1.0) y 'scglue' (v.0.2.0), respectivamente. MMD-MA25 se ejecutó utilizando el script Python proporcionado en https://bitbucket.org/noblelab/2020_mmdma_pytorch. iNMF16, LIGER17, Harmony18, bindSC33 y Seurat v3 (ref. 15) en línea se ejecutaron utilizando los paquetes R 'rliger' (v.1.0.0), 'rliger' (v.1.0.0), 'harmony' (v .0.1.0), 'bindSC' (v.1.0.0) y 'Seurat' (v.4.0.2), respectivamente. Para cada método, utilizamos la configuración de hiperparámetros predeterminada y los pasos de preprocesamiento de datos recomendados. Para los datos de scRNA-seq, se seleccionaron 2000 genes altamente variables utilizando el método Seurat 'vst'. Usamos dos esquemas separados para construir el gráfico de guía. En el esquema estándar, conectamos los picos de ATAC con genes de ARN a través de bordes positivos si se superponían en el cuerpo del gen o en las regiones promotoras proximales (definidas como 2 kb aguas arriba del TSS). En un esquema alternativo que involucra ventanas genómicas más grandes, conectamos picos de ATAC con genes de ARN a través de bordes positivos si los picos están dentro de 150 kb de los promotores de genes proximales; los bordes fueron ponderados por una función de ley de potencia \(w = \left( {d + 1} \right)^{ - 0.75}\) (d es la distancia genómica en kb), que se ha propuesto para modelar la probabilidad de contacto de cromatina42,43. Para los métodos que requieren conversión de características (iNMF, LIGER, bindSC y Seurat v.3 en línea), convertimos los datos de scATAC-seq en puntuaciones de actividad a nivel genético sumando los recuentos en los picos ATAC conectados a genes específicos en el gráfico de guía. . En particular, iNMF y LIGER en línea también recomiendan una forma alternativa de conversión de características ATAC, es decir, contar directamente los fragmentos ATAC que caen en el cuerpo del gen y las regiones promotoras sin recurrir a picos ATAC (https://htmlpreview.github.io/?https:/ /github.com/welch-lab/liger/blob/master/vignettes/Integrating_scRNA_and_scATAC_data.html), que abreviamos como FiG (fragmentos en genes). También probamos el método de conversión de características FiG con iNMF y LIGER en línea cuando corresponde.

Se utilizó la precisión promedio promedio (MAP) para evaluar la resolución del tipo de célula. Suponiendo que el tipo de celda de la iésima celda es y(i) y que los tipos de celda de sus vecinos más cercanos ordenados K son \(y_1^{\left( i \right)},y_2^{\left( i \right) }, \ldots, y_K^{\left( i \right)}\), la precisión promedio se define entonces de la siguiente manera:

donde \(1_{y^{\left( i \right)} = y_k^{\left( i \right)}}\) es una función indicadora que es igual a 1 si \(y^{\left( i \right) )} = y_k^{\left( i \right)}\) y 0 en caso contrario. Para cada celda, la precisión promedio (AP) calcula la precisión promedio del tipo de celda hasta cada vecino con coincidencia de tipo de celda, y la precisión promedio promedio es la precisión promedio en todas las celdas. Establecemos K en el 1% del número total de celdas en cada conjunto de datos. La precisión promedio tiene un rango de 0 a 1, y los valores más altos indican una mejor resolución del tipo de celda.

El tipo de celda ASW (ancho promedio de la silueta) también se utilizó para evaluar la resolución del tipo de celda, que se definió como en un estudio de referencia reciente73:

donde \(s_{{{{\mathrm{cell}}}}\,{{{\mathrm{type}}}}}^{\left( i \right)}\) es el ancho de la silueta del tipo de celda para el i con celda, y N es el número total de celdas. El tipo de celda ASW tiene un rango de 0 a 1 y los valores más altos indican una mejor resolución del tipo de celda.

La consistencia vecina (NC) se utilizó para evaluar la preservación de la variación de los datos de una sola ómica después de la integración de múltiples ómicas y se definió siguiendo un estudio previo74:

donde NNS(i) es el conjunto de k vecinos más cercanos para la celda i en los datos de ómica simple, NNI(i) es el conjunto de K vecinos más cercanos para la iésima celda en el espacio integrado y N es el número total de células. Establecemos K en el 1% del número total de celdas en cada conjunto de datos. La coherencia de los vecinos tiene un rango de 0 a 1 y los valores más altos indican una mejor preservación de la variación de los datos.

La precisión promedio media, el tipo de celda ASW y la consistencia vecina miden la conservación biológica de la integración de datos. Siguiendo el procedimiento del reciente estudio de referencia73, primero realizamos una escala mínima-máxima para cada una de las métricas y luego calculamos el promedio de las tres para resumirlas en una única métrica que represente la conservación de la biología:

Se utilizó la puntuación de alineación de Seurat (SAS) para evaluar el grado de mezcla entre capas ómicas y se calculó como se describe en el artículo original75:

donde \(\bar x\) es el número promedio de celdas de la misma capa ómica entre los K vecinos más cercanos (primero se submuestrearon diferentes capas con el mismo número de celdas que la capa más pequeña), y N es el número de ómicas capas. Establecemos K al 1% del número de células submuestreadas. La puntuación de alineación de Seurat tiene un rango de 0 a 1 y los valores más altos indican una mejor mezcla.

La capa ASW de ómicas también se utilizó para evaluar la extensión de la mezcla entre capas de ómicas y se definió como en un estudio de referencia reciente73:

donde \(s_{{{{\mathrm{omics}}}}\,{{{\mathrm{layer}}}}}^{\left( i \right)}\) es el ancho de la silueta de la capa ómica para el Con celda, Nj es el número de celdas en el tipo de celda j, y M es el número total de tipos de celda. La capa ómica ASW tiene un rango de 0 a 1, y los valores más altos indican una mejor mezcla.

La conectividad de gráficos (GC) también se utilizó para evaluar la extensión de la mezcla entre capas ómicas y se definió como en un estudio de referencia reciente73:

donde LCCj es el número de celdas en el componente conectado más grande del gráfico de k vecinos más cercanos de la celda (K = 15) para el tipo de celda j, Nj es el número de celdas en el tipo de celda j y M es el número total de tipos de celda. La conectividad de gráficos tiene un rango de 0 a 1 y los valores más altos indican una mejor mezcla.

La puntuación de alineación de Seurat, la capa ómica ASW y la conectividad de gráficos miden la mezcla ómica de la integración de datos. Siguiendo el procedimiento del reciente estudio comparativo73, primero realizamos una escala mínima-máxima para cada una de las métricas y luego calculamos el promedio de las tres para resumirlas en una sola métrica que represente la mezcla de ómicas:

Para calcular una puntuación de integración general, utilizamos una ponderación de 6:4 entre la conservación de la biología y la mezcla ómica, siguiendo el reciente estudio de referencia73:

Se utilizó FOSCTTM25 para evaluar la precisión de la alineación a nivel de una sola celda. Se calculó en dos conjuntos de datos con pares conocidos de célula a célula. Supongamos que cada conjunto de datos contiene N celdas y que las celdas están ordenadas en el mismo orden, es decir, la i-ésima celda del primer conjunto de datos está emparejada con la i-ésima celda del segundo conjunto de datos. Denote xey como las incrustaciones de celdas del primer y segundo conjunto de datos, respectivamente. El FOSCTTM se define entonces como:

donde \(n_1^{\left( i \right)}\) y \(n_2^{\left( i \right)}\) son el número de celdas en el primer y segundo conjunto de datos, respectivamente, que están más cerca de la celda i que sus verdaderas coincidencias en el conjunto de datos opuesto. d es la distancia euclidiana. FOSCTTM tiene un rango de 0 a 1 y los valores más bajos indican una mayor precisión.

La coherencia de características se utilizó para evaluar la coherencia de las incorporaciones de características de diferentes modelos. Dado que los espacios de incrustación sin procesar no son directamente comparables entre modelos, definimos la consistencia como la conservación intermodal de similitudes de cosenos entre características en el mismo modelo. Específicamente, primero submuestreamos aleatoriamente 2000 características y calculamos la similitud de cosenos por pares entre ellas utilizando incorporaciones de características de los dos modelos comparados. Luego, la puntuación de consistencia de características se define como la correlación de Pearson entre las similitudes de cosenos de dos modelos, promediando cuatro submuestras aleatorias. La coherencia de las características tiene un rango de −1 a 1 y los valores más altos indican una mayor coherencia.

Para el punto de referencia de referencia, cada método se ejecutó ocho veces con diferentes semillas aleatorias, excepto Harmony y bindSC que tienen implementaciones deterministas y se ejecutaron solo una vez. Para el punto de referencia de corrupción de orientación, eliminamos las proporciones especificadas de interacciones entre picos y genes existentes y agregamos números iguales de interacciones inexistentes, por lo que el número total de interacciones se mantuvo sin cambios. Es de destacar que la conversión de características también se repitió utilizando los gráficos de guía corruptos. El procedimiento de corrupción se repitió ocho veces con diferentes semillas aleatorias. Para el punto de referencia de submuestreo, las células scRNA-seq y scATAC-seq se submuestrearon en pares (para que aún se pudiera calcular FOSCTTM). El proceso de submuestreo también se repitió ocho veces con diferentes semillas aleatorias.

Para la prueba de escalabilidad sistemática (Figura complementaria 17a), todos los métodos se ejecutaron en una estación de trabajo Linux con 40 núcleos de CPU (dos chips Intel Xeon Silver 4210), 250 GB de RAM y unidades de procesamiento gráfico NVIDIA GeForce RTX 2080 Ti. Solo se utilizó una tarjeta de unidad de procesamiento gráfico durante el entrenamiento de GLUE.

Los datos de scRNA-seq y scATAC-seq se manejaron como se describió anteriormente (sección Puntos de referencia sistemáticos). Debido a la baja cobertura por sitio C único, los datos de snmC-seq se convirtieron a niveles promedio de metilación en cuerpos genéticos. Los niveles de mCH y mCG se cuantificaron por separado, lo que resultó en dos características por gen. Los niveles de metilación de genes se normalizaron por el nivel de metilación global por célula. Se realizó una reducción de dimensionalidad inicial utilizando PCA (sección Detalles de implementación). Para el gráfico de guía de triple ómica, los niveles de mCH y mCG se conectaron a los genes correspondientes con bordes negativos.

Los niveles de metilación normalizados fueron positivos, con abandonos correspondientes a los genes que no estaban cubiertos en células individuales. Como tal, utilizamos la distribución log normal inflada a cero (ZILN) para el decodificador de datos:

donde \({{{\mathbf{\mu}}}} \in {\Bbb R}^{\left|{{{{\mathcal{V}}}}_k}\right|},{{{\ mathbf{\sigma}}}} \in {\Bbb R}_ + ^{\left|{{{{\mathcal{V}}}}_k}\right|},{{{\mathbf{\delta} }}} \in \left( {0,1} \right)^{\left| desviación estándar de escala y parámetros de inflación cero de la distribución log-normal inflada a cero, respectivamente, y \({{{\mathbf{ \alpha }}}} \in {\Bbb R}_ + ^{\left| {{{\mathcal{V}}}}_k} \right|},{{{\mathbf{\beta}}}} \in {\Bbb R}^{\left| }}}}_k} \right|}\) son factores de escala y sesgo.

Para unificar las etiquetas de tipo de celda, realizamos una transferencia de etiquetas basada en el vecino más cercano con el conjunto de datos snmC-seq como referencia. Se identificaron los cinco vecinos más cercanos en snmC-seq para cada célula scRNA-seq y scATAC-seq en el espacio de incrustación alineado, y se utilizó la votación mayoritaria para determinar la etiqueta transferida. Para verificar si la alineación era correcta, probamos una superposición significativa en los genes marcadores de tipo celular. Las características de todas las capas ómicas se convirtieron primero en genes. Luego, para cada capa ómica, los marcadores de tipo celular se identificaron utilizando la prueba de suma de rangos de Wilcoxon uno versus resto con los siguientes criterios: FDR <0,05 y cambio logarítmico >0 para scRNA-seq/scATAC-seq; FDR <0,05 y cambio logarítmico de <0 para snmC-seq. La importancia de la superposición de marcadores se determinó mediante la prueba exacta de Fisher de tres factores40.

Para realizar análisis de correlación y regresión después de la integración, agrupamos todas las celdas de las tres capas ómicas utilizando k-medias de escala fina (k = 200). Luego, para cada capa ómica, las células de cada grupo se agregaron en una metacélula sumando sus recuentos de expresión/accesibilidad o promediando sus niveles de metilación del ADN. Las metacélulas se establecieron como muestras pareadas, en función de las cuales se pudieron realizar análisis de correlación y regresión de características.

Para integrar los mismos conjuntos de datos utilizando iNMF en línea, invertimos los datos de snmC-seq restando la matriz de datos por la entrada más grande, siguiendo el procedimiento descrito en el artículo original16.

Para garantizar la coherencia de los tipos de células, primero seleccionamos los tipos de células superpuestas entre los datos de 10X Multiome y pcHi-C. Los tipos de células restantes incluyeron células T, células B y monocitos. Los datos de eQTL se utilizaron tal cual, porque no eran específicos del tipo de célula. Para scRNA-seq, seleccionamos 6000 genes altamente variables. Para capturar interacciones reguladoras cis remotas, se construyó el gráfico de guía base para pares de genes pico dentro de una distancia de 150 kb, utilizando el esquema alternativo como se describe en la sección Puntos de referencia sistemáticos.

Para incorporar la evidencia regulatoria de pcHi-C y eQTL, anclamos toda la evidencia entre los picos ATAC y los genes de ARN. Se consideró que pcHi-C apoyaba un par pico-gene si (1) el promotor del gen estaba a 1 kb de un fragmento de cebo, (2) el pico estaba a 1 kb de un fragmento del otro extremo y (3) se producía un contacto significativo. identificado entre el cebo y el fragmento del otro extremo en pcHi-C. Las interacciones entre el gen y el pico soportadas por pcHi-C se ponderaron multiplicando los pesos de la ley de potencia del promotor al cebo y del pico al otro extremo (arriba). Si un par pico-gene estaba respaldado por múltiples contactos pcHi-C, los pesos se sumaban y recortaban a un máximo de 1. Un par pico-gene se consideraba respaldado por eQTL si (1) el pico se superponía a un locus eQTL y (2 ) el locus se asoció con la expresión del gen. A las interacciones pico-gen respaldadas por eQTL se les asignaron pesos de 1. El gráfico de guía compuesto se construyó agregando las interacciones respaldadas por pcHi-C y eQTL a las interacciones anteriores basadas en la distancia, lo que permitió múltiples bordes.

Para la inferencia regulatoria, solo se consideraron los pares de genes pico dentro de una distancia de 150 kb. El proceso de entrenamiento GLUE se repitió cuatro veces con diferentes semillas aleatorias. Para cada repetición, la puntuación reguladora del gen máximo se calculó como la similitud del coseno entre las incorporaciones de características. La inferencia regulatoria final se obtuvo promediando las puntuaciones regulatorias en las cuatro repeticiones. Para evaluar la importancia de las puntuaciones regulatorias, comparamos las puntuaciones con una distribución NULL obtenida mediante incorporaciones de características aleatorias y calculamos valores P empíricos como la probabilidad de obtener puntuaciones más extremas en la distribución NULL. Finalmente, calculamos el FDR de la inferencia regulatoria en función de los valores de P utilizando el procedimiento de Benjamini-Hochberg. Para la inferencia reguladora cis utilizando LASSO, utilizamos el hiperparámetro α = 0,01, que se optimizó para el área bajo las curvas características operativas del receptor de predicción pcHi-C y eQTL.

Utilizamos el flujo de trabajo SCENIC76 para construir una red reguladora del gen TF a partir de las interacciones reguladoras pico-gene inferidas. Brevemente, el flujo de trabajo de SCENIC primero construye una red de coexpresión genética basada en los datos de scRNA-seq y luego utiliza evidencia regulatoria cis externa para filtrar los falsos positivos. SCENIC acepta evidencia regulatoria cis en forma de clasificaciones de genes por TF, es decir, los genes con mayores niveles de enriquecimiento de TF en sus regiones reguladoras tienen una clasificación más alta. Para construir las clasificaciones basadas en nuestras interacciones inferidas entre pico y gen, primero superpusimos los picos de inmunoprecipitación de cromatina (ChIP) de ENCODE TF con los picos de ATAC y contamos el número de picos de ChIP para cada TF en cada pico de ATAC. Dado que diferentes genes pueden tener diferentes números de picos ATAC conectados, y los picos ATAC varían en longitud (los picos más largos pueden contener más picos ChIP por casualidad), ideamos un enfoque basado en muestreo para evaluar el enriquecimiento de TF. Específicamente, para cada gen, tomamos muestras aleatorias de 1000 conjuntos de picos ATAC que coincidían con los picos ATAC conectados tanto en número como en distribución de longitud. Contamos el número de picos de TF ChIP en estos picos ATAC aleatorios como distribuciones nulas. Para cada TF en cada gen, se podría calcular un valor de P empírico comparando el número observado de picos de ChIP con la distribución nula. Finalmente, clasificamos los genes según los valores empíricos de P para cada TF, produciendo las clasificaciones reguladoras cis utilizadas por SCENIC. Dado que la inferencia basada en genes pico se centra principalmente en regiones reguladoras remotas, los promotores proximales podrían pasarse por alto. Como tal, proporcionamos a SCENIC las clasificaciones cis-regulatorias basadas en picos y basadas en promotores proximales anteriores.

Los atlas scRNA-seq y scATAC-seq tienen composiciones de tipos celulares altamente desequilibradas, que se deben principalmente a diferencias en los tamaños de muestreo de órganos (Figura complementaria 17b). Aunque los tipos de células se desconocen durante los análisis del mundo real, las fuentes de órganos suelen estar disponibles y pueden utilizarse para ayudar a equilibrar el proceso de integración. Para realizar un preprocesamiento de datos equilibrado de órganos, primero submuestreamos cada capa ómica para que coincida con las composiciones de los órganos. Para los datos de scRNA-seq, se seleccionaron 4000 genes altamente variables utilizando la submuestra equilibrada de órganos. Luego, para la reducción de dimensionalidad inicial, ajustamos PCA (scRNA-seq) y LSI (scATAC-seq) en la submuestra equilibrada de órganos y aplicamos la proyección a los datos completos. Las coordenadas PCA/LSI se utilizaron como la primera capa de transformación en los codificadores de datos GLUE (sección Detalles de implementación), así como para la agregación de metaceldas (a continuación). El gráfico de orientación se construyó como se describió anteriormente (sección Puntos de referencia sistemáticos).

Los dos atlas constan de un gran número de celdas pero con una cobertura baja por celda. Para aliviar el abandono y aumentar la velocidad del entrenamiento simultáneamente, utilizamos una estrategia de agregación de metacélulas durante el preentrenamiento. Específicamente, en la etapa de preentrenamiento, agrupamos las células en cada capa ómica usando k-medias de escala fina (k = 100,000 para scRNA-seq y k = 40,000 para scATAC-seq). Para equilibrar las composiciones de órganos al mismo tiempo, se ajustaron centroides de k-medias en la submuestra balanceada de órganos anterior y luego se aplicaron a los datos completos. Las células en cada grupo de k-medias se agregaron en una metacélula sumando sus recuentos de expresión/accesibilidad y promediando sus coordenadas PCA/LSI. Luego se entrenó previamente GLUE en las metacélulas agregadas con ruido aditivo, que orientó aproximadamente las incrustaciones de células pero en realidad no las alineó (sección Alineación adversa ponderada). Para utilizar mejor el gran tamaño de los datos, la dimensionalidad de la capa oculta se duplicó a 512 desde el valor predeterminado 256. En la segunda etapa, GLUE se ajustó en los datos completos de una sola celda con el peso de equilibrio estimado como se describe en la sección Adversario ponderado. alineación. No se utilizó agregación de metacélulas al comparar la escalabilidad de diferentes métodos (Figura complementaria 17a).

Para comparar con otros métodos de integración, también probamos en línea iNMF y Seurat v.3. iNMF en línea era el único otro método que podía escalar a millones de celdas, por lo que lo aplicamos al conjunto de datos completo. Por otro lado, Seurat v.3 mostró la segunda mejor precisión en nuestro punto de referencia anterior. También logramos aplicarlo a los datos agregados utilizados en la primera etapa del entrenamiento de GLUE, debido a que Seurat v.3 no pudo escalar al conjunto de datos completo (Figura complementaria 17a). La transferencia de etiquetas se realizó utilizando el mismo procedimiento que en el caso de triple ómica, excepto que utilizamos la votación por mayoría en 50 vecinos más cercanos.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de investigación de la naturaleza vinculado a este artículo.

Todos los conjuntos de datos utilizados en este estudio ya están publicados y se obtuvieron de repositorios de datos públicos. Consulte la Tabla complementaria 1 para obtener información detallada sobre los conjuntos de datos ómicos unicelulares utilizados en este estudio, incluidos los códigos de acceso y las URL. Para la inferencia y evaluación regulatoria, los datos pcHi-C se obtuvieron del archivo complementario de la publicación original (https://www.sciencedirect.com/science/article/pii/S0092867416313228), los datos eQTL de GTEx v8 (https:// www.gtexportal.org/home/datasets), datos TF ChIP–seq del portal de datos ENCODE (https://www.encodeproject.org/) y base de datos TRRUST v2 del sitio web oficial (https://www.grnpedia.org /trrust/downloadnetwork.php). Todos los datos fuente de evaluación comparativa están disponibles en Datos complementarios 1.

El marco GLUE se implementó en el paquete Python 'scglue', que está disponible en https://github.com/gao-lab/GLUE. Para lograr reproducibilidad, los scripts para todos los puntos de referencia y estudios de casos se compilaron utilizando Snakemake (v.6.12.3), que también está disponible en el repositorio anterior.

Cusanovich, DA et al. Perfiles múltiples unicelulares de accesibilidad a la cromatina mediante indexación celular combinatoria. Ciencia 348, 910–914 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Chen, X., Miragaia, RJ, Natarajan, KN y Teichmann, SA Un método rápido y sólido para la elaboración de perfiles de accesibilidad a la cromatina unicelular. Nat. Comunitario. 9, 5345 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Luo, C. y col. Los metilomas unicelulares identifican subtipos neuronales y elementos reguladores en la corteza de los mamíferos. Ciencia 357, 600–604 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Mulqueen, RM y cols. Generación altamente escalable de perfiles de metilación del ADN en células individuales. Nat. Biotecnología. 36, 428–431 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Picelli, S. y col. Smart-seq2 para perfiles de transcriptomas sensibles de longitud completa en células individuales. Nat. Métodos 10, 1096–1098 (2013).

Artículo CAS PubMed Google Scholar

Zheng, GX y cols. Perfiles transcripcionales digitales masivamente paralelos de células individuales. Nat. Comunitario. 8, 14049 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Packer, J. & Trapnell, C. Multiómica unicelular: un motor para nuevos modelos cuantitativos de regulación genética. Tendencias Genet. 34, 653–665 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Chen, S., Lake, BB y Zhang, K. Secuenciación de alto rendimiento del transcriptoma y accesibilidad a la cromatina en la misma célula. Nat. Biotecnología. 37, 1452-1457 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Ma, S. y col. Potencial de cromatina identificado mediante perfiles unicelulares compartidos de ARN y cromatina. Celda 183, 1103-1116 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Clark, SJ y cols. scNMT-seq permite el perfilado conjunto de la metilación y transcripción del ADN de accesibilidad a la cromatina en células individuales. Nat. Comunitario. 9, 781 (2018).

Artículo PubMed PubMed Central Google Scholar

Wang, Y. et al. La secuenciación multiómica unicelular revela el panorama regulador funcional de los embriones tempranos. Nat. Comunitario. 12, 1247 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Lake, BB y cols. Análisis integrativo unicelular de estados transcripcionales y epigenéticos en el cerebro humano adulto. Nat. Biotecnología. 36, 70–80 (2018).

Artículo CAS PubMed Google Scholar

Bravo González-Blas, C. et al. Identificación de potenciadores genómicos mediante la integración espacial de transcriptómica y epigenómica unicelular. Mol. Sistema. Biol. 16, e9438 (2020).

Artículo PubMed PubMed Central Google Scholar

Argelaguet, R., Cuomo, ASE, Stegle, O. y Marioni, JC Principios computacionales y desafíos en la integración de datos unicelulares. Nat. Biotecnología. 39, 1202-1215 (2021).

Stuart, T. y otros. Integración integral de datos unicelulares. Celda 177, 1888-1902 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Gao, C. y col. Integración multiómica iterativa de una sola celda mediante aprendizaje en línea. Nat. Biotecnología. 39, 1000–1007 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Welch, JD y cols. La integración multiómica unicelular compara y contrasta las características de la identidad de las células cerebrales. Celda 177, 1873–1887 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Korsunsky, I. et al. Integración rápida, sensible y precisa de datos unicelulares con Harmony. Nat. Métodos 16, 1289-1296 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Chen, H. y col. Evaluación de métodos computacionales para el análisis de datos ATAC-seq unicelulares. Genoma Biol. 20, 241 (2019).

Artículo PubMed PubMed Central Google Scholar

Düren, Z. et al. Análisis integrativo de datos genómicos unicelulares mediante factorizaciones matriciales no negativas acopladas. Proc. Nacional. Acad. Ciencia. Estados Unidos 115, 7723–7728 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Zeng, W. y col. DC3 es un método para la deconvolución y la agrupación acoplada a partir de datos genómicos masivos y unicelulares. Nat. Comunitario. 10, 4613 (2019).

Artículo PubMed PubMed Central Google Scholar

Demetci, P., Santorella, R., Sandstede, B., Noble, WS y Singh, R. SCOT: Alineación multiómica unicelular con transporte óptimo. J. Computación. Biol. 29, 3-18 (2022).

Artículo CAS PubMed Google Scholar

Cao, K., Bai, X., Hong, Y. y Wan, L. Alineación topológica no supervisada para la integración multiómica unicelular. Bioinformática 36, i48 – i56 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Cao, K., Hong, Y. & Wan, L. Alineación de colectores para la integración de datos multiómicos unicelulares heterogéneos utilizando pamona. Bioinformática 38, 211–219 (2021).

Singh, R. y otros. Alineación múltiple no supervisada para datos multiómicos unicelulares. En Proc. 11.ª Conferencia Internacional ACM sobre Bioinformática, Biología Computacional e Informática de la Salud (eds. Aluru, S., Kalyanaraman, A. & Wang, MD) a40 (Asociación de Maquinaria de Computación, 2020).

Svensson, V., Vento-Tormo, R. y Teichmann, SA Escalado exponencial de secuencias de ARN unicelulares en la última década. Nat. Protocolo. 13, 599–604 (2018).

Artículo CAS PubMed Google Scholar

Kozareva, V. y col. Un atlas transcriptómico de la corteza cerebelosa de ratón define de manera integral los tipos de células. Naturaleza 598, 214–219 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Cao, J. y col. Un atlas de células humanas de expresión de genes fetales. Ciencia 370, eaba7721 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Domcke, S. y col. Un atlas de células humanas sobre accesibilidad a la cromatina fetal. Ciencia 370, eaba7612 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

López, R., Regier, J., Cole, MB, Jordan, MI y Yosef, N. Modelado generativo profundo para transcriptómica unicelular. Nat. Métodos 15, 1053–1058 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Cao, ZJ, Wei, L., Lu, S., Yang, DC y Gao, G. Búsqueda de bases de datos de scRNA-seq a gran escala mediante la incrustación celular imparcial con Cell BLAST. Nat. Comunitario. 11, 3458 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Kipf, TN y Welling, M. Codificadores automáticos de gráficos variacionales. En Taller de sistemas de procesamiento de información neuronal sobre aprendizaje profundo bayesiano (eds. Gal, Y. et al.) (Curran Associates, Inc., 2016).

Dou, J. y col. Integración imparcial de datos multiómicos de una sola celda. Preimpresión en bioRxiv https://doi.org/10.1101/2020.12.11.422014 (2020).

PBMC de un donante sano, datos de demostración de expresión del gen ATAC multioma unicelular mediante Cell Ranger ARC 1.0.0. Genómica 10X https://support.10xgenomics.com/single-cell-multiome-atac-gex/datasets/1.0.0/pbmc_granulopathy_sorted_10k (2020).

Muto, Y. et al. Los perfiles de accesibilidad de cromatina y transcripción unicelular redefinen la heterogeneidad celular en el riñón humano adulto. Nat. Comunitario. 12, 2190 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Yao, Z. et al. Un atlas de células transcriptómicas y epigenómicas de la corteza motora primaria del ratón. Naturaleza 598, 103–110 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Saunders, A. y col. Diversidad molecular y especializaciones entre las células del cerebro de ratón adulto. Celda 174, 1015-1030 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Corteza fresca del cerebro de un ratón adulto (v1), datos de demostración de ATAC unicelular mediante Cell Ranger 1.1.0. Genómica 10X https://support.10xgenomics.com/single-cell-atac/datasets/1.1.0/atac_v1_adult_brain_fresh_5k (2019).

Mo, A. y col. Firmas epigenómicas de la diversidad neuronal en el cerebro de los mamíferos. Neurona 86, 1369-1384 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Wang, M., Zhao, Y. y Zhang, B. Prueba eficiente y visualización de intersecciones de conjuntos múltiples. Representante científico 5, 16923 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Gabel, HW y cols. Interrupción de la represión de genes largos dependiente de la metilación del ADN en el síndrome de Rett. Naturaleza 522, 89–93 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Dekker, J., Marti-Renom, MA y Mirny, LA Exploración de la organización tridimensional de los genomas: interpretación de los datos de interacción de la cromatina. Nat. Rev. Genet. 14, 390–403 (2013).

Artículo CAS PubMed PubMed Central Google Scholar

Pliner, HA y cols. Cicero predice interacciones cis-reguladoras del ADN a partir de datos de accesibilidad a la cromatina unicelular. Mol. Celda 71, 858–871 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Javierre, BM et al. La arquitectura del genoma específica del linaje vincula potenciadores y variantes de enfermedades no codificantes con promotores de genes diana. Celda 167, 1369-1384 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Aguet, F. et al. Efectos genéticos sobre la expresión genética en los tejidos humanos. Naturaleza 550, 204–213 (2017).

Artículo de Google Scholar

Han, H. y col. TRRUST v2: una base de datos de referencia ampliada de interacciones reguladoras transcripcionales en humanos y ratones. Ácidos nucleicos res. 46, D380–D386 (2018).

Artículo CAS PubMed Google Scholar

Thomsen, ER y cols. Caracterización transcriptómica unicelular fija de la diversidad glial radial humana. Nat. Métodos 13, 87–93 (2016).

Artículo CAS PubMed Google Scholar

Polen, AA et al. Identidad molecular de la glía radial externa humana durante el desarrollo cortical. Celda 163, 55–67 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Fischer, DS y col. Sfaira acelera la reutilización de datos y modelos en genómica unicelular. Genoma Biol. 22, 248 (2021).

Artículo PubMed PubMed Central Google Scholar

Tran, HTN y cols. Un punto de referencia de los métodos de corrección del efecto por lotes para datos de secuenciación de ARN unicelular. Genoma Biol. 21, 12 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Stark, SG y cols. SCIM: coincidencia universal de una sola celda con conjuntos de características no emparejadas. Bioinformática 36, i919 – i927 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Yang, KD y cols. Traducción multidominio entre imágenes unicelulares y datos de secuenciación mediante codificadores automáticos. Nat. Comunitario. 12, 31 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Eng, C.-HL et al. Imágenes súper resueltas a escala de transcriptoma en tejidos mediante RNA seqfish. Naturaleza 568, 235–239 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Rodriques, SG et al. Slide-seq: una tecnología escalable para medir la expresión de todo el genoma con alta resolución espacial. Ciencia 363, 1463-1467 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Ly, L.-H. & Vingron, M. Efecto de la imputación en la reconstrucción de la red genética a partir de datos de secuencia de ARN unicelular. Patrones 3, 100414 (2021).

Bandura, DR y cols. Citometría de masas: técnica para inmunoensayo multiobjetivo unicelular en tiempo real basado en espectrometría de masas de tiempo de vuelo de plasma acoplado inductivamente. Anal. Química. 81, 6813–6822 (2009).

Artículo CAS PubMed Google Scholar

Bartosovic, M., Kabbe, M. y Castelo-Branco, G. CUT&Tag unicelular perfila modificaciones de histonas y factores de transcripción en tejidos complejos. Nat. Biotecnología. 39, 825–835 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Ashuach, T., Reidenbach, DA, Gayoso, A. y Yosef, N. PeakVI: un modelo generativo profundo para el análisis de accesibilidad a la cromatina unicelular. Métodos de informes celulares 2, 100182 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Hamilton, W., et al. en Avances en sistemas de procesamiento de información neuronal (eds. Guyon, I. et al.) 1024–1034 (Curran Associates, Inc., 2017).

Veličković, P. et al. Graficar redes de atención. En Proc. Sexta Conferencia Internacional sobre Representaciones del Aprendizaje (eds. Bengio, Y. & LeCun, Y.) (ICLR, 2018).

Vashishth, S., Sanyal, S., Nitin, V. y Talukdar, P. Redes convolucionales de gráficos multirelacionales basadas en composición. En Proc. Octava Conferencia Internacional sobre Representaciones del Aprendizaje (ed. Rush, A.) (ICLR, 2020).

Zhang, R., Zou, Y. & Ma, J. Hyper-SAGNN: una red neuronal gráfica basada en la autoatención para hipergrafos. En Proc. Octava Conferencia Internacional sobre Representaciones del Aprendizaje (ed. Rush, A.) (ICLR, 2020).

Zhang, R., Zhou, T. & Ma, J. Análisis Hi-C unicelular integrador y multiescala con Higashi. Nat. Biotecnología. 40, 254–261 (2021).

Stuart, T. y Satija, R. Análisis unicelular integrativo. Nat. Rev. Genet. 20, 257–272 (2019).

Artículo CAS PubMed Google Scholar

Amodio, M. & Krishnaswamy, S. MAGAN: alineación de variedades biológicas. En Proc. 35.a Conferencia Internacional sobre Aprendizaje Automático (eds. Dy, JG Dy & Krause, A.) 215–223 (PMLR, 2018).

Tarashansky, AJ y cols. El mapeo de atlas unicelulares en metazoos desvela la evolución del tipo celular. eLife 10, e66747 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Jung, I. et al. Un compendio de interacciones de cromatina de largo alcance centradas en promotores en el genoma humano. Nat. Gineta. 51, 1442-1449 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Ding, J. & Regev, A. Incrustación de modelos generativos profundos de perfiles de secuencia de ARN unicelulares en hiperesferas y espacios hiperbólicos. Nat. Comunitario. 12, 2554 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Mikolov, T., Sutskever, I., Chen, K., Corrado, G. y Dean, J. en Advances in Neural Information Processing Systems (eds. Burges, CJC et al.) 3111–3119 (Curran Associates, Inc. , 2013).

Kipf, TN y Welling, M. Clasificación semisupervisada con redes convolucionales de gráficos. En Proc. Quinta Conferencia Internacional sobre Representaciones del Aprendizaje (eds. Bengio, Y. & LeCun, Y.) (ICLR, 2017).

Dincer, AB, Janizek, JD y Lee, S.-I. Autocodificador desconcertante adversario para aprender incorporaciones sólidas de expresión genética. Bioinformática 36, i573 – i582 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Goodfellow, I. et al. en Avances en sistemas de procesamiento de información neuronal (eds Ghahramani, Z. et al.) 2672–2680 (Curran Associates, Inc., 2014).

Luecken, MD y cols. Evaluación comparativa de la integración de datos a nivel de atlas en genómica unicelular. Nat. Métodos 19, 41–50 (2022).

Xu, C. y col. Armonización probabilística y anotación de datos de transcriptómica unicelular con modelos generativos profundos. Mol. Sistema. Biol. 17, e9620 (2021).

Artículo PubMed PubMed Central Google Scholar

Butler, A., Hoffman, P., Smibert, P., Papalexi, E. y Satija, R. Integración de datos transcriptómicos unicelulares en diferentes condiciones, tecnologías y especies. Nat. Biotecnología. 36, 411–420 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Aibar, S. et al. SCENIC: inferencia y agrupación de redes reguladoras unicelulares. Nat. Métodos 14, 1083–1086 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Davis, CA y cols. La enciclopedia de elementos del ADN (ENCODE): actualización del portal de datos. Ácidos nucleicos res. 46, D794–D801 (2018).

Artículo CAS PubMed Google Scholar

Descargar referencias

Agradecemos a F. Tang, XS Xie, Z. Zhang, L. Tao, C. Li, J. Lu (en la Universidad de Pekín) y Y. Ding (en el Instituto de Medicina Radiológica de Beijing) por sus útiles debates y comentarios durante el estudio, así como a los autores de los conjuntos de datos utilizados en este trabajo por su amable ayuda. Este trabajo fue apoyado por fondos del Programa Nacional Clave de Investigación y Desarrollo (subvención n.° 2016YFC0901603), el Laboratorio Estatal Clave de Investigación de Proteínas y Genes Vegetales y el Centro de Innovación Avanzada de Genómica de Beijing en la Universidad de Pekín, así como el Laboratorio Changping. La investigación de GG fue apoyada en parte por el Programa Nacional de Apoyo a Jóvenes Profesionales de primer nivel. Parte del análisis se llevó a cabo en la Plataforma de Computación del Centro de Ciencias de la Vida de la Universidad de Pekín y con el apoyo de la Plataforma de Computación de Alto Rendimiento de la Universidad de Pekín. Partes de la Fig. 1 se crearon utilizando un conjunto de imágenes descargado de Servier Medical Art (https://smart.servier.com/, CC BY 3.0).

Laboratorio Estatal Clave de Investigación de Proteínas y Genes Vegetales, Facultad de Ciencias de la Vida, Centro Innovador Pionero Biomédico (BIOPIC) y Centro de Innovación Avanzada en Genómica (ICG) de Beijing, Centro de Bioinformática (CBI), Universidad de Pekín, Beijing, China

Zhi-Jie Cao y Ge Gao

Laboratorio Changping, Pekín, China

Zhi-Jie Cao y Ge Gao

También puedes buscar este autor en PubMed Google Scholar.

GG concibió el estudio y supervisó la investigación. ZJC diseñó e implementó el marco computacional y realizó puntos de referencia y estudios de casos con la orientación de GGZJC y GG escribió el manuscrito.

Correspondencia a Ge Gao.

Los autores declaran no tener conflictos de intereses.

Nature Biotechnology agradece a Ricard Argelaguet, Yun Li, Romain Lopez y los demás revisores anónimos por su contribución a la revisión por pares de este trabajo.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

a, Precisión media media frente a puntuación de alineación de Seurat para diferentes métodos de integración. Una precisión promedio más alta indica una mayor resolución del tipo de célula, y una puntuación de alineación de Seurat más alta indica una mejor mezcla ómica. b, Ancho de silueta promedio de la capa ómica versus tipo de celda para diferentes métodos de integración. Un ancho de silueta promedio de tipo de celda más alto indica una resolución de tipo de celda más alta, y un ancho de silueta promedio de capa de ómicas más alto indica una mejor mezcla de ómicas. c, Conservación de vecinos versus conectividad de gráficos para diferentes métodos de integración. Una mayor conservación de vecinos indica una mejor conservación de la estructura múltiple en cada capa original, y una mayor conectividad del gráfico indica una mejor mezcla ómica. n=8 repeticiones con semillas aleatorias de diferentes modelos. Las barras de error indican media ± sd

a, Disminución en la puntuación de integración general con diferentes tasas de corrupción del conocimiento previo para métodos de integración que se basan en relaciones de características previas (n = 8 repeticiones con diferentes semillas aleatorias de corrupción). b, puntuación de integración general, y c, FOSCTTM con diferentes esquemas de conexión de picos y genes como conocimiento regulatorio previo, para métodos de integración que se basan en relaciones de características previas (n = 8 repeticiones con diferentes semillas aleatorias de modelos). 'Combinado±0' es el esquema estándar donde se vinculan los picos que se superponen al cuerpo del gen o a las regiones promotoras. 'Promotor±150k' significa que los picos están vinculados a genes si se ubican dentro de 150 kb del promotor del gen, ponderado por una función de ley de potencia que modela la probabilidad de contacto con la cromatina42,43. d, Puntuación de integración general de diferentes métodos de integración en conjuntos de datos submuestreados de diferentes tamaños (n = 8 repeticiones con diferentes semillas aleatorias de submuestreo). Las barras de error indican media ± sd

El rendimiento de la integración se cuantifica mediante a, puntuación de integración general, y b, FOSCTTM (n = 4 repeticiones con diferentes semillas aleatorias de modelos). Las barras de error indican media ± sd. 'Dimensionalidad' denota la dimensionalidad de incrustación de celda. La 'dimensionalidad de preprocesamiento' es la dimensionalidad reducida utilizada para las primeras capas de transformación de los codificadores de datos (ver Métodos). La 'profundidad de capa oculta' es el número de capas ocultas en los codificadores de datos y el discriminador de modalidad. La 'dimensionalidad de la capa oculta' es la dimensionalidad de las capas ocultas en los codificadores de datos y el discriminador de modalidad. 'Abandono' es la tasa de abandono de capas ocultas en codificadores de datos y discriminador de modalidad. 'Gráfico lambda' es el peso de la pérdida del gráfico (\(\lambda _ {{{\mathcal{G}}}}\)). 'Lambda align' es el peso de la alineación adversaria (λD). La 'tasa de muestreo negativa' es el número de muestras empíricas utilizadas en el muestreo de borde negativo (muestras de pns). Para cada hiperparámetro, el valor central es el predeterminado. Para controlar el costo computacional, se varió un hiperparámetro a la vez, y todos los demás se establecieron en sus valores predeterminados. El rendimiento de GLUE fue sólido en una amplia gama de configuraciones de hiperparámetros, excepto en el caso de alineaciones fallidas en las que el peso de la alineación adversaria era demasiado bajo o no se utilizaron capas ocultas en las redes neuronales (equivalente a un modelo lineal con capacidad insuficiente).

El rendimiento de la integración se cuantifica mediante a, puntuación de integración general, yb, FOSCTTM (n = 8 repeticiones con diferentes semillas aleatorias de modelos). Las barras de error indican media ± sd

Consistencia de las incorporaciones de características definidas por la conservación de la similitud del coseno característica-característica (Métodos), bajo a, diferentes configuraciones de hiperparámetros (n = 4 repeticiones con diferentes semillas aleatorias del modelo), b, diferentes tasas de corrupción del conocimiento previo (n = 8 repeticiones con diferentes semillas aleatorias de corrupción), y c, diferente número de células submuestreadas (n = 8 repeticiones con diferentes semillas aleatorias de submuestreo). Las barras de error indican la media ± sd. Las incorporaciones de características son robustas en todos los hiperparámetros excepto \(\lambda _{{{\mathcal{G}}}}\), que controla directamente la contribución del gráfico de guía. La coherencia también sigue siendo alta (> 0,8), con hasta un 40 % del conocimiento previo corrupto y un mínimo de ~4000 células submuestreadas.

Puntuaciones de coherencia de la integración con distintos números de metaceldas para diferentes combinaciones de conjuntos de datos. Las combinaciones del mismo tejido representan una corrección adecuada y las combinaciones de diferentes tejidos representan una corrección excesiva. La línea horizontal discontinua indica la puntuación de coherencia de la integración = 0,05.

Higos suplementarios. 1–23 y Tabla 1.

Datos detallados de evaluación comparativa.

Interacciones regulatorias en la red de genes objetivo TF derivados de GLUE.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Cao, ZJ., Gao, G. Integración de datos unicelulares multiómicos e inferencia regulatoria con incrustación vinculada a gráficos. Nat Biotechnol 40, 1458–1466 (2022). https://doi.org/10.1038/s41587-022-01284-4

Descargar cita

Recibido: 13 de septiembre de 2021

Aceptado: 15 de marzo de 2022

Publicado: 02 de mayo de 2022

Fecha de emisión: octubre de 2022

DOI: https://doi.org/10.1038/s41587-022-01284-4

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Biología del genoma (2023)

Comunicaciones de la naturaleza (2023)

Biotecnología de la naturaleza (2023)

Comunicaciones de la naturaleza (2023)

Reseñas de la naturaleza Biología celular molecular (2023)

Blog