Resultados

Prevalencia de uORF En Transcripciones de Mamíferos.

Definimos un uORF como formado por un codón de inicio dentro de un UTR de 5′, un codón de parada en cuadro que precede al final de la secuencia de codificación principal (CDS), y una longitud de al menos 9 nt, incluido el codón de parada. Como se muestra en la Fig. 1A, esta definición incluye los UORF totalmente ascendentes y superpuestos a los CDS, porque se predice que ambos tipos son funcionales (20). Buscamos UORF en todas las transcripciones de RefSeq para humanos y ratones con UTRs anotados de 5′ > 10 nt. De acuerdo con estimaciones anteriores (9, 10), encontramos que el 49% de las transcripciones humanas y el 44% de las de ratones contienen al menos 1 uORF (Fig. 1B). Curiosamente, los codones de inicio de UORF humano y ratón (uAUGs) son los trinucleótidos UTR de 5′ más conservados entre las especies de vertebrados (Fig. S1), en consonancia con un papel funcional generalizado.

Impacto de uORF en los Niveles de Proteínas Celulares.

Si los UORF causan una reducción generalizada de la expresión de proteínas, como predicen los modelos de barrido de ribosomas, esperaríamos que las transcripciones que contienen uORF se correlacionen con niveles de proteínas más bajos en comparación con las transcripciones sin uORF. Para probar esta hipótesis, analizamos un total de 11,649 mediciones de abundancia de proteínas y ARNm coincidentes de 4 estudios publicados en una variedad de tejidos de ratón y etapas de desarrollo. Estos incluyen: 2.484 genes expresados en hígado (12), 722 genes expresados en 6 etapas de desarrollo pulmonar (13), 487 productos genéticos localizados en mitocondrias expresados en 14 tejidos (14), y 925 genes expresados en 6 tejidos (15) (ver Texto del SI para más detalles). Las proteínas se detectaron mediante espectrometría de masas en tándem (MS / MS), y la abundancia se estimó mediante métodos estándar utilizando el número normalizado (12, 13, 15) o el área máxima total (14) de espectros de MS coincidentes. La abundancia de ARNm en estas condiciones se midió mediante microarrays (21, 22). Aunque ninguna de las dos tecnologías proporciona cuantificación absoluta, estos conjuntos de datos a gran escala pueden revelar tendencias en miles de genes. Debido a que la tecnología MS/MS no puede distinguir de manera confiable las variantes de empalme, analizamos la expresión a nivel de genes y consideramos solo aquellos genes cuyas variantes de empalme colectivas contienen, o carecen, UORF. De acuerdo con informes anteriores (23), observamos que el 10% de las transcripciones con mayor expresión basadas en atlas de tejidos de microarrays (21) tienden a carecer de uORFs (Fig. S2 y SI Text), y por lo tanto, excluimos conservativamente estos genes para evitar sobreestimar los efectos de la uORF.

A pesar de las diferencias en la metodología experimental, los 4 conjuntos de datos independientes mostraron una distribución reducida de los niveles de proteínas para los genes que contienen UORF en comparación con los que carecen de UORF (Fig. 2 A–D). La mediana de los niveles de proteínas se redujo, respectivamente, en un 39% (P = 1e−5), un 29% (P = 0,007), un 34% (P = 0,008) y un 13% (P = 0,36), donde la significación se determinó mediante pruebas empíricas de permutación. Los niveles de ARNm se redujeron en menor medida y solo el conjunto de datos hepáticos (12) mostró una reducción mediana estadísticamente significativa (Fig. 2E y Fig. S3). Es importante destacar que la relación entre proteína y ARNm se redujo significativamente para los genes que contienen uORF en 3 de 4 conjuntos de datos (Fig. 2E y Fig. S3), sugiriendo que la presencia de uORF probablemente inhibe la traducción de la secuencia de codificación principal. Observamos las mismas tendencias cuando modificamos la definición de un uORF alterando los criterios de longitud y solapamiento, y cuando incluimos el 10% de los genes más expresados (Fig. S4). El análisis de 2 estudios adicionales de MS/MS de células de adipocitos de ratón (16) y células madre embrionarias diferenciadoras (17) también mostró niveles reducidos de proteínas para genes que contienen uORF, aunque no se disponía de datos de ARNm coincidentes (Fig. S3). En conjunto, estos análisis de 3.297 genes de ratón demostraron la primera correlación a gran escala de la presencia de uORF con niveles reducidos de proteínas.

Fig. 2.

Expresión proteica de genes que contienen uORF. (A–D) Distribución acumulativa de la expresión de proteínas para genes de ratón que contienen uORFs (curva roja) o que carecen de uORFs (curva gris) en cada uno de los 4 estudios independientes de MS/MS (12-15). N indica el número de genes únicos en cada conjunto. E) Reducción mediana de la expresión de proteínas y ARNm para genes que contienen UORF en comparación con genes que carecen de UORF, con valores de P (entre paréntesis) calculados mediante pruebas empíricas de permutación.

Para determinar si los UORF desempeñan un papel causal en la reducción de los niveles de proteínas, y para cuantificar con mayor precisión el tamaño de su efecto, realizamos una serie de experimentos con 15 genes que contienen uORF utilizando construcciones de reporteros de doble luciferasa (consulte Materiales y métodos). Se eligieron cinco genes aleatoriamente del conjunto de todas las transcripciones de ratones que contenían uORFs individuales y en los que, para facilitar la técnica, la longitud de 5′ UTR excedía los 100 nt (Fig. 3 B y F). Se seleccionaron 10 más de nuestro estudio mitocondrial (14) donde los datos de MS/MS y conservación sugerían funcionalidad (Fig. 3 C y G). Clonamos el 5 ‘ UTR de cada gen seleccionado aguas arriba de un reportero de luciferasa (Fig. 3A). Las células HEK 293A se transfectaron con construcciones de luciferasa que contienen uORF o construcciones de control donde el codón de inicio de uORF (ATG) se mutó a TTG. Después de 48 h, las células fueron analizadas para los niveles de transcripción de luciferasa por PCR cuantitativa y para la actividad de la luciferasa por luminometría. Estos experimentos mostraron que, en promedio, los uROFs causan una disminución del 58% en los niveles de proteínas (Fig. 3 B y C) y una disminución del 5% en los niveles de transcripción (Fig. 3 F y G). Todas las diferencias de proteínas individuales y 4 diferencias de ARNm fueron estadísticamente significativas (Fig. 3), y todas las diferencias en la relación proteína/ARNm fueron estadísticamente significativas, excepto para el gen Hsdl2 (Tabla S2). Los constructos con uORFs seleccionados aleatoriamente mostraron niveles de proteína más altos en comparación con los uORFs seleccionados con evidencia de funcionalidad (P = 1e−5 basado en la prueba t). Se obtuvieron resultados similares utilizando células HEK 293T. En conjunto, las correlaciones a gran escala y los experimentos de validación demuestran que los UORF causan una expresión de proteína embotada de las secuencias de codificación posteriores.

Fig. 3.

Ensayos de luciferasa de los efectos de uORF sobre los niveles de proteínas y ARNm. (A) Se muestra el diseño experimental de construcciones de reporter con y sin UORF, por ejemplo, Mrpl11. (B–I) La actividad de luciferasa normalizada (B–E) y la expresión de ARNm (F–I) se muestran para construcciones de reportero que contienen un uORF (rojo) o carecen de un uORF (gris) debido a una mutación que interrumpe el codón de inicio de uORF. Las construcciones contienen 5 ‘ UTRs de: 5 genes de ratón elegidos aleatoriamente (B y F), 10 genes de ratón con firmas proteómicas y de conservación de UORF funcionales (C y G), 5 genes humanos con UORF polimórficos (D y H) y 5 genes de enfermedades humanas con mutaciones que alteran uORF detectadas en pacientes (E e I). Las barras de error representan ±SE de ≥6 réplicas biológicas (B-E) y ≥4 réplicas técnicas (F–I). Los asteriscos indican una diferencia significativa (P < 0,01).

Influencia del Contexto, la Posición y la Conservación de uORF.

A continuación investigamos si las propiedades específicas de uORF estaban asociadas con una inhibición traslacional más fuerte. Analizamos la longitud del uORF, el número, la conservación, la posición relativa a la tapa, la posición relativa a los CD y el contexto del uAUG (también llamado «secuencia de Kozak») (ver Materiales y Métodos). Cuantificamos los efectos de uORF utilizando el estadístico Kolmogorov–Smirnov (KS) D dentro del conjunto de datos más grande (hígado), que ofrecía potencia estadística para estos análisis. Todos los subconjuntos de UORF evaluados mostraron niveles de proteínas reducidos en comparación con los genes sin uORF (P < 0.05), aunque ciertas propiedades modificaron el tamaño del efecto (Fig. S5). Como predijeron los experimentos clásicos de Kozak (1, 20, 24-26), el aumento de la inhibición se correlacionó con el contexto de uAUG fuerte versus débil (P = 0,04), la distancia de cap-uORF larga versus corta (P = 0,009 a 4e-4), la presencia de múltiples UORF en el 5′ UTR (P = 8e–6) y el aumento de la conservación (P = 1e−6) (Fig. S5). Sorprendentemente, no observamos ninguna diferencia significativa entre los UORFS totalmente ascendentes frente a la superposición de los CDS (P = 0,9), entre uORFs de diferente proximidad a los CDS (P = 0,6 a 0.5) o entre uORFs de diferentes longitudes (P = 0.3). Estas comparaciones entre cientos de genes hepáticos indican que, aunque todos los tipos de UORF pueden reducir la expresión de proteínas, 4 las propiedades de uORF están asociadas con una mayor inhibición: fuerte contexto de UAUG, conservación evolutiva, mayor distancia de la tapa y múltiples UORF en el 5′ UTR.

Uorfos polimórficos en humanos.

Dado que los UORFOS reducen la expresión de proteínas, los polimorfismos que crean o eliminan uorfos podrían influir en los fenotipos humanos. Por lo tanto, buscamos variantes que alteran uORF dentro de los 12 millones de SNPs en la base de datos dbSNP humana (18). Acuñamos el término uORF polimórfico (puORF) para indicar un uORF creado o eliminado por un polimorfismo. Identificamos PUORF en 509 genes únicos (Tabla S3), de los cuales 366 genes tenían uORFs múltiples y 143 genes tenían uORFs únicos (Tabla 1). Usando las construcciones de reportero celular descritas anteriormente, probamos la funcionalidad de 5 puORFs. En todos los casos, los constructos con UORF produjeron un 30-60% menos de proteína que aquellos con la variante SNP sin uORF, con una disminución promedio del 3% en los niveles de ARNm (Fig. 3 D y H). Todas las reducciones individuales de proteínas y proteínas/ARNm fueron estadísticamente significativas (Tabla S2). El impacto de los PUORF fue comparable con el de todos los demás UORF que se probaron experimentalmente (Fig. 3). Por lo tanto, es probable que los polimorfismos que alteran el uORF de origen natural alteren la expresión celular de la proteína aguas abajo.

Ver esta tabla:

  • Vista en línea
  • Vista emergente
Cuadro 1

Variantes humanas notables que crean UORFOS polimórficos

Diferencias Mediadas por puORF en los Niveles de Proteína del Factor XII.

Uno de los SNP que alteran el uORF humano (rs1801020) se ha asociado previamente con diferencias en los niveles plasmáticos circulantes del factor de coagulación XII (FXII) en 5 estudios independientes (27-31) (Fig. 4). Este SNP representa un polimorfismo T/C común con una prevalencia del alelo T estimada en un 20% en las poblaciones caucásicas y en un 70% en las asiáticas (27-31). Kanaji y sus colegas demostraron que el alelo T reduce los niveles de proteínas, y propusieron que el mecanismo podría deberse a la interrupción de la secuencia de consenso de Kozak o a la introducción de un uORF, aunque estas hipótesis no se probaron (30). Para probar experimentalmente la hipótesis de uORF, creamos 8 construcciones de reportero que incluían las 4 variantes de nucleótidos posibles en el sitio SNP, 3 mutaciones generadoras de uORF artificiales y 1 mutación que crea un sitio de inicio alternativo en el marco (Fig. 4A). Los 4 constructos UTR que contenían UORF mostraron una reducción > 50% en los niveles de proteínas (P < 2e−6), mientras que los 4 constructos que carecían de UORF no mostraron fuertes diferencias en los niveles de proteínas (Fig. 4B). Los niveles de ARNm se alteraron en < 30% (Tabla S2). Estos resultados sugieren fuertemente que la presencia de un puORF es responsable de la variación observada en los niveles de proteína del factor XII humano.

Fig. 4.

El uORF polimórfico altera la expresión de la proteína FXII. (A) Secuencia de 5′ UTR de FXII mostrada con 2 variantes SNP, donde el alelo T crea un uORF (texto rojo). A continuación se muestran 8 construcciones con mutaciones introducidas (texto subrayado), donde el texto coloreado indica un inicio alternativo uORF (rojo) o en el marco (verde). B) Actividad de la luciferasa a partir de construcciones de reportero enumeradas en A. Las barras de error representan ±DE de ≥6 réplicas biológicas. C) Metanálisis de los niveles plasmáticos de actividad FXII medidos mediante 5 estudios independientes, estratificados por genotipo de SNP rs1801020.

Mutaciones Alteradoras de uORF Relacionadas con Enfermedades Humanas.

Además de los puORFs comunes, las mutaciones raras que alteran los uORFs pueden causar enfermedad, como se ha demostrado en 3 genes (Tabla 2). Para identificar sistemáticamente casos adicionales, buscamos en la Base de Datos de Mutaciones Genéticas Humanas (19) mutaciones que introducen o eliminan UORFOS. Encontramos 11 mutaciones adicionales (Tabla 2) que se detectaron mediante resecuenciación en genes relacionados con la enfermedad conocidos en pacientes afectados (32-42). Estas mutaciones que alteran el uORF no estaban presentes en los controles poblacionales (32-42), y eran la única mutación detectada en los exones secuenciados, o eran heterocigotos compuestos con una mutación sin sentido/sin sentido (Tabla 2). La presentación del paciente fue consistente con un fenotipo recesivo en 3 de los 4 casos heterocigotos compuestos (37, 38, 42, 43), y fue ambiguo en el caso restante (36). Hasta donde sabemos, el vínculo mecanicista entre la mutación génica y los UORF no se había propuesto previamente para SRY (32), IRF6 (33) o GCH1 (34).

Ver esta tabla:

  • Vista en línea
  • Vista emergente
Cuadro 2

Mutaciones que alteran el uORF relacionadas con la enfermedad

Para evaluar si las mutaciones que alteran la uORF influyeron en la expresión de proteínas, utilizamos construcciones de reporteros de luciferasa para probar las mutaciones de los pacientes en 5 genes (HBB, PRKAR1A, IRF6, SRY y SPINK1). Las mutaciones que alteran la uORF en estos genes redujeron los niveles de ARNm de luciferasa en <20% y los niveles de actividad de la luciferasa en un 70-100% (Fig. 3 E I). Estos efectos sobre los niveles de proteínas fueron muy significativos (P < 2e−12) y fueron mayores que en los otros uROFs probados experimentalmente (P = 4e−4). Por lo tanto, estas mutaciones que alteran el uORF causan niveles dramáticamente reducidos de proteínas en nuestros ensayos reporter, lo que sugiere que de hecho pueden ser responsables de los fenotipos de la enfermedad observados.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.