quarta-feira, 31 de janeiro de 2018

Pseudogenes - Uma Introdução

Muito se fala nos pseudogenes nos debates Evolução x Criação/DI, mas o fato é que muitas vezes os envolvidos têm um entendimento muito superficial a respeito deles. O objetivo deste post (e do próximo) é esclarecer alguns aspectos. Espero que ao fim ninguém saia daqui dizendo que pseudogenes não existem. 

Definição

Uma definição de pseudo gene é a seguinte (Tutar, Y., 2012):

"Pseudogenes  são cópias de genes que possuem deficiências na codificação devido a frameshifts e códons de parada prematuros, mas que lembram genes funcionais."

Muitos focam na palavra "funcionais", mas talvez essa não seja a melhor coisa a se fazer. Vamos chegar na questão da "funcionalidade", mas antes é importante compreender o que frameshifts e códons de parada prematuros significam. 

Códon de Parada Prematuro

É fácil compreender por meio de um exemplo hipotético, como mostrado na figura 1. 

Figura 1. Exemplo de Códon de Parada Prematuro. (a) DNA é transcrito em mRNA que é, então, traduzido em uma sequência de aminoácidos que compõem uma proteína funcional. Note o códon CGA, que é traduzido em Arg (arginina) de acordo com o código genético padrão. (b) Uma mutação converteu o códon CGA em UGA, que indica o término da tradução precocemente. A proteína resultante, que antes possuía 7 aminoácidos, agora só possui 3, tornando muito improvável que ele continue desempenhando a sua função. Imagem composta a partir das originais disponíveis aqui.

Frameshifts

Frameshift é um tipo de mutação que geralmente resulta na produção de um proteína incapaz de exercer sua função. Mais especificamente, um frameshift é a inserção ou deleção de um número de nucleotídeos que não é múltiplo de 3. A figura 2 é um exemplo hipotético. 

Figura 2. Frameshift. A inserção que resulta em um frameshift muda consideravelmente a sequência de aminoácidos que formarão a proteína, e por isso é improvável que o produto proteico seja capaz de realizar a função normal. Observe que a inserção de nucleotídeos em número múltiplo de 3 não altera drasticamente o produto final, e não é considerada um frameshift.  Imagem original disponível aqui.

Espero que tenha ficado mais claro a razão da incapacidade dos pseudogenes, quando formados, na realização das suas funções. A estrutura foi corrompida, por isso o pseudogene raramente pode realizar a função que o gene parental (aquele que deu origem ao pseudogene) realiza. Mas podemos ir além. Não existe somente um tipo de  pseudogene. A seguir, vamos conhecer os tipos de pseudogenes, como são formados, e alguns exemplos. 

Tipos de Pseudogenes

Pseudogenes Processados


Os pseudogenes processados se formam quando mRNA maduro, isto é, que foi processado após a transcrição, é usado para polimerizar DNA complementar de fita dupla, cDNA, que é por fim integrado no genoma. O processo é descrito de maneira geral na figura 3. 
Figura 3. Formação de um pseudogene processado a partir de um gene eucariótico que codifica para uma proteína. Uma RNA polimerase II (enzima que polimeriza RNA) vai se ligar ao promotor e transcrever o gene. Os íntrons são removidos, uma cap 5' e uma cauda poli-A 3' são adicionados, o que culmina na formação de um mRNA maduro. Agora um evento raro acontece: uma enzima chamada transcriptase revesa irá polimerizar cDNA a partir do mRNA. DNA será sintetizado, formando um DNA de fita dupla que, então, será inserido no genoma em alguma posição onde se encontra uma sequência alvo. Um pseudogene processado é o resultado. Imagem originalmente publicada aqui.

Quatro são as características mais comuns em pseudogenes processados (Tutar, Y., 2012):

1. Ausência de íntrons;
2. Ausência de promotor 5';
3. Repetições diretas flanqueando o pseudogene, resultantes da duplicação da sequência alvo; e
4. Marca de poliadenilação 3', que é gerada a partir da cauda poli-A. 

Com exceção de pseudogenes formados a partir de genes de classe III (os quais possuem promotores internos, isto é, o promotor acaba sendo transcrito), os pseudogenes processados são mortos no momento da formação, pois sequer podem ser transcritos. Com o tempo, mutações vão sendo acumuladas, destruindo mais ainda o pseudogene. Raramente, um pseudogene processado pode voltar a ser funcional, seja para desempenhar a mesma função ou outra, mas nada altera o fato de que ele guarda as marcas indeléveis, como diria Darwin, da sua formação. Não deixa de ser um pseudogene.  

Um exemplo de pseudogene processado é o Ubbp4, encontrado no genoma do Rattus norvegicus

Pseudogenes Duplicados

Como já discutimos em A Origem de Novos Genes - Duplicação, pseudogenes podem se originar de genes que foram duplicados. Os pseudogenes duplicados surgem quando ocorre crossing over desigual entre cromossomos homólogos e posterior acúmulo de mutações que corrompem uma das cópias, enquanto a outra se mantém ativa e bem funcional. 

"Apesar de ter um promotor original ou outras regiões reguladoras, as sequências de íntros e éxons intactas, a recombinação errônea e as subsequentes mutações (códons de para mal localizados, inserções, deleções) encaminham [os pseudogenes] para o caminho da não-funcionalidade. Os pseudogenes duplicados são frequentemente são encontrados em grupos de sequências funcionais análogas no mesmo cromossomo ou adjacentes aos seus genes funcionais parálogos e até podem ser inseridos em um cromossomo diferente."
(Sen & Gosh, 2013)


Um exemplo clássico desse tipo é o pseudogene humano alfa-globina 1 (psi alfa 1). 

"A comparação desta sequência com um gene de alfa-globina humano normal (alfa 2) revela que psi alfa 1 contém tanto uma mutação no códon iniciador e deleções frameshift que evitariam a produção de um polipeptídeo de alfa-globina. psi alfa 1 contém duas sequências intervenientes com tamanhos e locais característicos dos genes de alfa-globina de mamífero. No entanto, a alteração ou ausência de sequências de splicing putativo sugere que um transcrito primário de psi alfa 1 não seria processado para produzir um mRNA maduro. A relação de psi alfa 1 com os genes de alfa-globina duplicados adjacentes alfa 1 e alfa 2 foi investigada no nível da sequência de nucleotídeos. psi alfa 1, alfa 2 e alfa 1 possuem a sequência GCCTGTGTGTGCCTG diretamente após os respectivos locais de adição da poli (A). A análise de sequência das regiões flanqueadoras 3' de alfa 2 e alfa 1 revela ainda que as unidades de duplicação de genes de alfa-globina são exatamente limitadas por esta sequência homóloga."
(Proudfoot & Maniatis, 1980)

 Pseudogenes Unitários

São órfãos, por assim dizer. Enquanto que para os outros tipos de pseudogenes até agora apresentados nós conseguimos encontrar homólogos funcionais no genoma do organismo, o mesmo não pode ser feito com os pseudogenes unitários. E é por isso que são chamados unitários. Assim como os pseudogenes duplicados, eles mantém a estrutura básica de um gene, possuindo íntrons e éxons.  

Um exemplo clássico desse tipo de pseudogene é o GULOP. Este pseudogene é não-funcional em humanos e outros primatas. O gene funcional correspondentes em mamíferos codifica uma enzima chamada de L-gulonolactona oxidase, que é responsável por catalisar o passo final na síntese de ácido ascórbico (vitamina C). O GULOP, em comparação com sua contraparte funcional, carece de 5 dos 12 éxons.  

Pseudogenes Polimórficos

Esta é na verdade uma sub-categoria. Pseudogenes polimórficos podem ser visto como exemplos de pseudogenes que estão "roubando o lugar" da sua contraparte funcional. Como ressalta Larry Moran em seu (ótimo) blog Sandwalk:

"Os casos mais interessantes são genes funcionais de cópia única em um locus específico que estão segregando com versões inativas do gene no mesmo locus. Estes são pseudogenes que podem estar a caminho de se tornarem pseudogenes unitários. É claro que, em todos os casos de pseudogenes polimórficos, há sempre a possibilidade de que o alelo pseudogene seja perdido por derivação genética aleatória em vez de ser fixado." 

Um exemplo muito interessante é o que está envolvido na determinação de um tipo sanguíneo humano. Há um gene em humanos que codifica N-acetilaminogalactosil-transferase. A versão dita normal deste gene codifica uma N-acetilaminogalactosil-transferase que liga o açúcar GalNAc à proteínas de superfície do eritrócito (hemácia). GalNac ligada à proteína de superfície é batizado de antígeno A, e por isso as pessoas com essa configuração são ditas de sangue tipo-A. Um outro alelo, com tipo de mutação, codifica uma enzima que agora passa a ligar galactose ao invés de GalNac. Essa situação caracteriza o sangue tipo B. Por fim, existe ainda um terceiro alelo. E neste caso trata-se de um pseudogene, que é não-funcional. Assim, nenhum açúcar se liga aos receptores de superfície. E isso caracteriza o sangue tipo-O.  

Seria cômico uma pessoa de sangue tipo-O negar a existência de pseudogenes.


 Conclusão

Espero ter ficado claro que a identificação de um pseudogene não é apenas identificar se há ou não função. Embora a maioria seja não-funcional, existem exemplos de pseudogenes funcionais na literatura. Mas isso nada muda o fato de que são pseudogenes. Sabemos como pseudogenes são formados. Em outras palavras, é a formação, e não a função (ou ausência dela) que define um pseudogene.  

Referências de Periódicos

Proudfoot NJ, Maniatis T. The structure of a human alpha-globin pseudogene and its relationship to alpha-globin gene duplication. Cell. 1980 Sep;21(2):537–544 [PubMed]
 

Sen, Kamalika & Ghosh, Tapash. (2013). Pseudogenes and their composers: Delving in the 'debris' of human genome. Briefings in functional genomics. 12. . 10.1093/bfgp/elt026.

Tutar Y. Pseudogenes. Comparative and Functional Genomics. 2012;2012:424526. doi:10.1155/2012/424526.

Outras fontes:

Sobre os tipos de pseudogenes: http://sandwalk.blogspot.com.br/2015/11/different-kinds-of-pseudogenes-are-they.html

Informações sobre o GULOP: https://www.ncbi.nlm.nih.gov/gene/2989

Informações sobre o Ubbp4: https://www.ncbi.nlm.nih.gov/gene/498837

Códon de parada prematuro: https://en.wikipedia.org/wiki/Nonsense_mutation

domingo, 28 de janeiro de 2018

Em Defesa do DNA Lixo - Palazzo & Gregory

Palazzo AF, Gregory TR (2014) The Case for Junk DNA. PLoS Genet 10(5): e1004351. https://doi.org/10.1371/journal.pgen.1004351. Tradução: João Lucas.

Visão geral
 
Com o advento de tecnologias de sequenciamento profundo e a capacidade de analisar as sequências do genoma e transcriptoma completas, tem havido um crescente interesse em explorar funções putativas da fração muito grande do genoma comumente referida como "DNA lixo". Já que esta é uma questão de considerável importância na biologia do genoma, há uma tendência infeliz para pesquisadores e escritores de ciência proclamar regularmente o desaparecimento do DNA lixo, sem abordar adequadamente algumas das questões fundamentais que primeiro levaram ao surgimento do conceito. Nesta revisão, fornecemos uma visão geral dos principais argumentos que foram apresentados em apoio da noção de que uma grande parte da maioria dos genomas eucariotos não possui uma função a nível de organismo. Alguns deles são baseados em observações ou princípios genéticos básicos que têm décadas de idade, enquanto outros resultam de novos conhecimentos sobre processos moleculares, como transcrição e regulação de genes.

Introdução
A busca por função no genoma
 

Sabe-se há várias décadas que apenas uma pequena fração do genoma humano é composta por sequências codificadoras de proteínas e que pelo menos alguns DNA não codificantes possuem importantes funções biológicas. Além de codificar éxons, o genoma contém sequências que são transcritas em moléculas de RNA funcionais (por exemplo, tRNA, rRNA e snRNA), regiões reguladoras que controlam a expressão gênica (por exemplo, promotores, silenciadores e potenciadores), origens de replicação e repetições que desempenham papéis estruturais no nível cromossômico (por exemplo, telômeros e centrômeros).

Novas descobertas sobre sequências potencialmente importantes entre a maioria não-codificadora de proteína do genoma estão se tornando mais prevalentes. De longe, o esforço mais conhecido para identificar regiões funcionais no genoma humano é o projeto Enciclopédia de Elementos de DNA (ENCODE) recentemente concluído, cujos autores fizeram a afirmação notável de que uma "função bioquímica" poderia ser atribuída a 80% de o genoma humano [2]. Relatos de que a ENCODE tinha refutado a existência de grandes quantidades de DNA lixo no genoma humano receberam considerável atenção da mídia [3], [4]. As críticas de que essas afirmações se basearam em uma definição extremamente vaga de "função" logo se seguiram [5] – [8] (para uma discussão sobre os conceitos de função relevantes, veja [9]), e continua o debate sobre a interpretação mais apropriada dos resultados da ENCODE. No entanto, a excitação e a contração subsequente serviram para ilustrar o interesse generalizado entre cientistas e não especialistas em determinar o quanto do genoma humano é funcionalmente significativo ao nível do organismo.

A origem do "DNA lixo"
 
Embora o termo "DNA lixo" já estivesse em uso já na década de 1960 [10] – [12], a origem do termo é geralmente atribuída a Susumu Ohno [13]. Como Ohno apontou, a duplicação de genes pode aliviar a restrição imposta pela seleção natural em mudanças em importantes regiões gênicas, permitindo que uma cópia mantenha a função original enquanto a outra sofre mutação. Raramente, essas mutações acabarão por ser benéficas, e um novo gene pode surgir ("neofuncionalização") [14]. Na maioria das vezes, no entanto, uma cópia sustenta uma mutação que elimina sua capacidade de codificar uma proteína funcional, transformando-a em um pseudogene. Essas sequências são o que Ohno inicialmente se referiu como "lixo" [13], embora o termo tenha sido ampliado rapidamente para incluir muitos tipos de DNA não-codificantes [15]. Hoje, o "DNA lixo" é frequentemente usado no sentido amplo de se referir a qualquer sequência de DNA que não desempenha um papel funcional no desenvolvimento, na fisiologia ou em alguma outra capacidade a nível de organismo. Este sentido mais amplo do termo está no centro do debate mais atual sobre a quantidade — ou mesmo a existência — de "DNA lixo" nos genomas dos seres humanos e de outros organismos.

Agora se tornou um clichê nas histórias da mídia e artigos de periódicos começar com a afirmação simplista de que a maioria ou todo o DNA não-codificante foi "por muito tempo desmerecido como lixo inútil". A implicação, é claro, é que a pesquisa atual está revelando função para muito do suposto lixo que foi imprudentemente ignorado como biologicamente desinteressante pelos pesquisadores do passado. No entanto, simplesmente não é verdade que as funções potenciais para o DNA não-codificante foram ignoradas até recentemente. Na verdade, vários dos primeiros comentaristas consideraram a noção de que grandes faixas do genoma não eram funcionais como sendo "repugnante" [10], [16], e as possíveis funções foram discutidas sempre que um novo tipo de sequência não-codificadora de proteína era identificada (incluindo pseudogenes , elementos transponíveis, DNA satélite e íntrons; para uma compilação da literatura relevante, veja [17]).

Importante, o conceito de DNA lixo não se baseou na ignorância sobre os genomas. Pelo contrário, o termo refletiu detalhes conhecidos sobre a variabilidade do tamanho do genoma, o mecanismo de duplicação de genes e degradação mutacional e a teoria da genética populacional. Além disso, cada uma dessas observações e considerações teóricas permanece válida. Nesta revisão, examinamos várias linhas de evidência — tanto empíricas quanto conceituais — que sustentam a noção de que uma porcentagem substancial do DNA em muitos genomas eucariotos não possui uma função a nível de organismo e que o conceito de DNA lixo permanece viável pós-ENCODE.

Tamanho do Genoma e "O Teste da Cebola"
 
Existem vários pontos-chave a serem entendidos em relação à diversidade do tamanho do genoma entre os eucariotos e sua relação com o conceito de DNA lixo. Primeiro, o tamanho do genoma varia enormemente entre as espécies [18], [19]: pelo menos 7.000 vezes entre os animais e 350 vezes, mesmo dentro dos vertebrados. Em segundo lugar, o tamanho do genoma varia independentemente das noções intuitivas da complexidade do organismo ou do número presumido de genes que codificam proteínas (Figura 1). Por exemplo, um genoma humano contém oito vezes mais DNA do que o de um baiacu, mas 40 vezes menos do que o de um peixe pulmonado. Em terceiro lugar, os organismos que têm genomas muito grandes não são poucos em número, nem são outliers — por exemplo, dos 200 genomas de salamandras analisados até agora, todos estão entre quatro e 35 vezes maiores do que o genoma humano [18]. Em quarto lugar, mesmo espécies estreitamente relacionadas com propriedades biológicas muito similares e o mesmo nível de ploidia podem diferir significativamente no tamanho do genoma.

Figura 1. Resumo dos conteúdos de DNA nuclear haplóide ("tamanhos do genoma") para vários grupos de eucariotos.Este gráfico é baseado em dados para cerca de 10 000 espécies [18], [19]. Existe uma ampla gama de tamanhos de genoma, mesmo entre espécies semelhantes em desenvolvimento, e não há correspondência entre o tamanho do genoma e a complexidade geral do organismo. Os seres humanos, que têm um genoma de tamanho médio para um mamífero, são indicados por uma estrela. Observe a escala logarítmica.

Essas observações representam um desafio importante para qualquer afirmação de que a maioria do DNA eucariótico é funcional ao nível do organismo. Essa lógica talvez seja melhor ilustrada invocando "o teste da cebola" [20]. A cebola doméstica, Allium cepa, é uma planta diploide (2n = 16) com um tamanho de genoma haplóide de aproximadamente 16 bilhões de pares de bases (16 Gbp), ou cerca de cinco vezes maior que os humanos. Embora qualquer número de espécies com genomas grandes possam ser escolhidos para essa comparação, o teste da cebola simplesmente pergunta: se a maioria do DNA eucariótico é funcional no nível do organismo, seja para regulação de genes, proteção contra mutações, manutenção de estrutura cromossômica ou qualquer outro papel desse tipo, então, por que uma cebola exige cinco vezes mais do que um ser humano? Importante, a comparação não se restringe às cebolas versus humanos. Poderia ser tão simplesmente entre baicus e peixes pulmonados, que diferem em ~ 350 vezes, ou membros do gênero Allium, que possuem mais do que um intervalo de 4 vezes no tamanho do genoma e que não é o resultado da poliploidia [21]. 

Em resumo, a noção de que a maioria do DNA não-codificante eucariótico é funcional é muito difícil de conciliar com a enorme diversidade no tamanho do genoma observado entre as espécies, incluindo alguns táxons relacionados. O teste da cebola é meramente uma reformulação desta questão, que tem sido bem conhecida pelos biólogos do genoma por muitas décadas [18].

Composição do Genoma

Outra consideração importante é a composição dos genomas eucarióticos. Longe de ser composto de "matéria escura" misteriosa, as características das sequências que constituem 98% ou mais do genoma humano que não-codificam proteína são geralmente bem compreendidas.

Elementos transponíveis
 
De longe, o tipo dominante de DNA não-gênico são elementos transposíveis (ETs), incluindo vários retroelementos bem descritos, como elementos nucleares intercalares curtos e longos (SINEs e LINEs), retrovírus endógenos e transpósons de DNA cortar-e-colar. Devido à sua capacidade de aumentar em número de cópias, os elementos transponíveis foram descritos há muito tempo como "parasitas" ou "egoístas" [22], [23]. No entanto, a grande maioria desses elementos são inativos em seres humanos, devido a uma fração muito grande ser altamente degradada por mutação. Devido a essa degeneração, as estimativas da proporção do genoma humano ocupado por ETs variaram amplamente, entre metade e dois terços [24], [25]. Os genomas maiores, como os de salamandras e peixes pulmonados, quase certamente contêm uma quantidade ainda mais enorme de DNA de elementos transponíveis [26], [27].

Muitos exemplos foram encontrados em que ETs assumiram papéis regulatórios ou outros funcionais no genoma [28]. Em reconhecimento das interações mais complexas entre elementos transponíveis e seus hospedeiros, Kidwell e Lisch propuseram uma expansão do quadro de "parasitismo" onde cada ET pode ser classificado ao longo de um espectro, do parasitismo ao mutualismo [29]. No entanto, há evidências de função a nível de organismo para apenas uma pequena minoria de sequências de ET. Portanto, não é óbvio que as explicações funcionais podem ser extrapoladas a partir de um pequeno número de exemplos específicos para todos os ETs dentro do genoma.

DNA altamente repetitivo
 
Outra grande fração do genoma consiste em DNA altamente repetitivo. Essas regiões são extremamente variáveis, mesmo entre indivíduos da mesma população (daí o uso deles como "impressões digitais de DNA") e podem expandir-se ou contrair-se por meio de processos como crossing over desigual ou deslizamento de replicação. Muitas repetições são pensadas como sendo derivadas de ETs truncados, mas outros consistem em matrizes em tandem de di e trinucleótidos [30]. Tal como acontece com os ETs, algumas sequências altamente repetitivas desempenham um papel na regulação de genes (por exemplo, [31]). Outros, tais como repetições associadas teloméricas e centroméricas [32], [33], desempenham papéis críticos na manutenção cromossômica. Apesar disso, atualmente não há evidências de que a maioria dos elementos altamente repetitivos sejam funcionais.

Íntrons
 
De acordo com o Gencode v17, cerca de 40% do genoma humano é composto por regiões intrônicas; No entanto, esse número provavelmente é uma superestimação, pois inclui todos os eventos anotados. Também é importante notar que uma grande fração de ETs e elementos repetitivos são encontrados nos íntrons. Embora os íntrons possam aumentar a diversidade de produtos protéicos, modulando o splicing alternativo, também é claro que a grande maioria da seqiência intrônica evolui de forma não restrita, acumulando mutações na mesma proporção que as regiões neutras. Embora o tamanho médio do íntron em seres humanos seja de ~ 1,5 kb [30], os dados sugerem que a maioria da sequência restrita é confinada aos primeiros e últimos 150 nucleótideos [34].

Pseudogenes
 
O genoma humano também abriga um grande número de pseudogenes. As estimativas do número total variam de 12.600 a 19.700 [35]. Estes incluem pseudogenes "clássicos" (duplicatas diretas, do tipo imaginado por Ohno [13]) e pseudogenes "processados", que são transcritos reversamente a partir do mRNA [36]. Mais uma vez, embora alguns pseudogenes tenham sido cooptados para uma função ao nível de organismo (por exemplo, ver [37]), a maioria simplesmente está evoluindo sem restrições seletivas em suas sequências e provavelmente não tem função [38].

Sequências conservadas
 
Várias análises de conservação de sequência entre humanos e outros mamíferos descobriram que cerca de 5% do genoma é conservado [1], [39] – [42]. É possível que 4% adicionais do genoma humano estejam sob pressão de seleção linhagem-específica [39]; no entanto, esta estimativa parece ser um pouco questionável [43], [44] (veja também [45]). Ignorando esses problemas, a idéia de que 9% do genoma humano mostra sinais de funcionalidade é realmente consistente com os resultados do ENCODE e outras análises de genoma em grande escala.

Além das sequências codificadoras de proteínas (incluindo regiões não traduzidas associadas), que compõem 1,5% -2,5% do genoma humano [24], os dados do ENCODE sugerem que os longos RNAs não-codificantes conservados (lncRNA) são gerados a partir de cerca de 9 000 loci, que soma menos de 0,4% adicional [46], [47]. Assim, mesmo que um vasto e novo mundo não explorado de RNA não-codificante funcional seja descoberto, isso provavelmente será transcrito a partir de uma pequena fração do genoma humano.

À primeira vista, as sequências que são vinculadas por fatores de transcrição (TFs) parecem ser muito abundantes, constituindo cerca de 8,5% do genoma de acordo com ENCODE [2]. Este número, no entanto, é uma estimativa de regiões que são hipersensíveis ao tratamento com DNase I devido ao deslocamento de nucleossomas por TFs. Conforme assinalado por outros [6], essas regiões são anotadas como sendo de várias centenas de nucleótideos de comprimento e, portanto, são muito maiores do que o tamanho real de motifs individuais de ligação à TFs, que normalmente são de 10 pb de comprimento [48]. Segundo as próprias estimativas da ENCODE, menos da metade das bases nucleotídocas nessas regiões de hipersensibilidade de DNase I contêm motifa reais de reconhecimento de TF [2], e apenas 60% estão sob seleção purificadora [49]. Outros descobriram que os eventos de ligação a TF fracos e transitórios são rotineiramente identificados por experiências de cromatina IP apesar do fato de que elas não contribuem significativamente para a expressão gênica [50] – [53] e são mal conservadas [53]. Dado que as experiências realizadas em um número diversificado de sistemas eucarióticos encontraram apenas uma pequena correlação entre os eventos de ligação ao TF e a expressão do mRNA [54], [51], parece que na maioria dos casos, apenas uma fração de locais de ligação ao TF afeta significativamente os locais expressão gênica.

Em resumo, a maioria dos principais constituintes do genoma foram bem caracterizados. A maioria do DNA humano consiste em sequências repetitivas e degradadas mutacionalmente. Existem exemplos inequívocos de sequências não-codificadoras de proteína de vários tipos que foram cooptadas para funções a nível de organismo na regulação de genes, estrutura cromossômica e outros papéis, mas, no presente, a evidência da literatura publicada sugere que estes representam uma pequena minoria da genoma humano.

Forças evolutivas 
Para entender o estado atual do genoma humano, precisamos examinar como ele evoluiu, e como Michael Lynch escreveu uma vez: "Nada na evolução faz sentido exceto à luz da genética populacional" [55]. Infelizmente, os conceitos que foram gerados por este campo não foram amplamente reconhecidos em outros domínios das ciências da vida. Em particular, o que é subestimado por muitos especialistas em não-evolução é que grande parte da evolução molecular nos eucariotos é principalmente o resultado da deriva genética ou a fixação de mutações neutras. Esta visão tem sido amplamente apreciada por biólogos evolutivos moleculares nos últimos 35 anos.

A teoria quase neutra da evolução molecular
 
Um desenvolvimento importante na compreensão de como várias forças evolutivas moldaram genes e genomas eucarióticos vieram com as teorias desenvolvidas por Kimura, Ohta, King e Jukes. Eles demonstraram que os alelos que eram ligeiramente benéficos ou deletérios se comportaram como alelos neutros, desde que o valor absoluto de seu coeficiente de seleção fosse menor que o inverso do tamanho da população "efetiva" [56] – [59]. Em outras palavras, é importante ter em mente o tamanho da população quando se pensa se as mutações deletérias estão sujeitas a seleção purificadora.

Também é importante perceber que o tamanho da população "efetiva" depende de muitos fatores e geralmente é muito menor do que o número total de indivíduos em uma espécie [55]. Para os seres humanos, estima-se que o tamanho histórico efetivo da população seja aproximadamente 10.000, e este é o lado baixo em comparação com a maioria dos metazoários [60]. Dado os números baixos globais para os organismos multicelulares em geral, esperamos que a seleção natural seja impotente para impedir o acúmulo de certas alterações genômicas na totalidade da evolução dos metazoários. Um tipo de mutação que se encaixa nesta descrição é inserção intergênica, seja ele elementos transposíveis, pseudogenes ou sequência aleatória [55]. A criação e a perda de motifs de ligação à TFs ou sítio de início de transcrição crípticos nessas mesmas regiões intergênicas serão igualmente invisíveis para a seleção natural, desde que não alterem drasticamente a expressão de quaisquer genes próximos ou causem a produção de transcritos tóxicos estáveis. Assim, um princípio central da teoria quase neutra da evolução molecular é que as sequências de DNA estranhas podem estar presentes nos genomas, desde que não tenham impacto significativo na aptidão do organismo.

Carga genética
 
Reconhece-se há muito tempo que existe um limite para o número de mutações deletérias que um organismo pode sustentar por geração [61], [62]. A presença dessas mutações geralmente não é prejudicial, porque os organismos diplóides geralmente requerem apenas uma cópia funcional de qualquer gene. No entanto, se a taxa em que essas mutações são geradas for maior do que a taxa em que a seleção natural pode eliminá-las, então os genomas coletivos dos organismos nas espécies sofrerão um colapso quando o número total de alelos deletérios aumentarem com cada geração [63]. Esta taxa é aproximadamente uma mutação deletéria por geração. Neste contexto, fica claro que a taxa de mutação global colocaria um limite superior na quantidade de DNA funcional. Atualmente, a taxa de mutação em seres humanos é estimada em algum lugar entre 70-150 mutações por geração [64], [65]. Por esta linha de raciocínio, estimaríamos que, no máximo, apenas 1% dos nucleotídeos no genoma são essenciais para a viabilidade de uma maneira sequência-específica estrita. No entanto, modelos computacionais mais recentes demonstraram que os genomas poderiam sustentar múltiplas mutações ligeiramente deletérias por geração [66]. Usando métodos estatísticos, estima-se que os seres humanos sustentem 2.1-10 mutações deletérias por geração [66] - [68]. Esses dados sugerem que, no máximo, 10% do genoma humano exibe função detectável de nível de organismo e inversamente que pelo menos 90% do genoma consiste em DNA lixo. Essas figuras concordam com as medidas de conservação do genoma (~9%, ver acima) e são incompatíveis com a visão de que 80% do genoma é funcional no sentido implícito da ENCODE. Continua a ser possível que grandes quantidades de DNA não-codificante possuam papéis estruturais ou outros independentes da sequência de nucleotídeos, mas não é óbvio como isso seria conciliado com o "teste de cebola".

A evolução do núcleo 
Ao lidar com a evolução de qualquer linhagem, é preciso também ter em mente eventos únicos, também conhecidos como contingências históricas, que restringem e moldam as trajetórias evolutivas subsequentes [69]. Um desses eventos-chave em nossa própria ascendência foi a evolução do núcleo eucariótico. Um exame adicional de por que o núcleo evoluiu e como esta função celular alterada pode gerar insights importantes sobre a forma atual do genoma eucariótico.

Um evento importante no princípio da evolução eucariótica foi o desenvolvimento de uma relação simbiótica entre o progenitor  α-proteobactéria das mitocôndrias e um hospedeiro semelhante a uma arqueobacteria [70], [71]. Tal como acontece com a maioria das organelas endossimboticamente derivadas  [72], o DNA foi transferido das mitocôndrias para o hospedeiro. Desta forma, os íntrons do Grupo II, que ainda se encontram nas mitocôndrias e α-proteobactérias [73], invadiram o genoma do hospedeiro. Os íntrons do Grupo II são fragmentos de DNA parasitários que se replicam quando são transcritos, tipicamente como parte de um transcrito maior. O íntron então se dobra em uma ribozima catalítica que se separa da transcrição do precursor e depois se reinsere em um novo locus genômico ao reverter a reação splicing. Importante, fragmentos funcionais de íntrons do Grupo II podem unir as versões inativas em uma reação de trans-splicing [74], [75]. Conforme descrito em outro lugar, é provável que os íntrons do Grupo II tenham proliferado e evoluído em duas populações: cópias inativadas, que poderiam ser empalhadas em trans, e fragmentos ativos que promovem o splicing do grupo anterior. Este último grupo evoluiu para os snRNAs spliceossomais [75] - [77]. Esta ideia é suportada não apenas por semelhanças estruturais, catalíticas e funcionais entre os íntrons do Grupo II e os snRNAs [78], [79], mas também pelo fato de que a expressão do snRNA U5 resgata  o splicing dos íntrons do Grupo II que não possuem a região similar a U5 correspondente [80].

É provável que a proliferação de trans-splicing desencadeou a segregação espacial do processamento de RNA (o nucleoplasma) da maquinaria de tradução (o citoplasma) [77]. Esta subdivisão garantiu que os mRNAs sofressem o devido splicing antes de encontrarem a maquinaria de tradução. Não só essa segregação impediria os ribossomos da tradução de interferir com a reação de splicing (e vice-versa), mas também evitaria a tradução de mRNAs incompletamente processados, que geralmente codificam proteínas tóxicas [81], [82]. Importante, a segregação da tradução tanto da transcrição como do processamento de RNA proporcionou uma oportunidade para os processos de controle de qualidade nuclear para eliminar transcrições mal processadas e espúrias que não atendiam aos requisitos mínimos de "identidade de mRNA" (veja abaixo) antes que esses RNAs já tivessem encontrado um ribossomo . Isso, por sua vez, permitiu que o DNA intergênico e os locais críticos de início da transcrição se proliferassem com um custo mínimo para a aptidão do organismo. Também deve notar-se que o aumento da regeneração de ATP devido a caminhos metabólicos derivados de mitocôndria proporcionou a energia excedente necessária para suportar uma expansão não apenas no tamanho e nas membranas do genoma [83], [84], mas também na transcrição desperdiçosa. Assim, por vários mecanismos independentes, a aquisição de mitocôndrias provavelmente permitiu a expansão do DNA intergênico não funcional e a evolução de um sistema transcricional ruidoso.

Expressão gênica em eucariotos
 
A transcrição eucariótica é inerentemente barulhenta
 
Uma das descobertas mais discutidas da última década da análise de transcriptoma é que grande parte do genoma metazoário é transcrita em algum nível (embora isso, também, já tenha sido reconhecido em um esboço bruto na década de 1970 [15]). Quando transcriptos nascendos do camundongo foram analisadas por sequenciamento profundo, o número total de leituras que mapeiam para loci intergênicos é quase equivalente ao mapeamento de números para regiões exônicas (Figura 2A, reproduzidas a partir da referência [85]). Isso é consistente com a observação de que uma grande fração do grupo celular da RNA Polymerase II está associada a regiões intergênicas [86] e que a transcrição pode ser iniciada em sequências aleatórias (ver Figura S4 em [87]) e regiões livres de nucleossomos [ 88], [89]. Surpreendentemente, quando se examina o nível estacionário de RNA poliadenilado, mapas muito pouco é mapeado para regiões intergênicas (Figura 2A, 2B, o último reproduzido a partir da referência [46], veja também [85], [90] - [92]). Na verdade, quando se elimina as 9 000 espécies de transcrito que se pensa serem derivadas de lncRNA conservado, a maioria dos RNAs poliadenilados não-coficifantes anotados estão presentes em níveis abaixo de uma cópia por célula e são encontrados exclusivamente no núcleo (Figura 2B). A situação não é melhor no grupo não poliadenilado, na qual a quantidade de lncRNA e RNA intergênico é praticamente insignificante, especialmente no grupo citoplasmático (Figura 2B). Em conunto, esses dados indicam que a maioria dos RNAs intergênicos são degradados quase imediatamente após a transcrição. De acordo com esta ideia, o nível de transcritos intergênicos aumenta quando a maquinaria de degradação de RNA é inibida [93] - [101]. Embora a transcrição pervasiva tenha sido utilizada como argumento contra o DNA lixo [3], [4], na verdade ela está inteiramente de acordo com a idéia de que as regiões intergênicas estão evoluindo sob pouca ou nenhuma restrição, especialmente quando se considera que esta transcrição intergênica é instável.


Figura 2. Níveis de codificação de proteínas e RNAs intergênicos em células de mamíferos. (A) Análise dos níveis de poli (A) + RNA nascentes e total em núcleos de fígado de rato. O RNA nascente (i.e.,associado à polimerase) e poli (A) + RNA foram isolados a partir de núcleos de fígado de rato e analisados por sequenciamento de alto rendimento. As leituras individuais foram categorizadas por sua fonte. Exônico e intrónico são de genes referenciados conhecidos (isto é, genes "RefSeq"), enquanto que os gêneros intergênicos são originários de loci não referenciados (isto é, "não-RefSeq") no genoma do camundongo. Reproduzido a partir de [85]. (B) Função de distribuição cumulativa empírica (ECDF) da expressão da transcrição em cada compartimento celular conforme determinado pelos consórcios ENCODE. Os resultados para RNA que contenham ("polyA +") ou careçam ("polyA-") de uma cauda poli-A são no núcleo e as frações citosólicas são mostradas. Cada linha celular humana que foi analisada é representada por três linhas, uma por cada grupo de RNA (vermelho para RNAs coficadores proteínas, azul para lncRNAs ["não-codificadores"] e verde para transcritos intergênicos ["romance intergênico"]). As linhas indicam a fração cumulativa de RNAs em um determinado agrupamento (eixo-y) que são expressos em níveis iguais ou inferiores às leituras por kilobase por milhão de leituras mapeadas (RPKM) no eixo dos x. Os números totais em cada grupo são os seguintes: genes de referência que codificam proteínas: 20.679, loci produtores de lncRNAs: 9.277 e regiões que produzem transcritos intergênicos: 41.204. As transcrições com níveis de expressão de 0 RPKM foram ajustadas para um valor artificial de 10-6 RPKM, de modo que o início de cada gráfico representa a fração de genes ou loci não expressos. Note-se que 1-4 RPKM é aproximadamente equivalente a uma cópia por célula de cultura de tecidos [46], [129]. Usando essa figura, pode-se facilmente deduzir que a grande maioria dos transcritos intergênicos estão presentes em níveis inferiores a uma cópia por célula. Reproduzido com permissão de [46].
https://doi.org/10.1371/journal.pgen.1004351.g002

Identificando o mRNAs de transcrição intergênica
 
Um tema comum que surgiu a partir do estudo da síntese de mRNA é que vários passos na síntese e processamento de RNA são acoplados bioquimicamente. Em outras palavras, maquinários celulares que participam de uma atividade bioquímica também promovem etapas subsequentes. Por exemplo, durante o splicing do íntro que está mais a 5'most, o spliceossomo colabora com o complexo de ligação do cap-5' para depositar fatores de exportação nuclear na extremidade 5' do transcrito processadp [102], [103], o que ajuda a explicar por que o splicing aumenta a exportação nuclear de mRNA [104] – [106]. Existem inúmeros outros exemplos de acoplamento (para revisões, veja [107] – [111]). 

O objetivo final dessas reações de acoplamento é escolher RNAs que codificam proteína (isto é, mRNA) a partir de transcritos intergênicos [111], [112]. Dado que, em média, os genes codificadores de proteínas têm oito íntrons [30], enquanto a maioria dos transcritos intergênicos anotados pela ENCODE tendem a não ter sofrido splicing [46], os íntrons ajudam a distinguir essas duas populações e, portanto, servem como marcadores de "identidade de mRNA". Esses recursos de identidade do mRNA ativam as reações de acoplamento, que por sua vez promovem o processamento posterior, a exportação nuclear e a tradução de um transcrito particular. Do mesmo modo, outras classes de RNAs funcionais (por exemplo, tRNAs e snRNAs) têm seus próprios elementos de identidade [113]. Em contrapartida, os transcritos que não possuem elementos de identidadei são direcionadas para a degradação. De acordo com este modelo, as moléculas de RNA sem íntrons que têm uma sequência aleatória são pobremente exportadas do núcleo e têm uma meia-vida muito curta [114], [115]. Em contraste, os mRNAs sem íntrons têm motifs especializados que promovem a exportação nuclear [105], [116] – [119].

À luz do fato de que muitos lncRNA funcionais desempenham um papel na regulação da estrutura da cromatina ou da transcrição, não é surpreendente que a maioria se localize no nucleoplasma [46]. Pode-se prever que os lncRNAs contêm um conjunto diferenciado de elementos de identidade que não só servem para prevenir a sua deterioração, mas também retém-los no núcleo. Isto seria especialmente crítico para lncRNAs que são submetidos a splicing. Apesar disso, os elementos que regulam a localização e a estabilidade desses RNAs receberam pouca atenção, mas podem ser informados pela visão de que eles podem ter seus próprios marcadores de identidade.

Também é importante ressaltar que os eucariotos possuem outros mecanismos que degradam os mRNA aberrantes (por exemplo, nonsense-mediated decay) ou limitam a quantidade de transcrição intergênica (por exemplo, heterocromatina). No entanto, os eucariotos parecem ter evoluído uma intrincada rede de reações de acoplamento que são necessárias para lidar com uma grande carga de RNA lixo. Essas descobertas são consistentes com a idéia de que os genomas eucariotos são preenchidos com DNA lixo que é transcrito em um nível baixo.

Uma visão alternativa da transcrição e da conservação?
 
Na tentativa de contrariar o argumento de que a conservação de sequências é um pré-requisito para a funcionalidade, recentemente foi proposto que certos eventos transcricionais possam desempenhar algum papel na regulação da função celular, apesar do fato de que a sequência do produto transcripcional não é restringida [120]. De fato, essa visão está de acordo com os achados de que a transcrição de certos genes de levedura é inibida como consequência da produção de transcritos crípticos instáveis provenientes de promotores a montante e / ou a jusante (para uma revisão, ver [121]). Outros exemplos ligaram a geração de transcritos crípticos instáveis a modificações da cromatina [101], [122], metilação do DNA [123] e estabilidade do DNA [124]. No entanto, não está claro se a maioria dos RNAs não-codificantes instáveis têm algum efeito no DNA ou na cromatina, e muito menos contribuem para a aptidão do organismo. Nos casos em que os eventos transcricionais crípticos e instáveis afetam a expressão gênica, eles geralmente consistem em transcritos curtos que são sintetizados a partir de regiões ao redor dos locais de início da transcrição ou dentro do próprio gene [121]. Na verdade, a maioria dos dados disponíveis são consistentes com o fato de que os sítios de início da transcrição são promíscuos, gerando frequentemente transcrição bidirecional [100], [101], e que processos de acoplamento subsequentes, como a interação entre complexos associados ao promotor e fatores de processamento da extremidade 3', são necessários para impor direcionalidade transcricional adequada [125]. Outras transcrições instáveis funcionam para promover ou manter a formação de heterocromatina na proximidade do local da transcrição, provavelmente porque essas regiões produzem transcrições tóxicas [122]. Embora esta forma de transcrição tenha uma função (isto é, para manter um estado repressivo), não é claro que a eliminação dessas regiões tenha algum efeito sobre o organismo [8]. A transcrição de outros transcritos pouco instáveis, principalmente produzidos a partir de regiões intensificadoras, mostrou promover a expressão gênica [126]; No entanto, novamente, esses "RNAs potenciadores" são transcritos a partir de uma pequena fração do genoma total [127]. Conforme afirmado por outros [128], é imperativo que aqueles que afirmam que a grande maioria da transcrição intergênica é funcional testem suas hipóteses. Na ausência desta evidência, a declaração de que estamos em meio a uma mudança de paradigma no que diz respeito aos genomas eucariotos e à expressão gênica [120] parece prematura.

Observações finais
 
Durante décadas, houve um interesse considerável em determinar qual o papel, se houver, que a maioria do DNA em genomas eucariotos desempenha no desenvolvimento organizacional e na fisiologia. Os dados ENCODE são apenas a contribuição mais recente para um programa de pesquisa de longa data que procurou abordar esta questão. No entanto, a evidência que duvida que a maior parte do genoma humano possui um papel funcional existe há algum tempo. Isso não quer dizer que nenhuma da maioria não-codificadora de proteínas do genoma é funcional — exemplos de sequências funcionais não-codificantes são conhecidos há mais de meio século e até mesmo os primeiros defensores do "DNA lixo" e do "DNA egoísta" previram que outros exemplos seriam encontrados. No entanto, eles também apontaram que as considerações evolutivas, a informação sobre a diversidade do tamanho do genoma e o conhecimento sobre as origens e características dos componentes genômicos não suportam a noção de que todo o DNA deve ter uma função em virtude de sua mera existência. Nada nas pesquisas ou comentários recentes sobre o assunto desafiou essas observações.

Agradecimentos
 
Gostaríamos de agradecer a L. Moran, S. Eddy, D. Graur, R. Hardison, J. Wan e A. Akef pelos comentários úteis sobre o manuscrito.

Referências


1. Birney E, Stamatoyannopoulos JA, Dutta A, Guigó R, Gingeras TR, et al. (2007) Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project. Nature 447: 799–816
2. ENCODE Project Consortium (2012) Bernstein BE, Birney E, Dunham I, Green ED, et al. (2012) An integrated encyclopedia of DNA elements in the human genome. Nature 489: 57–74
3. Ecker JR, Bickmore WA, Barroso I, Pritchard JK, Gilad Y, et al. (2012) Genomics: ENCODE explained. Nature 489: 52–55
4. Pennisi E (2012) Genomics. ENCODE project writes eulogy for junk DNA. Science 337: 1159,
5. Eddy SR (2012) The C-value paradox, junk DNA and ENCODE. Curr Biol CB 22: R898–899
6. Graur D, Zheng Y, Price N, Azevedo RBR, Zufall RA, et al. (2013) On the immortality of television sets: “function” in the human genome according to the evolution-free gospel of ENCODE. Genome Biol Evol 5: 578–590
7. Doolittle WF (2013) Is junk DNA bunk? A critique of ENCODE. Proc Natl Acad Sci U S A 110: 5294–5300
8. Niu D-K, Jiang L (2013) Can ENCODE tell us how much junk DNA we carry in our genome? Biochem Biophys Res Commun 430: 1340–1343
9. Elliott TA, Linquist S, Gregory TR (2014) Conceptual and empirical challenges of ascribing functions to transposable elements. Am Nat In press.
10. Aronson AI, Bolton ET, Britten RJ, Cowie DB, Duerksen JD, et al.. (1960) Biophysics. Year book - Carnegie Institution of Washington (1960). Volume 59. Baltimore, MD: Lord Baltimore Press. pp. 229–289.
11. Ehert CF, de Haller G (1963) Origin, development, and maturation of organelles and organelle systems of the cell surface in Paramecium. J Ultrastruct Res 23: SUPPL6: 1–42.
12. Graur D (2013) The Origin of Junk DNA: A Historical Whodunnit. Judge Starling. Available: http://judgestarling.tumblr.com/post/64504735261/the-origin-of-junk-dna-a-historical-whodunnit. Accessed 23 December 2013.
13. Ohno S (1972) So much “junk” DNA in our genome. In: Smith HH, editor. Evolution of Genetic Systems. New York: Gordon and Breach. pp. 366–370.
14. Ohno S (1970) Evolution by gene duplication. London, New York: Allen & Unwin; Springer-Verlag. 160 p.
15. Comings DE (1972) The structure and function of chromatin. Adv Hum Genet 3: 237–431.
16. Britten RJ, Kohne DE (1968) Repeated sequences in DNA. Science 161: 529–540.
17. Gregory TR (2008) Junk DNA – the quotes of interest series. Available: http://www.genomicron.evolverzone.com/2008/02/junk-dna-quotes-of-interest-series/. Accessed 10 April 2014.
18. Gregory TR (2013) Animal Genome Size Database. Available: http://www.genomesize.com. Accessed 10 April 2014.
19. Bennett MD, Leitch IJ (2012) Plant DNA C-values Database (Release 6.0, Dec. 2012). Available: http://data.kew.org/cvalues/. Accessed 10 April 2014.
20. Gregory TR (2007) The onion test. Available: http://www.genomicron.evolverzone.com/2007/04/onion-test/. Accessed 10 April 2014.
21. Ricroch A, Yockteng R, Brown SC, Nadot S (2005) Evolution of genome size across some cultivated Allium species. Genome Natl Res Counc Can Génome Cons Natl Rech Can 48: 511–520
22. Orgel LE, Crick FH (1980) Selfish DNA: the ultimate parasite. Nature 284: 604–607.
23. Doolittle WF, Sapienza C (1980) Selfish genes, the phenotype paradigm and genome evolution. Nature 284: 601–603.
24. Gregory TR (2005) Synergy between sequence and size in large-scale genomics. Nat Rev Genet 6: 699–708
25. De Koning APJ, Gu W, Castoe TA, Batzer MA, Pollock DD (2011) Repetitive elements may comprise over two-thirds of the human genome. PLoS Genet 7: e1002384
26. Sun C, Shepard DB, Chong RA, López Arriaza J, Hall K, et al. (2012) LTR retrotransposons contribute to genomic gigantism in plethodontid salamanders. Genome Biol Evol 4: 168–183
27. Metcalfe CJ, Filée J, Germon I, Joss J, Casane D (2012) Evolution of the Australian lungfish (Neoceratodus forsteri) genome: a major role for CR1 and L2 LINE elements. Mol Biol Evol 29: 3529–3539
28. Cowley M, Oakey RJ (2013) Transposable elements re-wire and fine-tune the transcriptome. PLoS Genet 9: e1003234
29. Kidwell MG, Lisch DR (2001) Perspective: transposable elements, parasitic DNA, and genome evolution. Evol Int J Org Evol 55: 1–24.
30. Scherer S (2008) A short guide to the human genome. Cold Spring Harbor, N.Y: Cold Spring Harbor Laboratory Press. 173 p.
31. Kunarso G, Chia N-Y, Jeyakani J, Hwang C, Lu X, et al. (2010) Transposable elements have rewired the core regulatory network of human embryonic stem cells. Nat Genet 42: 631–634
32. Hemann MT, Strong MA, Hao LY, Greider CW (2001) The shortest telomere, not average telomere length, is critical for cell viability and chromosome stability. Cell 107: 67–77.
33. Torras-Llort M, Moreno-Moreno O, Azorín F (2009) Focus on the centre: the role of chromatin on the regulation of centromere identity and function. EMBO J 28: 2337–2348
34. Gazave E, Marqués-Bonet T, Fernando O, Charlesworth B, Navarro A (2007) Patterns and rates of intron divergence between humans and chimpanzees. Genome Biol 8: R21
35. Pei B, Sisu C, Frankish A, Howald C, Habegger L, et al. (2012) The GENCODE pseudogene resource. Genome Biol 13: R51
36. Zhang Z, Gerstein M (2004) Large-scale analysis of pseudogenes in the human genome. Curr Opin Genet Dev 14: 328–335
37. Salmena L, Poliseno L, Tay Y, Kats L, Pandolfi PP (2011) A ceRNA hypothesis: the Rosetta Stone of a hidden RNA language? Cell 146: 353–358
38. Zheng D, Gerstein MB (2007) The ambiguous boundary between genes and pseudogenes: the dead rise up, or do they? Trends Genet 23: 219–224
39. Ward LD, Kellis M (2012) Evidence of abundant purifying selection in humans for recently acquired regulatory functions. Science 337: 1675–1678
40. Ponting CP, Hardison RC (2011) What fraction of the human genome is functional? Genome Res 21: 1769–1776
41. Lindblad-Toh K, Garber M, Zuk O, Lin MF, Parker BJ, et al. (2011) A high-resolution map of human evolutionary constraint using 29 mammals. Nature 478: 476–482
42. Cooper GM, Stone EA, Asimenos G (2005) NISC Comparative Sequencing Program (2005) Green ED, et al. (2005) Distribution and intensity of constraint in mammalian genomic sequence. Genome Res 15: 901–913
43. Bray N, Pachter L (2012) Comment on “Evidence of Abundant and Purifying Selection in Humans for Recently Acquired Regulatory Functions”. Cornell University Library arXiv:1212.3076 [q-bio.GN]. Available: http://arxiv.org/abs/1212.3076. Accessed 10 April 2014.
44. Green P, Ewing B (2013) Comment on “Evidence of abundant purifying selection in humans for recently acquired regulatory functions.”. Science 340: 682
45. Ward LD, Kellis M (2013) Response to comment on “Evidence of abundant purifying selection in humans for recently acquired regulatory functions.”. Science 340: 682
46. Djebali S, Davis CA, Merkel A, Dobin A, Lassmann T, et al. (2012) Landscape of transcription in human cells. Nature 489: 101–108
47. Derrien T, Johnson R, Bussotti G, Tanzer A, Djebali S, et al. (2012) The GENCODE v7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression. Genome Res 22: 1775–1789
48. Stewart AJ, Hannenhalli S, Plotkin JB (2012) Why transcription factor binding sites are ten nucleotides long. Genetics 192: 973–985
49. Vernot B, Stergachis AB, Maurano MT, Vierstra J, Neph S, et al. (2012) Personal and population genomics of human regulatory variation. Genome Res 22: 1689–1697
50. Lickwar CR, Mueller F, Hanlon SE, McNally JG, Lieb JD (2012) Genome-wide protein-DNA binding dynamics suggest a molecular clutch for transcription factor function. Nature 484: 251–255
51. Biggin MD (2011) Animal transcription networks as highly connected, quantitative continua. Dev Cell 21: 611–626
52. Li X, MacArthur S, Bourgon R, Nix D, Pollard DA, et al. (2008) Transcription factors bind thousands of active and inactive regions in the Drosophila blastoderm. PLoS Biol 6: e27
53. Paris M, Kaplan T, Li XY, Villalta JE, Lott SE, et al. (2013) Extensive divergence of transcription factor binding in Drosophila embryos with highly conserved gene expression. PLoS Genet 9: e1003748
54. Spitz F, Furlong EEM (2012) Transcription factors: from enhancer binding to developmental control. Nat Rev Genet 13: 613–626
55. Lynch M (2007) The origins of genome architecture. Sunderland Mass.: Sinauer Associates. 494 p.
56. Kimura M (1968) Evolutionary rate at the molecular level. Nature 217: 624–626.
57. King JL, Jukes TH (1969) Non-Darwinian evolution. Science 164: 788–798.
58. Ohta T (1973) Slightly deleterious mutant substitutions in evolution. Nature 246: 96–98.
59. Kimura M (1984) The Neutral theory of molecular evolution. Cambridge [Cambridgeshire]; New York: Cambridge University Press. 367 p.
60. Charlesworth B (2009) Fundamental concepts in genetics: effective population size and patterns of molecular evolution and variation. Nat Rev Genet 10: 195–205
61. Muller HJ (1950) Our load of mutations. Am J Hum Genet 2: 111–176.
62. Knudson AG Jr (1979) Presidential address. Our load of mutations and its burden of disease. Am J Hum Genet 31: 401–413.
63. Lynch M, Conery J, Burger R (1995) Mutational meltdowns in sexual populations. Evolution 49: 1067–1080.
64. Keightley PD (2012) Rates and fitness consequences of new mutations in humans. Genetics 190: 295–304
65. Scally A, Durbin R (2012) Revising the human mutation rate: implications for understanding human evolution. Nat Rev Genet 13: 745–753
66. Lesecque Y, Keightley PD, Eyre-Walker A (2012) A resolution of the mutation load paradox in humans. Genetics 191: 1321–1330
67. Eory L, Halligan DL, Keightley PD (2010) Distributions of selectively constrained sites and deleterious mutation rates in the hominid and murid genomes. Mol Biol Evol 27: 177–192
68. Reed FA, Akey JM, Aquadro CF (2005) Fitting background-selection predictions to levels of nucleotide variation and divergence along the human autosomes. Genome Res 15: 1211–1221
69. Gould SJ (1994) The evolution of life on the earth. Sci Am 271: 84–91.
70. Sagan L (1967) On the origin of mitosing cells. J Theor Biol 14: 255–274.
71. Woese CR (1977) Endosymbionts and mitochondrial origins. J Mol Evol 10: 93–96.
72. Martin W (2003) Gene transfer from organelles to the nucleus: frequent and in big chunks. Proc Natl Acad Sci U S A 100: 8612–8614
73. Ferat JL, Michel F (1993) Group II self-splicing introns in bacteria. Nature 364: 358–361
74. Jarrell KA, Dietrich RC, Perlman PS (1988) Group II intron domain 5 facilitates a trans-splicing reaction. Mol Cell Biol 8: 2361–2366.
75. Stoltzfus A (1999) On the possibility of constructive neutral evolution. J Mol Evol 49: 169–181.
76. Hickey DA, Benkel BF, Abukashawa SM (1989) A general model for the evolution of nuclear pre-mRNA introns. J Theor Biol 137: 41–53.
77. Martin W, Koonin EV (2006) Introns and the origin of nucleus-cytosol compartmentalization. Nature 440: 41–45
78. Toor N, Keating KS, Taylor SD, Pyle AM (2008) Crystal structure of a self-spliced group II intron. Science 320: 77–82
79. Keating KS, Toor N, Perlman PS, Pyle AM (2010) A structural analysis of the group II intron active site and implications for the spliceosome. RNA 16: 1–9
80. Hetzer M, Wurzer G, Schweyen RJ, Mueller MW (1997) Trans-activation of group II intron splicing by nuclear U5 snRNA. Nature 386: 417–420
81. Cali BM, Anderson P (1998) mRNA surveillance mitigates genetic dominance in Caenorhabditis elegans. Mol Gen Genet 260: 176–184.
82. Khajavi M, Inoue K, Lupski JR (2006) Nonsense-mediated mRNA decay modulates clinical outcome of genetic disease. Eur J Hum Genet 14: 1074–1081
83. Lane N, Martin W (2010) The energetics of genome complexity. Nature 467: 929–934
84. Lane N (2011) Energetics and genetics across the prokaryote-eukaryote divide. Biol Direct 6: 35
85. Menet JS, Rodriguez J, Abruzzi KC, Rosbash M (2012) Nascent-Seq reveals novel features of mouse circadian transcriptional regulation. eLife 1: e00011
86. Struhl K (2007) Transcriptional noise and the fidelity of initiation by RNA polymerase II. Nat Struct Mol Biol 14: 103–105
87. White MA, Myers CA, Corbo JC, Cohen BA (2013) Massively parallel in vivo enhancer assay reveals that highly local features determine the cis-regulatory function of ChIP-seq peaks. Proc Natl Acad Sci U S A 110: 11952–11957
88. Cheung V, Chua G, Batada NN, Landry CR, Michnick SW, et al. (2008) Chromatin- and transcription-related factors repress transcription from within coding regions throughout the Saccharomyces cerevisiae genome. PLoS Biol 6: e277
89. Buratowski S (2008) Transcription. Gene expression–where to start? Science 322: 1804–1805
90. Babak T, Blencowe BJ, Hughes TR (2005) A systematic search for new mammalian noncoding RNAs indicates little conserved intergenic transcription. BMC Genomics 6: 104
91. Ramsköld D, Wang ET, Burge CB, Sandberg R (2009) An abundance of ubiquitously expressed genes revealed by tissue transcriptome sequence data. PLoS Comput Biol 5: e1000598
92. Van Bakel H, Nislow C, Blencowe BJ, Hughes TR (2010) Most “dark matter” transcripts are associated with known genes. PLoS Biol 8: e1000371
93. Wyers F, Rougemaille M, Badis G, Rousselle J-C, Dufour M-E, et al. (2005) Cryptic pol II transcripts are degraded by a nuclear quality control pathway involving a new poly(A) polymerase. Cell 121: 725–737
94. Davis CA, Ares M Jr (2006) Accumulation of unstable promoter-associated transcripts upon loss of the nuclear exosome subunit Rrp6p in Saccharomyces cerevisiae. Proc Natl Acad Sci U S A 103: 3262–3267
95. Thiebaut M, Kisseleva-Romanova E, Rougemaille M, Boulay J, Libri D (2006) Transcription termination and nuclear degradation of cryptic unstable transcripts: a role for the nrd1-nab3 pathway in genome surveillance. Mol Cell 23: 853–864
96. Chekanova JA, Gregory BD, Reverdatto SV, Chen H, Kumar R, et al. (2007) Genome-wide high-resolution mapping of exosome substrates reveals hidden features in the Arabidopsis transcriptome. Cell 131: 1340–1353
97. Vasiljeva L, Kim M, Terzi N, Soares LM, Buratowski S (2008) Transcription termination and RNA degradation contribute to silencing of RNA polymerase II transcription within heterochromatin. Mol Cell 29: 313–323
98. Preker P, Nielsen J, Kammler S, Lykke-Andersen S, Christensen MS, et al. (2008) RNA exosome depletion reveals transcription upstream of active human promoters. Science 322: 1851–1854
99. Milligan L, Decourty L, Saveanu C, Rappsilber J, Ceulemans H, et al. (2008) A yeast exosome cofactor, Mpp6, functions in RNA surveillance and in the degradation of noncoding RNA transcripts. Mol Cell Biol 28: 5446–5457
100. Neil H, Malabat C, d' Aubenton-Carafa Y, Xu Z, Steinmetz LM, et al. (2009) Widespread bidirectional promoters are the major source of cryptic transcripts in yeast. Nature 457: 1038–1042
101. Xu Z, Wei W, Gagneur J, Perocchi F, Clauder-Münster S, et al. (2009) Bidirectional promoters generate pervasive transcription in yeast. Nature 457: 1033–1037
102. Masuda S, Das R, Cheng H, Hurt E, Dorman N, et al. (2005) Recruitment of the human TREX complex to mRNA during splicing. Genes Dev 19: 1512–1517
103. Cheng H, Dufu K, Lee C-S, Hsu JL, Dias A, et al. (2006) Human mRNA export machinery recruited to the 5′ end of mRNA. Cell 127: 1389–1400
104. Luo MJ, Reed R (1999) Splicing is required for rapid and efficient mRNA export in metazoans. Proc Natl Acad Sci U S A 96: 14937–14942.
105. Palazzo AF, Springer M, Shibata Y, Lee C-S, Dias AP, et al. (2007) The signal sequence coding region promotes nuclear export of mRNA. PLoS Biol 5: e322
106. Valencia P, Dias AP, Reed R (2008) Splicing promotes rapid and efficient mRNA export in mammalian cells. Proc Natl Acad Sci U S A 105: 3386–3391
107. Maniatis T, Reed R (2002) An extensive network of coupling among gene expression machines. Nature 416: 499–506
108. Buratowski S (2009) Progression through the RNA polymerase II CTD cycle. Mol Cell 36: 541–546
109. Perales R, Bentley D (2009) “Cotranscriptionality”: the transcription elongation complex as a nexus for nuclear transactions. Mol Cell 36: 178–191
110. Moore MJ, Proudfoot NJ (2009) Pre-mRNA processing reaches back to transcription and ahead to translation. Cell 136: 688–700
111. Palazzo AF, Akef A (2012) Nuclear export as a key arbiter of “mRNA identity” in eukaryotes. Biochim Biophys Acta 1819: 566–577
112. Palazzo A, Mahadevan K, Tarnawsky S (2013) ALREX-elements and introns: two identity elements that promote mRNA nuclear export. WIREs RNA 4: 523–533
113. Ohno M, Segref A, Kuersten S, Mattaj IW (2002) Identity elements used in export of mRNAs. Mol Cell 9: 659–671.
114. Dias AP, Dufu K, Lei H, Reed R (2010) A role for TREX components in the release of spliced mRNA from nuclear speckle domains. Nat Commun 1: 97
115. Lei H, Dias AP, Reed R (2011) Export and stability of naturally intronless mRNAs require specific coding region sequences and the TREX mRNA export complex. Proc Natl Acad Sci U S A 108: 17985–17990
116. Huang Y, Steitz JA (2001) Splicing factors SRp20 and 9G8 promote the nucleocytoplasmic export of mRNA. Mol Cell 7: 899–905.
117. Culjkovic B, Topisirovic I, Skrabanek L, Ruiz-Gutierrez M, Borden KLB (2006) eIF4E is a central node of an RNA regulon that governs cellular proliferation. J Cell Biol 175: 415–426
118. Lei H, Zhai B, Yin S, Gygi S, Reed R (2012) Evidence that a consensus element found in naturally intronless mRNAs promotes mRNA export. Nucleic Acids Res
119. Kimura T, Hashimoto I, Nishizawa M, Ito S, Yamada H (2010) Novel cis-active structures in the coding region mediate CRM1-dependent nuclear export of IFN-α 1 mRNA. Med Mol Morphol 43: 145–157
120. Mattick JS, Dinger ME (2013) The extent of functionality in the human genome. HUGO J 7: 2
121. Tisseur M, Kwapisz M, Morillon A (2011) Pervasive transcription - Lessons from yeast. Biochimie 93: 1889–1896
122. Moazed D (2009) Small RNAs in transcriptional gene silencing and genome defence. Nature 457: 413–420
123. Bartolomei MS, Zemel S, Tilghman SM (1991) Parental imprinting of the mouse H19 gene. Nature 351: 153–155
124. Kobayashi T, Ganley ARD (2005) Recombination regulation by transcription-induced cohesin dissociation in rDNA repeats. Science 309: 1581–1584
125. Tan-Wong SM, Zaugg JB, Camblong J, Xu Z, Zhang DW, et al. (2012) Gene loops enhance transcriptional directionality. Science 338: 671–675
126. Ørom UA, Derrien T, Beringer M, Gumireddy K, Gardini A, et al. (2010) Long Noncoding RNAs with Enhancer-like Function in Human Cells. Cell 143: 46–58
127. Andersson R, Gebhard C, Miguel-Escalada I, Hoof I, Bornholdt J, et al. (2014) An atlas of active enhancers across human cell types and tissues. Nature 507: 455–461
128. Bird A (2013) Genome biology: not drowning but waving. Cell 154: 951–952
129. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods 5: 621–628

DNA Lixo: a volta dos que não foram

Nos últimos tempos, quando escrevo algo, geralmente trato de paleontologia. Antes eu dedicava maior atenção ao que acontecia no mundo molecu...