Coelho pré-Cambriano: Como organizamos os seres vivos? - Sistemática nos dias atuais (Parte 4)

Imagem disponível aqui.

ANÁLISES REAIS

No terceiro texto da série (clique aqui para ler) nós fizemos um breve exercício de construção de uma árvore simples dos tetrápodes (os vertebrados terrestres). E, logo no início do texto, eu digo que o exercício seria só para ilustrar a ideia por trás das árvores evolutivas e da lógica cladística, e que as análises reais são muito mais complexas e extensas.

Como exemplo de análise real podemos citar um trabalho de 2013 feito para a ordem Diptera (moscas e mosquitos) que levantou 400 caracteres morfológico, para 42 táxons, sendo muitos dos caracteres multi estado, ou seja, assumindo mais valores que 0 ou 1.[1]

Em um contexto tão amplo, encontrar a árvore mais parcimoniosa seria extremamente trabalhoso, se esse trabalho fosse feito manualmente. Só para termos uma ideia, em uma análise de 9 táxons terminais a quantidade de configurações diferentes de parentesco que podem ser assumidos é de 1.281.892; se acrescentarmos mais um táxon, esse número sobe para 282.137.824. Nesse ritmo rapidamente chegaremos em um número de soluções da ordem do número de átomos no universo, o que significa que é humanamente impossível analisar todas as possibilidades para chegarmos às soluções ótimas.[2]

No início do século passado, a escola fenética (leia o texto 1 aqui para conhecer essa escola), que já tratava com quantidades de dados consideráveis, lidava com seus dados manualmente. Este trabalho era muito complicado de ser realizado e demandava um tempo de trabalho bruto considerável. Em seu surgimento, as análises cladísticas também eram realizadas manualmente, pois esta era a única forma de tratar os dados até então. Porém, com a invenção dos computadores e sua difusão no meio acadêmico, começaram a surgir os primeiros algoritmos computacionais para análise filogenética e, a partir de então, a quantidade de dados possíveis de serem analisados simultaneamente e com maior precisão aumentou de forma exponencial.

MÉTODOS COMPUTACIONAIS

Mesmo computadores, por mais rápidos que sejam (e no início eles definitivamente não eram), têm dificuldades em testar todas as possibilidades possíveis para um conjunto de dados simples, pois como já dito anteriormente, o número de árvores possíveis cresce muito rápido com o incremento de mais táxons. Procurar dentre todas as árvores aquela mais parcimoniosa seria a situação ideal, porém ela é inviável em análises grandes, fazendo com que os programas precisem usar atalhos para achar árvores muito precisas sem a necessidade de rodar por muito tempo os algoritmos. Esses atalhos são chamados de métodos heurísticos.

Não entraremos em detalhes sobre esses métodos aqui, mas o que podemos dizer é que eles basicamente partem de árvores de distância (bem parecidas com aquelas arvores fenéticas, de similaridade par a par) que são rápidas para a máquina calcular e, a partir daí, fazem ajustes e permutações entre ramos para chegar às soluções mais simples e parcimoniosas. Hoje, existem inúmeras técnicas e uma grande quantidade de algoritmos para busca de árvores; estes métodos podem ser acessados por meio de bibliotecas em linguagens de programação como R ou Python e, de forma mais bonitinha e didática, em programas como o Winclada, TNT e o PAUP.[3][4][5]

DNA E SISTEMÁTICA

Assim como a forma dos seres vivos muda com o tempo, partindo de ancestrais comuns, e se diversificando em ramos, também mudam as sequência de "letras" dos genes, por exemplo. As populações atuais partilham um conjunto genético ancestral, que se diversifica e diverge conforme o surgimento dos grupos descendentes por cladogênese. Desta forma, a mesma lógica que a sistemática usa para tratar os atributos morfológicos dos seres vivos (leia o texto 3 para detalhes), pode ser usada para tratar as sequências de DNA dos seres vivos.

Veja abaixo o cladograma.

Pela lógica cladística, A é mais próximo de B em relação a C, o que significa que o último ancestral comum entre eles é mais recente que o ancestral entre A e C (ou B e C) , assim podemos presumir que A é geneticamente mais próximo B do que C.

As diferenças genéticas entre A e C começaram antes, na cladogênese marcada em verde, quando a população x ancestral é separada em duas diferentes e os DNAs das duas populações filhas pararam de se misturar, ou seja, a reprodução entre as populações cessou. Em termos biológicos, dizemos que houve interrupção do fluxo gênico, e a partir desse momento as duas populações seguiram caminhos evolutivos distintos. Enquanto a população ancestral que daria origem a A e B, ancestral y, ainda possuía um conjunto genético único, que só viria a divergir posteriormente, na cladogênese marcada em azul.

DADOS MOLECULARES

Apesar da lógica cladística ser aplicável ao DNA, usar esses dados de fato para reconstruir as filogenias foi um processo que levou muitos anos. Para ser mais exato, passaram-se 24 anos desde a tradução do livro de Hennig em 1966 e as primeiras analises moleculares. Mas não vamos nos adiantar. Comecemos do começo.

Quando a sistemática começa a ser difundida na década de 60, o conhecimento científico das bases moleculares da hereditariedade, e portanto do DNA, ainda engatinhava. Já sabíamos onde ele estava ( dentro do núcleo das células), de que maneira ele, ao menos rudimentarmente, se organizava (em cromossomos), e mais recentemente tínhamos descoberto qual era a sua estrutura, física e quimicamente falando, através das pesquisas de Watson e Crick (devemos sempre lembrar a importância, muitas vezes negligenciada, de Rosalind Franklin para essa descoberta) com cristalografia, maquetes e muita imaginação.[6]

Watson e Crick junto a sua maquete da estrutura do DNA. Imagem disponível aqui.

Porém, apesar de saber que havia uma sequência genética de bases nitrogenadas (ACTG), sequenciar o DNA ainda era um sonho distante naquela época. Então nos deparamos com 2 problemas para utilizar o DNA dos seres vivos para organiza-los: o primeiro é que ainda não se tinham técnicas para acessar as sequências, e segundo, mesmo que tivéssemos seria impossível, naquele momento histórico, lidar com a quantidade cavalar de dados genéticos que um único ser vivo pode conter .

Em 1972 o primeiro gene completo de um vírus bacteriófago foi sequenciado pelo laboratório de Walter Fiers. Também de um bacteriófago em 1977, foi o primeiro sequenciamento de um genoma completo. Porém, esses sequenciamentos ainda eram precários e muito caros, e naquele momento, ainda era impossível utiliza-los para aplicar aos métodos sistemáticos.[7]

Após muitos anos de pesquisa e desenvolvimento de protocolos novos, além da informatização dos processos, o número de bases sequenciadas explodiu e o custo dos sequenciamentos caiu. Assim, tornou-se possível e acessível a utilização de sequências de DNA ou RNA para reconstruir a evolução dos organismos, isto é, filogenias.

Com isso, as primeiras análises foram aparecendo no início da década de 90. As primeiras filogenias utilizavam um ou poucos genes para grandes grupos, como por exemplo o trabalho de Hedges que inferiu a filogenia dos tetrápodes com base nas sequências de RNA ribossômico 18s e 28s em 1990 usando 21 animais.[8]

Artigo disponível aqui.

CONCLUSÃO

Desde o momento em que foi descoberto uma forma de sequenciar o DNA, RNA e proteínas e lidar com os dados através de computadores, a sistemática avançou bastante. Passamos a ter acesso a mais uma fonte de evidência evolutiva e as análises ficaram mais precisas, muitas confusões foram esclarecidas e o refinamento das filogenias aumentou.

Claro que, com muitos esclarecimentos e refinamento, não quero advogar pela supremacia dos dados moleculares sobre os dados morfológicos. Haverá um texto no blog exclusivamente sobre divergências de hipóteses usando diferentes tipos de dados, bem como as vantagens e desvantagens de cada um dos deles.

Por hora, é importante termos em mente que não há dados perfeitos, e que tanto moleculares quanto morfológicos têm sua importância e nos fornecem evidências para reconstruir os grupos naturais e determinar os graus de parentesco evolutivo entre os organismos. Deixemos o confronto e as brigas polarizadas para os fanáticos por religião ou política e vamos tentar fazer com que os dados se complementem e ajudem a melhorar a nossa compreensão sobre o processo evolutivo e os grupos naturais.

Chegamos ao fim de mais um texto da série sobre organização dos seres vivos. Agora já temos uma base interessante sobre a forma como organizamos os seres vivos. Apesar de algumas questões ainda estarem em aberto, já podemos dizer que conhecemos um básico sobre cladistica, e isso nos possibilita falar sobre evolução de qualquer grupo de seres vivos, e em um futuro breve outras séries virão para nos apresentar seres bastante familiares porém sobre uma perspectiva evolutiva, que tanto falta aos nossos livros didáticos.

Essa série de textos ainda não acabou, teremos mais textos sobre sistemática, abordando vários aspectos ainda não mencionados aqui, e que serão bastante esclarecedores, incluindo aspectos polêmicos como os conflitos entre dados moleculares e morfológicos. No próximo texto da série faremos um exercício breve ilustrando como fazemos análises cladísticas com dados moleculares usando um grupo bem interessante: os Primatas.

O texto 5 já foi publicado e você pode ler aqui.

REFERÊNCIAS

1 - The phylogenetic relationships among infraorders and superfamilies of Diptera based on morphological evidence. Lambkin, C et al. ; Systematic Entomology (2013).

2 - Foundations of Systematics and Biogeography. David M. Williams, Malte C. Ebach. Springer Science & Business Media, 19 de nov de 2007

3 - TNT, a free program for phylogenetic analysis. Goloboff, P. ;Farris, J.; C. Nixon, K.

4 - WinClada ver. 1.00. 08. KC Nixon , Ithaca, NY, 2002.

5 - PAUP*: Phylogenetic Analysis Using Parsimony (and other methods) 4.0.b5 (2001). Swofford, D.

6 - History of Classical Genetics. Harman, O ; Encyclopedia of Life Sciences.

7 - The sequence of sequencers: The history of sequencing DNA

8 - Tetrapod phylogeny inferred from 18S and 28S ribosomal RNA sequences and a review of the evidence for amniote relationships. Hedges S, Moberg K, Maxson L.

Coelho pré-Cambriano

sábado, 2 de junho de 2018

Como organizamos os seres vivos? - Sistemática nos dias atuais (Parte 4)

Nenhum comentário:

Postar um comentário

DNA Lixo: a volta dos que não foram