Saiba mais sobre a ferramenta de bioinformática que facilita as análises de dados brutos de sequenciamento.
Por Bianca Teixeira
Bióloga, Doutora em Ciências e Head de Projetos na BiomeHub.
Neste postblog será abordado:
Processamento e análise de dados de sequenciamento de microbioma
A análise de microbioma apresenta desafios significativos devido à alta variabilidade e complexidade e dimensionalidade dos dados, o que exige metodologias adequadas para uma avaliação precisa dos resultados.
Para garantir a comparabilidade dos dados e facilitar o compartilhamento com outros estudos, a BiomeHub utiliza o QIIME 2, um avançado toolkit (ou "conjunto de ferramentas") de bioinformática na análise de dados de microbioma. Essa plataforma é particularmente eficaz para o processamento de dados obtidos por sequenciamento de amplicons, como o rRNA16S (para bactérias) e ITS (para fungos), permitindo uma análise detalhada e padronizada da diversidade microbiana.
Após o sequenciamento das amostras, são gerados arquivos FASTQ, que armazenam as sequências de nucleotídeos e informações sobre a qualidade de cada base lida durante o sequenciamento. Esses arquivos são então importados para o QIIME 2, para que possam ser realizadas as análises estatísticas e de composição microbiana.
Quais as principais etapas do pipeline QIIME 2
Por ser um toolkit, o QIIME 2 oferece várias possibilidades de métodos em cada uma das seguintes etapas:
1) Pré-processamento
O pré-processamento é a primeira fase da análise de dados de sequenciamento, que visa preparar as leituras de DNA para análises posteriores. Os dados de sequenciamento frequentemente contêm erros e artefatos que surgem devido às limitações técnicas do processo de sequenciamento.
2) Denoising
Refere-se à remoção de "ruído" ou erros introduzidos no sequenciamento. No contexto da análise de microbioma, esse passo é essencial para diferenciar com precisão as sequências reais de DNA de microrganismos dos erros técnicos.
3) Análise de dados
No QIIME 2 podem ser realizadas diversas análises como, por exemplo:
a) Inferência Filogenética: Para entender as relações evolutivas entre espécies, as sequências genéticas são alinhadas e organizadas em uma árvore filogenética. Essa estrutura mostra como as espécies estão relacionadas, indicando quais são mais próximas ou distantes evolutivamente. Ferramentas como o MAFFT e o FastTree ajudam a fazer esses cálculos e a criar a árvore com base nas semelhanças e diferenças entre as sequências.
b) Classificação Taxonômica: É realizada associando as sequências identificadas no experimento a uma referência taxonômica. Primeiro, as ASVs (Amplicon Sequence Variants) são comparadas com um banco de dados de referência, como o SILVA, usando algoritmos de atribuição, como o método de Naive Bayes. Com base nas similaridades entre as sequências, as ASVs recebem classificações taxonômicas, permitindo identificar a composição microbiana em diferentes níveis hierárquicos, como gênero ou espécie.
Exemplo de visualização no QIIME 2 utilizando gráficos de barras para representar a classificação taxonômica.
Por que utilizar o banco de dados SILVA?
O banco de dados SILVA é amplamente utilizado para análises de microbioma porque ele oferece uma coleção abrangente e atualizada de sequências de RNA ribossomal (rRNA) e metadados associados, que são fundamentais para a identificação e classificação de microrganismos.
Este banco é atualizado de forma contínua, e dentre suas vantagens, a padronização e a compatibilidade com ferramentas de bioinformática, como o QIIME 2, tornam os dados reprodutíveis e confiáveis, aumentando sua aceitação em publicações científicas.
Como os arquivos gerados no QIIME 2 são organizados?
Após as análises são gerados arquivos com extensão .qza (QIIME Zipped Artifact) para arquivos manipuláveis e .qzv (QIIME Zipped Visualization) para arquivos de visualização. Pela dimensionalidade dos arquivos são entregues compactados em formato ZIP.
Os arquivos gerados são organizados em diferentes diretórios:
Diretório "Artfacts"
Contém uma variedade de arquivos e diretórios que são resultados das etapas de análise realizadas pelo QIIME 2. Os artefatos do QIIME 2 são conjuntos integrados de metadados e dados que registram a procedência dos resultados da análise, permitindo rastrear todas as etapas anteriores e os dados de entrada utilizados.
Diretório "Visualizations"
Diretório "Composition":
representative-sequences.fasta - contém as sequências representativas obtidas. Na análise de microbioma, após a etapa de denoising, onde as sequências de DNA são corrigidas de erros de sequenciamento e agrupadas em sequências únicas conhecidas como ASVs , utilizadas para posterior análise taxonômica, inferência filogenética e outras análises.
representative-sequences.qzv - contém visualizações relacionadas às sequências representativas geradas após o processo de análise utilizando o QIIME 2.
representative-sequences-taxonomy.qzv - apresenta informações sobre a taxonomia das sequências representativas obtidas.
representative-table.biom - contém uma tabela de abundância de sequências representativas ou ASVs encontradas em cada amostra analisada. O formato BIOM (Biological Observation Matrix) é comumente usado para representar dados de contagem de sequências em estudos de microbiomas.
representative-table.qzv - contém uma visualização interativa da tabela de abundância de sequências representativas ou ASVs encontradas no microbioma.
taxonomy-Profile.qzv - apresenta uma visualização do perfil de taxonomia do microbioma. Ele mostra a distribuição geral das diferentes identidades taxonômicas em todo o microbioma, sem necessariamente mostrar sequências específicas. Essa visualização é mais útil para entender a composição geral do microbioma em termos de filo, classe, ordem, família, gênero, espécie e para comparar essa composição entre diferentes amostras.
Diretório "qc":
demux.qzv: contém visualizações que ajudam na avaliação da qualidade dos dados de sequenciamento
Como visualizar os dados gerados no QIIME 2
É possível visualizar os dados e arquivos gerados no QIIME 2 descompactando os arquivos .qvz (QIIME Zipped Visualization) no explorador de arquivos do seu computador, ou acessando o QIIME 2 View (https://view.qiime2.org/). O QIIME 2 View (q2view) é uma interface para visualizar arquivos do QIIME 2. Isso significa que você não precisa ter uma instalação ativa do QIIME 2 para analisar os resultados. Neste ambiente online, também é possível exportar tabelas e imagens.
Para abrir os arquivos .qvz no q2view basta arrastar o arquivo do computador para a área tracejada apresentada abaixo:
A plataforma QIIME 2 centraliza o processamento de dados de microbiomas em um único lugar, permitindo desde a importação dos dados brutos de sequenciamento até análises avançadas de diversidade e taxonomia.
Para acessar tutoriais e outas informações importantes sobre o QIIME 2, visite: https://docs.qiime2.org/
Ficou com alguma dúvida? Nossa equipe está aqui para ajudar! Entre em contato conosco e receba a ajuda que precisa.
Leia também: Bioinformática e metagenômica?
Referências:
Bolyen, Evan et al. “Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2.” Nature biotechnology vol. 37,8 (2019): 852-857. doi:10.1038/s41587-019-0209-9
Estaki, Mehrbod et al. “QIIME 2 Enables Comprehensive End-to-End Analysis of Diverse Microbiome Data and Comparative Studies with Publicly Available Data.” Current protocols in bioinformatics vol. 70,1 (2020): e100. doi:10.1002/cpbi.100
Fung, Calvin et al. “Automation of QIIME2 Metagenomic Analysis Platform.” Current protocols vol. 1,9 (2021): e254. doi:10.1002/cpz1.254
Gonçalves, Willian Mendes. Montagem de ambiente de análises ecológicas de microbiomas usando a Plataforma Qiime2. / Willian Mendes Gonçalves. – Bambuí, 2024. 80 f
QIIME 2. QIIME 2: Next-generation microbiome bioinformatics [Internet]. Disponível em: https://qiime2.org/
Quast, Christian et al. “The SILVA ribosomal RNA gene database project: improved data processing and web-based tools.” Nucleic acids research vol. 41,Database issue (2013): D590-6. doi:10.1093/nar/gks1219