O sinal e o ruído em uma análise de exoma

A influência da era do Big Data chegou à medicina, e especialmente à genética. Isso se deve, em grande parte, à queda nos preços de exames genéticos feitos por Next Generation Sequencing (NGS) observada na última década.

A quantidade massiva de dados gerados em NGS contém o sinal – informação relevante que nos traz conhecimento – mas também (e em quantidade bem maior) o ruído – informação vazia ou até mesmo errônea, que nos desvia do aprendizado que desejamos alcançar. Qual é a melhor forma de lidar com essa dualidade?

Nesse artigo, minha proposta é analisar a relação sinal-ruído numa amostra de exoma (ou seja, dados de sequenciamento de todos os genes) em uma amostra muito conhecida e utilizada em validações, a NA12878 [1]. Trata-se do material genético de uma mulher caucasiana dos EUA coletado pelo Genome in a Bottle Consortium [2], com o objetivo de produzir referências para análises laboratoriais de NGS.

Ao longo do artigo, vamos comprovar algumas intuições clínicas e de Big Data: as variantes verdadeiras e ligadas ao diagnóstico – o sinal – são uma minoria muito pequena, e precisamos colocar toda nossa atenção e esforços em encontrá-las, filtrando o ruído. Vamos lá?

Desviando dos falsos positivos

Apesar de todos os avanços trazidos pela técnica de NGS em termos de abrangência e velocidade, sabemos que muitas regiões do DNA impõem sérias dificuldades ao processo de sequenciamento: ilhas de CG, regiões com repetição de bases nitrogenadas e bordas dos reads sequenciados são trechos mais difíceis de ler. Com isso, nosso resultado pode apresentar variantes que o paciente na verdade não carrega, trazendo o risco de diagnósticos com falsos positivos.

Para evitar esse problema, é importante uma filtragem minuciosa das variantes, levando em conta a qualidade da leitura e todos os parâmetros que a influenciam. Para a amostra que estamos analisando, temos a confirmação de quais são as variantes verdadeiras por outra técnica, o sequenciamento por Sanger.

A princípio, encontramos 133.852 variantes (isto é, diferenças entre a sequência de bases nitrogenadas da NA12878 e sequência de referência) para essa amostra. Como vemos no gráfico a seguir, apenas 26,9% delas são variantes verdadeiras (confirmadas por Sanger) e os outros 73,1% não surgiram na confirmação (falsos positivos, também chamados de artefatos).

Blog post Heitor - Imagem 01-01

No gráfico a seguir, vemos como a qualidade de leitura varia entre os verdadeiros positivos e os falsos positivos. Essa qualidade é computada durante o processo de chamada de variantes e, quanto maior seu valor, maior é a confiança do algoritmo de que o paciente carrega de fato a variante. Como esperado, variantes verdadeiras têm qualidade maior do que os falsos positivos.

Blog post Heitor - Img 2-01

Procurando agulhas no palheiro: as variantes patogênicas

A análise de exoma engloba o sequenciamento de todos os cerca de 22 mil genes que carregamos em nosso DNA. Uma vez que as variantes genéticas são as diferenças entre uma determinada sequência de DNA e uma sequência de referência, grande parte dessas diferenças serão o que chamamos de variantes benignas: diferenças que promovem a variabilidade genética, mas não causam qualquer doença ou sintoma adverso. As variantes patogênicas, quando existem, formam uma minoria.

Para verificar que essa ideia se aplica à amostra NA12878, vamos ver como estão distribuídas as classificações de suas variantes segundo o ClinVar [3], que é um arquivo público de livre acesso de relatórios das relações entre variantes e fenótipos humanos, com evidências de apoio. O uso dos dados do ClinVar é muito difundido entre laboratórios de genética de todo o mundo.

Abaixo, temos a distribuição de classes ClinVar nas mutações da amostra NA12878. Como estamos utilizando somente as variantes que têm classificação revisada por especialistas, nosso conjunto de análise caiu para cerca de 3.000 variantes. Note que, apesar de termos variantes patogênicas e de classificação incerta, as barras delas quase não aparecem devido à escala do gráfico.

Blog post Heitor - img 3-01

A seguir, reproduzimos o gráfico acima, porém com foco nas classes de maior interesse clínico – patogênicas e provavelmente patogênicas, que podem ser as causadoras da doença, e as de classificação incerta, que podem acabar sendo classificadas como patogênicas após uma análise mais aprofundada. Nota-se que temos 3 variantes patogênicas, 3 incertas e nenhuma provavelmente patogênica.

Blog post Heitor - img 4-01

Se encararmos falsos positivos e variantes benignas/provavelmente benignas como ruído, e variantes de interesse clínico conhecido como sinal, nessa análise breve nossa relação sinal-ruído será de 6 para cerca de 133 mil. Que desafio!

Priorização de mutações utilizando machine learning

Em nossa equipe, temos algumas iniciativas de funcionalidades que utilizam machine learning, entre elas um modelo de priorização de variantes em exomas. Trata-se de um modelo baseado em árvores de decisão, ainda em fase de protótipo e treinado com dados de anotação de um conjunto de variantes classificadas por especialistas. 

Ao calcular a predição do modelo para a amostra NA12878, apenas 3 variantes aparecem com chance de ser patogênicas. Na figura a seguir, vemos as três variantes priorizadas pelo modelo como elas aparecem no Varstation, em ordem de relevância. Com esse resultado, cabe ao analista pesquisar com maior profundidade o efeito clínico de cada uma delas.

0

É interessante notar que as três variantes genéticas priorizadas pelo modelo têm características que apontam um “potencial patogênico”: todas são inicialmente classificadas como incertas pelo nosso algoritmo de regras ACMG (coluna CLASS) e têm funções exônicas potencialmente deletérias (coluna FUNC/EXONIC), boa cobertura (coluna DP), frequências alélicas que não indicam artefatos (coluna VAF) e baixas frequências populacionais (coluna FREQ). A primeira variante, inclusive, já teve submissões no ClinVar com classificação patogênica.

Direto ao ponto: análise de painel

Se temos uma ideia melhor das condições clínicas do paciente, podemos focar nossa análise em um conjunto de genes de interesse (chamado de painel), em vez de verificar todos os genes na amplitude oferecida por um exoma.

Assim, digamos que a paciente da NA12878 recebeu um pedido de exame genético para câncer de mama, especificamente para os genes BRCA1 e BRCA2. Nosso conjunto de análise vai de mais de 133 mil variantes para apenas 31.

Como podemos verificar no gráfico a seguir, no caso do painel de BRCA1 e BRCA2, a relação sinal-ruído melhora consideravelmente com o aumento da proporção de variantes verdadeiras.

0 (1)

Todas as variantes verdadeiras que encontramos para a NA12878 nesses genes são benignas. Isso vai de acordo com a clínica da paciente, que não apresenta essa doença ou sintomas relacionados. Com isso, o laboratório emitiria um relatório negativo, comunicando que não foram encontradas mutações patogênicas em BRCA1 e BRCA2 para essa paciente.

Ufa! Agora chegamos ao nosso resultado bem mais rapidamente.

tl;dr

Exames de NGS geram quantidades enormes de dados todos os dias, e isso tende a crescer nos próximos anos. Para mantermos uma boa relação sinal-ruído em genética clínica, precisamos:

  • Nos desviar dos falsos positivos;
  • Priorizar as variantes potencialmente patogênicas (utilizando, por exemplo, machine learning), e; 
  • Direcionar nossa análise para um conjunto menor de genes de interesse sempre que possível. 

Dessa forma, voltaremos nossos esforços para analisar menos informação e, com isso, menos ruído, o que nos leva a chegar mais rapidamente ao conhecimento.

E conhecimento, nesse caso, se traduz num diagnóstico preciso e, esperamos, um prognóstico melhor para o paciente.

Referências

  1. https://www.coriell.org/0/Sections/Search/Sample_Detail.aspx?Ref=GM12878
  2. Zook, M; Chapman, B; Wang, J; Mittelman, D; Hofmann, O; Hide, W; Salit, M. Integrating human sequence data sets provides a resource of benchmark SNP and indel genotype calls. Nature Biotechnology volume32pages 246–251 (2014).
  3. https://www.ncbi.nlm.nih.gov/clinvar/

Footer blog vars-01

Deixe uma resposta

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.