Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/334943
Type: DISSERTAÇÃO DIGITAL
Degree Level: Mestrado
Title: Estudo de modelos de classificação com aplicação a dados genômicos
Title Alternative: Study of classification models with application to genomic data
Author: Sousa, Heidi Mara do Rosário, 1991-
Advisor: Carvalho, Benilton de Sá, 1979-
Abstract: Resumo: A tecnologia de microarranjos ou chip de DNA é amplamente utilizada na ciência biomédica. Tem como objetivo realizar triagem de milhões de Polimorfismo de nucleotídeo único (SNP) em todo o genoma, possibilitando a identificação de variantes na sequência de DNA que estejam associadas com fenótipos de interesse. Essa tecnologia revolucionou estudos de associação, \textit{genome-wide association studies (GWAS)}, exatamente por permitir a análise simultânea de vários marcadores \cite{carvalho2009quantifying}. O ponto de partida para determinar a associação entre fenótipos e doenças, é fazer chamadas de genótipos (AA, AB ou BB) para cada SNP. Portanto, vários procedimentos estatísticos sofisticados são necessários, culminando na aplicação de um método de classificação. O objetivo desta dissertação é estudar técnicas de pré-processamento de dados de microarranjos; compreender a metodologia do Modelo Linear Robusto Corrigido com a distância de Mahalanobis (CRLMM) e propor um novo método de genotipagem utilizando modelos de classificação por Redes Neurais Artificiais (RNA), utilizando medidas quantitativas obtidas por meio de microarranjos. Utilizou-se métricas que associem acurácia e qualidade de agrupamento para a avaliação dos métodos de classificação. O maior ganho na aplicação de redes neurais tem sido observado na habilidade de identificar mais apropriadamente observações heterozigotas, quando comparado ao CRLMM, ao mesmo tempo que a precisão de chamadas de homozigotos permanece praticamente estável. Além disso, as redes neurais permitem uma classificação mais concordante com os processos biológicos nas caudas da distribuição da log-razão M

Abstract: Microarray technology or DNA chip is widely used in biomedical science. It aims to screen millions of single nucleotide polymorphisms (SNPs) throughout the genome, enabling the identification of variants in the DNA sequence that are associated with phenotypes of interest. This technology revolutionized association studies, genome-wide association studies (GWAS), precisely by allowing the simultaneous analysis of multiple markers. The starting point for determining the association between phenotypes and diseases is to make genotype calls (AA, AB or BB) for each SNP. Therefore, several sophisticated statistical procedures are necessary, culminating in the application of a classification method. The objective of this thesis is to study microarray data preprocessing techniques; to understand the methodology of the Corrected Robust Linear Model with Mahalanobis Distance (CRLMM) and propose a new method of genotyping using Artificial Neural Network (ANN) classification models using quantitative measurements obtained through microarray. Were used metrics that associate accuracy and clustering quality for the evaluation of classification methods. The greatest gain in the application of neural networks has been observed in the ability to more correctly identify heterozygous observations when compared to CRLMM, while the accuracy of homozygous calls remains practically stable. In addition, the neural networks allow a more concordant classification, with the biological processes, in the tail of the distribution of the log M ratio
Subject: Microarranjos de DNA
Genotipagem
Genética - Métodos estatísticos
Algoritmos
Redes neurais (Computação)
Language: Português
Editor: [s.n.]
Citation: SOUSA, Heidi Mara do Rosário. Estudo de modelos de classificação com aplicação a dados genômicos. 2019. 1 recurso online (84 p.). Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matemática Estatística e Computação Científica, Campinas, SP.
Date Issue: 2019
Appears in Collections:IMECC - Tese e Dissertação

Files in This Item:
File SizeFormat 
Sousa_HeidiMaraDoRosario_M.pdf2.3 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.