Vol. XXIX Issue 1
Article 4
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><!-- [et_pb_line_break_holder] --><html xmlns="http://www.w3.org/1999/xhtml"><!-- [et_pb_line_break_holder] --><head><!-- [et_pb_line_break_holder] --><meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" /><!-- [et_pb_line_break_holder] --><title>Untitled Document</title><!-- [et_pb_line_break_holder] --></head><!-- [et_pb_line_break_holder] --><!-- [et_pb_line_break_holder] --><body><!-- [et_pb_line_break_holder] --><p align="right"><font size="3" face="Arial, Helvetica, sans-serif"><strong>ARTÍCULOS ORIGINALES</strong></font></p><!-- [et_pb_line_break_holder] --><p><b><font size="4" face="Arial, Helvetica, sans-serif">Control de falsos descubrimientos en mapeo asociativo con poblaciones estructuradas</font></b></p><!-- [et_pb_line_break_holder] --><p><i><font size="3" face="Arial, Helvetica, sans-serif"><b>False discovery rate control in association mapping with genetically structured populations</b></font></i></p><!-- [et_pb_line_break_holder] --><p> </p><!-- [et_pb_line_break_holder] --><p><b><font size="3" face="Arial, Helvetica, sans-serif"> Peña Malavera A.<sup>1,2</sup>, Bruno C.<sup>1,2</sup>, Balzarini M.<sup>1,2,*</sup></font></b></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif"> <font size="2"><sup>1</sup> Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET).<br /><!-- [et_pb_line_break_holder] --> <sup>2</sup> Estadística y Biometría, Facultad de Ciencias Agropecuarias, Universidad Nacional de Córdoba, Av. Valparaíso s/n, Ciudad <!-- [et_pb_line_break_holder] --> Universitaria, CP: 5000 (509) Córdoba, Argentina.<br /><!-- [et_pb_line_break_holder] --> *Autor correspondiente: <a href="mailto:mbalzari@agro.unc.edu.ar">mbalzari@agro.unc.edu.ar</a></font></font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> <b>Fecha de recepción</b>: 20/02/2017<br /><!-- [et_pb_line_break_holder] --> <b>Fecha de aceptación de versión final</b>: 12/04/2018<!-- [et_pb_line_break_holder] --></font></p><!-- [et_pb_line_break_holder] --><hr /><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"><b>RESUMEN</b></font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> Las pruebas de asociación entre marcadores moleculares y variables fenotípicas son cruciales para la identificación de QTL (Quantitative Trait<!-- [et_pb_line_break_holder] --> Loci). Los avances biotecnológicos incrementaron la disponibilidad de marcadores genéticos y consecuentemente el número de pruebas de la asociación<!-- [et_pb_line_break_holder] --> fenotipo-genotipo. El incremento de pruebas de significancia estadística a realizar en simultaneo (multiplicidad) demanda correcciones de<!-- [et_pb_line_break_holder] --> los valores-p obtenidos para cada prueba de hipótesis de manera de mantener acotada las tasas de error para la familia de pruebas de asociación.<!-- [et_pb_line_break_holder] --> Las correcciones estadísticas clásicas para el problema de multiplicidad, como Bonferroni, el método de control de la tasa de falsos descubrimientos<!-- [et_pb_line_break_holder] --> (FDR) y el número efectivo de pruebas (Meff), son ampliamente usadas, pero fueron desarrolladas para datos independientes. Sin embargo, cuando<!-- [et_pb_line_break_holder] --> las poblaciones de mapeo están genéticamente estructuradas los datos dejan de ser independientes. En este trabajo, proponemos un método de<!-- [et_pb_line_break_holder] --> corrección por multiplicidad basado en estimación del número efectivo de pruebas desde un modelo que ajusta por la estructura de correlación<!-- [et_pb_line_break_holder] --> subyacente. Se evalúa el desempeño del procedimiento propuesto a través del análisis de los valores-p obtenidos para un conjunto de QTL simulados.<!-- [et_pb_line_break_holder] --> Los resultados sugieren que el método propuesto provee control de la tasa de falsos positivos y presenta mayor potencia que otros métodos de<!-- [et_pb_line_break_holder] --> corrección por multiplicidad usados en mapeo asociativo.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> <b>Palabras clave</b>: Multiplicidad; Estudios de asociación; Número efectivo de pruebas de hipótesis; Modelos lineales</font>.</p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"><b>ABSTRACT</b> </font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> The association tests between molecular markers and phenotypic traits are crucial for the Quantitative Trait Loci (QTL) identification. Biotechnological<!-- [et_pb_line_break_holder] --> advances increased the molecular marker information; consequently, the number of genotype-phenotype association tests required<!-- [et_pb_line_break_holder] --> incremented too. The multiple statistical inferences (multiplicity) demand corrections of the p-values obtained for each comparison in order to keep<!-- [et_pb_line_break_holder] --> limited the error rates for the family of association tests. However, classic statistical correction methods such as Bonferroni, False Discovery Rate<!-- [et_pb_line_break_holder] --> (FDR) and the Effective Number of Independent Test (Meff) were developed in the context of independent data. Wherever, when the population<!-- [et_pb_line_break_holder] --> genetic structure is present, the data are no longer independent. In this paper, we propose a method of correction for multiplicity based on estimation<!-- [et_pb_line_break_holder] --> of the effective number of tests from a model that adjust for the underlying correlation structure. We evaluate the performance of the proposed<!-- [et_pb_line_break_holder] --> procedure in the estimation of p-values for a set of simulated QTL. The results suggest that the proposed method provides control of FDR and has<!-- [et_pb_line_break_holder] --> more power than other methods for multiplicity correction used in association mapping.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> <b>Key words</b>: Multiplicity; Association studies; Effective number of hypothesis test; Linear models.</font></p><!-- [et_pb_line_break_holder] --><hr /><!-- [et_pb_line_break_holder] --><p> </p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif"> <b>INTRODUCCIÓN</b></font></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif"> El análisis conjunto de la información de marcadores<!-- [et_pb_line_break_holder] --> moleculares del genoma e información fenotípica permite<!-- [et_pb_line_break_holder] --> inferir sobre la existencia de asociaciones entre loci de<!-- [et_pb_line_break_holder] --> marcadores y expresiones de caracteres cuantitativos de<!-- [et_pb_line_break_holder] --> interés agronómico (Spindel et al., 2015; Tadesse et al., 2015;<!-- [et_pb_line_break_holder] --> Yan et al., 2011; Zhou et al., 2016). En genética vegetal,<!-- [et_pb_line_break_holder] --> la presencia de asociaciones estadísticamente significativas<!-- [et_pb_line_break_holder] --> entre el estado del marcador y la variante fenotípica permite<!-- [et_pb_line_break_holder] --> identificar los QTL subyacentes en la población de mapeo<!-- [et_pb_line_break_holder] --> (Breseghello y Sorrells, 2006; Parisseaux y Bernardo, 2004;<!-- [et_pb_line_break_holder] --> Pers et al., 2015). Sin embargo, el análisis de asociaciones<!-- [et_pb_line_break_holder] --> bajo estructura genética poblacional (EGP) requiere de<!-- [et_pb_line_break_holder] --> conceptos y métodos biológicos y estadísticos específicos<!-- [et_pb_line_break_holder] --> orientados a disminuir los descubrimientos de falsos QTL,<!-- [et_pb_line_break_holder] --> i.e. asociaciones que resultan significativas sólo por azar<!-- [et_pb_line_break_holder] --> debido a las correlaciones que genera la estructuración<!-- [et_pb_line_break_holder] --> genética de la población de mapeo (Malosetti et al., 2007).<!-- [et_pb_line_break_holder] --> Además, los estudios sobre modelos estadísticos<!-- [et_pb_line_break_holder] --> para mapeo asociativo (MA) se realizan con propuestas<!-- [et_pb_line_break_holder] --> metodológicas que se encuentran aún en desarrollo, y no<!-- [et_pb_line_break_holder] --> es una decisión trivial la elección del modelo de análisis<!-- [et_pb_line_break_holder] --> más apropiado para un escenario particular (Bernardo,<!-- [et_pb_line_break_holder] --> 2013; Cappa et al., 2013; Gutiérrez et al., 2015; Gutiérrez<!-- [et_pb_line_break_holder] --> et al., 2011; Locatelli et al., 2013). La selección de uno u<!-- [et_pb_line_break_holder] --> otro modelo debe contemplar aspectos estadísticos como<!-- [et_pb_line_break_holder] --> el tamaño de la muestra y número de variables indicadoras<!-- [et_pb_line_break_holder] --> o marcadores, y aspectos biológicos, entre ellos el nivel de<!-- [et_pb_line_break_holder] --> divergencia genética entre subpoblaciones de la población<!-- [et_pb_line_break_holder] --> de mapeo, cuando estas existen (Peña-Malavera, 2015).<!-- [et_pb_line_break_holder] --> <br /><!-- [et_pb_line_break_holder] --> Luego de ajustado un modelo de MA, será necesario<!-- [et_pb_line_break_holder] --> realizar múltiples pruebas de hipótesis estadísticas sobre la<!-- [et_pb_line_break_holder] --> asociación de cada uno de los marcadores con el carácter<!-- [et_pb_line_break_holder] --> agronómico de interés. En el caso de los modelos de<!-- [et_pb_line_break_holder] --> regresión usados en MA, en H0 (hipótesis nula) se plantea<!-- [et_pb_line_break_holder] --> que el coeficiente de regresión asociado al efecto del<!-- [et_pb_line_break_holder] --> marcador sobre el fenotipo es nulo, i.e. el marcador no<!-- [et_pb_line_break_holder] --> se encuentra ligado a un QTL. El segundo paso de la<!-- [et_pb_line_break_holder] --> prueba de hipótesis se corresponde con la selección de<!-- [et_pb_line_break_holder] --> un estadístico cuya distribución sea conocida cuando H0<!-- [et_pb_line_break_holder] --> es cierta y que se desvíe de modo predecible de dicha<!-- [et_pb_line_break_holder] --> distribución cuando H0 no es cierta; el estadístico T de<!-- [et_pb_line_break_holder] --> Student es apropiado para evaluar la significancia estadística<!-- [et_pb_line_break_holder] --> de un coeficiente de regresión (Draper y Smith, 1998).<!-- [et_pb_line_break_holder] --> Luego, es necesario calcular el valor del estadístico en la<!-- [et_pb_line_break_holder] --> muestra que se tenga. Si el valor de dicho estadístico es<!-- [et_pb_line_break_holder] --> diferente de lo que se espera bajo H0, se rechazará H0.<!-- [et_pb_line_break_holder] --> El nivel de significación empírico o valor-p asociado<!-- [et_pb_line_break_holder] --> al valor observado del estadístico es la probabilidad de<!-- [et_pb_line_break_holder] --> obtener en el muestreo (bajo H0) valores tan o más raros<!-- [et_pb_line_break_holder] --> que el obtenido. Este valor-p representa una medida del<!-- [et_pb_line_break_holder] --> acuerdo (o desacuerdo) de la evidencia muestral con la<!-- [et_pb_line_break_holder] --> hipótesis nula. Valores-p pequeños habrán de entenderse<!-- [et_pb_line_break_holder] --> como evidencia en contra de la hipótesis nula objeto de<!-- [et_pb_line_break_holder] --> contraste. En MA, valores-p pequeños llevan al rechazo de<!-- [et_pb_line_break_holder] --> la hipótesis nula que establece que no existe ligamiento<!-- [et_pb_line_break_holder] --> entre marcador y QTL, y por tanto sugieren la presencia<!-- [et_pb_line_break_holder] --> de una variante genética informativa. Para juzgar si un<!-- [et_pb_line_break_holder] --> valor-p es pequeño o no, éste se compara con un nivel de<!-- [et_pb_line_break_holder] --> significación pre-especificado, α.<!-- [et_pb_line_break_holder] --> <br /><!-- [et_pb_line_break_holder] --> Dos criterios de evaluación cobran importancia para<!-- [et_pb_line_break_holder] --> evaluar una prueba de hipótesis estadística: la capacidad<!-- [et_pb_line_break_holder] --> de mantener su tamaño nominal o nivel de significación<!-- [et_pb_line_break_holder] --> α, y la potencia de la prueba para detectar una hipótesis<!-- [et_pb_line_break_holder] --> nula falsa. El primero está relacionado con el error tipo<!-- [et_pb_line_break_holder] --> I, el cual tiene probabilidad de ocurrencia denotada por<!-- [et_pb_line_break_holder] --> α y el segundo, con el error tipo II con probabilidad de<!-- [et_pb_line_break_holder] --> ocurrencia denotada por β (Balzarini et al., 2008). Estos<!-- [et_pb_line_break_holder] --> errores pueden ser analizados mediante tasas de error<!-- [et_pb_line_break_holder] --> por comparación que representan el valor esperado del<!-- [et_pb_line_break_holder] --> cociente entre el número de inferencias erróneas y el<!-- [et_pb_line_break_holder] --> número de inferencias realizadas o por experimento; estas<!-- [et_pb_line_break_holder] --> últimas estiman la probabilidad de obtener al menos un<!-- [et_pb_line_break_holder] --> error dentro de una familia de pruebas de hipótesis.<!-- [et_pb_line_break_holder] --> En estudios de MA, la hipótesis de interés es la hipótesis<!-- [et_pb_line_break_holder] --> nula de falta de asociación marcador-fenotipo. Una<!-- [et_pb_line_break_holder] --> prueba estadística con baja tasa de error tipo II es aquella<!-- [et_pb_line_break_holder] --> con capacidad (o potencia) para detectar asociaciones<!-- [et_pb_line_break_holder] --> verdaderas. La mayor potencia de un modelo de MA con<!-- [et_pb_line_break_holder] --> respecto a otro no se asocia con un incremento de la tasa<!-- [et_pb_line_break_holder] --> de error tipo I, i.e., un incremento en la probabilidad de<!-- [et_pb_line_break_holder] --> concluir que existe asociación cuando en realidad no está<!-- [et_pb_line_break_holder] --> presente, sino con el tamaño de la población de mapeo y<!-- [et_pb_line_break_holder] --> con la cantidad de marcadores o pruebas de hipótesis que<!-- [et_pb_line_break_holder] --> se realizan sobre el mismo conjunto de datos.<br /><!-- [et_pb_line_break_holder] --> En MA se ajustan modelos de regresión por cada<!-- [et_pb_line_break_holder] --> marcador que se evalúa y por tanto hay múltiples hipótesis<!-- [et_pb_line_break_holder] --> a contrastar sobre el mismo conjunto de datos. Este<!-- [et_pb_line_break_holder] --> procedimiento debe realizarse siendo consciente de que<!-- [et_pb_line_break_holder] --> algunas hipótesis serán objeto de rechazo sólo por azar, con<!-- [et_pb_line_break_holder] --> una probabilidad mucho mayor que el nivel de significación<!-- [et_pb_line_break_holder] --> nominal empleado para contrastar cada una de ellas. Para una<!-- [et_pb_line_break_holder] --> prueba de hipótesis sobre uno de M coeficientes del modelo de MA y bajo H0, hay probabilidad tan sólo α de que el<!-- [et_pb_line_break_holder] --> estadístico T calculado exceda en valor absoluto del cuantil<!-- [et_pb_line_break_holder] --> α/2 de una distribución T de Student con N-M grados<!-- [et_pb_line_break_holder] --> de libertad. Pero la probabilidad de que algún estadístico<!-- [et_pb_line_break_holder] --> T, desde una miríada de valores T (correspondientes<!-- [et_pb_line_break_holder] --> a los M marcadores moleculares), exceda de tα/2,N−M,<!-- [et_pb_line_break_holder] --> asumiendo independencia, es mayor con Prob (algún βi<!-- [et_pb_line_break_holder] --> ≠0)=1−(1−α)m. Luego, con probabilidad mucho mayor a<!-- [et_pb_line_break_holder] --> α, algún coeficiente de marcador molecular puede resultar<!-- [et_pb_line_break_holder] --> significativo sólo por azar. Esta probabilidad depende de M,<!-- [et_pb_line_break_holder] --> es decir, aumenta a medida que se incrementa el número<!-- [et_pb_line_break_holder] --> de marcadores moleculares evaluados. Este problema de<!-- [et_pb_line_break_holder] --> inferencia simultánea demanda, consecuentemente, de<!-- [et_pb_line_break_holder] --> la corrección de los valores-p y debe ser atendido en el<!-- [et_pb_line_break_holder] --> contexto de MA para no perder potencia (Xiao et al.,<!-- [et_pb_line_break_holder] --> 2013). Para el contexto de datos independientes existen<!-- [et_pb_line_break_holder] --> métodos de corrección de valores-p por multiplicidad<!-- [et_pb_line_break_holder] --> que garantiza que la tasa de falsos positivos sea menor o<!-- [et_pb_line_break_holder] --> igual que un valor pre-seleccionado. El método de control<!-- [et_pb_line_break_holder] --> del error tipo I más conocido es la aproximación de<!-- [et_pb_line_break_holder] --> Bonferroni (Bonferroni, 1935). Sin embargo, este método<!-- [et_pb_line_break_holder] --> es excesivamente conservador cuando las pruebas de<!-- [et_pb_line_break_holder] --> hipótesis son numerosas. Aplicado a estudios de MA puede<!-- [et_pb_line_break_holder] --> reducir drásticamente la cantidad de marcadores positivos,<!-- [et_pb_line_break_holder] --> incluso llegar a no detectar ninguna asociación significativa.<!-- [et_pb_line_break_holder] --> Una corrección alternativa es la propuesta por Benjamini y<!-- [et_pb_line_break_holder] --> Hochberg (Benjamini y Hochberg, 1995) para controlar la<!-- [et_pb_line_break_holder] --> proporción esperada de hipótesis mal rechazadas respecto<!-- [et_pb_line_break_holder] --> a todas aquellas rechazadas (Miller et al., 2001; Sabatti et al.,<!-- [et_pb_line_break_holder] --> 2003; Schwartzman et al., 2008; Tusher et al., 2001).<br /><!-- [et_pb_line_break_holder] --> El umbral de significación nominal α es inapropiado<!-- [et_pb_line_break_holder] --> para reportar resultados del mapeo asociativo, no sólo por<!-- [et_pb_line_break_holder] --> la multiplicidad de pruebas de hipótesis que se realizan<!-- [et_pb_line_break_holder] --> sino también por la correlación esperable entre las pruebas<!-- [et_pb_line_break_holder] --> debido a la correlación entre marcadores moleculares<!-- [et_pb_line_break_holder] --> (pruebas no independientes). En 2001, se propuso un<!-- [et_pb_line_break_holder] --> ajuste de valores-p para pruebas correlacionadas que<!-- [et_pb_line_break_holder] --> se basa en la determinación del número efectivo (Meff)<!-- [et_pb_line_break_holder] --> de pruebas independientes (Cheverud, 2001). Li y Ji<!-- [et_pb_line_break_holder] --> (2005) propusieron una estimación más exacta del Meff<!-- [et_pb_line_break_holder] --> basada en la descomposición por valor singular de una<!-- [et_pb_line_break_holder] --> matriz de correlaciones entre marcadores y diseñaron un<!-- [et_pb_line_break_holder] --> procedimiento (LJ) basado en este nuevo Meff para controlar<!-- [et_pb_line_break_holder] --> el error tipo I. El método LJ ha sido usado con éxito en<!-- [et_pb_line_break_holder] --> el contexto del análisis de QTL clásico donde, aunque<!-- [et_pb_line_break_holder] --> los marcadores pueden estar correlacionados, los casos<!-- [et_pb_line_break_holder] --> son independientes porque provienen de una población<!-- [et_pb_line_break_holder] --> de mapeo sin estructura de correlación genética entre los<!-- [et_pb_line_break_holder] --> individuos.<!-- [et_pb_line_break_holder] --> <br /><!-- [et_pb_line_break_holder] --> En este trabajo se propone una corrección por multiplicidad<!-- [et_pb_line_break_holder] --> que contempla la estructura genética de la población<!-- [et_pb_line_break_holder] --> de mapeo cuando esta existe. La propuesta está<!-- [et_pb_line_break_holder] --> basada en el número de pruebas efectivas o independientes<!-- [et_pb_line_break_holder] --> (similar a LJ). La modificación propuesta utiliza los ejes<!-- [et_pb_line_break_holder] --> derivados de la descomposición aplicada sobre la matriz<!-- [et_pb_line_break_holder] --> de estadísticos de Mantel y Haenszel (MH) (1959) incorporando<!-- [et_pb_line_break_holder] --> la información conocida de la estructura genética<!-- [et_pb_line_break_holder] --> poblacional. El método propuesto fue comparado con<!-- [et_pb_line_break_holder] --> otros métodos de corrección por multiplicidad usando datos<!-- [et_pb_line_break_holder] --> simulados. Los modelos de MA ajustados previamente<!-- [et_pb_line_break_holder] --> a la corrección por multiplicidad fueron tres, uno que no<!-- [et_pb_line_break_holder] --> contempla ninguna corrección por estructura genética<!-- [et_pb_line_break_holder] --> poblacional (EGP) (Modelo naive) y otros con distintos<!-- [et_pb_line_break_holder] --> tipos de ajuste de la EGP. La comparación se realizó usando<!-- [et_pb_line_break_holder] --> bases de datos de marcadores moleculares simulados<!-- [et_pb_line_break_holder] --> bajo distintos escenarios biológicos de EGP. Los ajustes de<!-- [et_pb_line_break_holder] --> valores-p se realizaron luego de escoger las mejores estrategias<!-- [et_pb_line_break_holder] --> de modelación para MA para los escenarios simulados.<!-- [et_pb_line_break_holder] --> Para cada combinación modelo de MA-método de ajuste<!-- [et_pb_line_break_holder] --> de valor-p, se obtuvieron tasas de falsos positivos y potencia<!-- [et_pb_line_break_holder] --> (φ), bajo dos escenarios con diferente nivel de EGP<!-- [et_pb_line_break_holder] --> (bajo y alto FST). El objetivo de este trabajo es evaluar el<!-- [et_pb_line_break_holder] --> desempeño de diferentes métodos de corrección de valor-<!-- [et_pb_line_break_holder] --> p por multiplicidad cuando ellos son aplicados luego<!-- [et_pb_line_break_holder] --> de ajustar modelos de mapeo asociativo, que contemplan o<!-- [et_pb_line_break_holder] --> no la EGP subyacente, bajo distintos escenarios biológicos<!-- [et_pb_line_break_holder] --> en lo que concierne a tamaño de la población de mapeo,<!-- [et_pb_line_break_holder] --> cantidad de marcadores moleculares y nivel de divergencia<!-- [et_pb_line_break_holder] -->genética entre subpoblaciones de la población de mapeo.</font></p><!-- [et_pb_line_break_holder] --><p><b><font size="3" face="Arial, Helvetica, sans-serif"> MATERIALES Y MÉTODOS</font></b></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif"> <b>Datos<br /><!-- [et_pb_line_break_holder] --></b> Los datos de marcadores moleculares usados en este trabajo<!-- [et_pb_line_break_holder] --> fueron simulados a través de QMSim (Sargolzaei y<!-- [et_pb_line_break_holder] --> Schenkel, 2009) involucrando escenarios con cantidad<!-- [et_pb_line_break_holder] --> de genotipos que imitan datos usuales en mejoramiento<!-- [et_pb_line_break_holder] --> genético vegetal. Se simuló un genoma con 300 marcadores<!-- [et_pb_line_break_holder] --> multilocus-bialélicos, con diseño de cruzamientos y<!-- [et_pb_line_break_holder] --> selección aleatorios para una EGP conformada por cinco<!-- [et_pb_line_break_holder] --> poblaciones. Se crearon cuatro escenarios biológicos correspondientes<!-- [et_pb_line_break_holder] --> a, dos niveles de divergencia genética entre<!-- [et_pb_line_break_holder] --> poblaciones (bajo y alto FST), y dos tamaños distintos de<!-- [et_pb_line_break_holder] --> </font><font size="3" face="Arial, Helvetica, sans-serif"> poblaciones de mapeo (n≈150 y n≈300), equivalente a 30<!-- [et_pb_line_break_holder] --> y 60 líneas por población simulada. Los datos simulados<!-- [et_pb_line_break_holder] --> fueron creados a partir de una población histórica con<!-- [et_pb_line_break_holder] --> un tamaño poblacional de 200 individuos y el sistema de<!-- [et_pb_line_break_holder] --> cruzamiento basado en la unión al azar de gametos (cruzamientos<!-- [et_pb_line_break_holder] --> aleatorios). La coancestría promedio fue baja<!-- [et_pb_line_break_holder] --> como sucede en numerosas poblaciones usadas para MA<!-- [et_pb_line_break_holder] --> en vegetales. Variando el número de generaciones desde la<!-- [et_pb_line_break_holder] --> población fundadora, se crearon diferentes niveles de divergencia<!-- [et_pb_line_break_holder] --> genética poblacional. Los datos simulados fueron<!-- [et_pb_line_break_holder] --> codificados como 0 y 1 para cada marcador. El promedio<!-- [et_pb_line_break_holder] --> del estadístico FST (Wright, 1951) provisto por el análisis<!-- [et_pb_line_break_holder] --> molecular de la varianza (AMOVA) (Excoffier et al.,<!-- [et_pb_line_break_holder] --> 2009) fue usado para cuantificar el grado de diferenciación<!-- [et_pb_line_break_holder] --> genética entre poblaciones en cada escenario (<a href="#tab1">Tabla 1</a>).<!-- [et_pb_line_break_holder] --> </font></p><!-- [et_pb_line_break_holder] --><p><a name="tab1" id="tab1"></a></p><!-- [et_pb_line_break_holder] --><p align="center"><font size="2" face="Arial, Helvetica, sans-serif"> <b>Tabla 1</b>. Tamaño poblacional y diversidad genética poblacional que caracteriza<!-- [et_pb_line_break_holder] --> la estructura genética subyacente en poblaciones de mapeo simuladas<!-- [et_pb_line_break_holder] -->con 300 marcadores multilocus-bialélicos como dato genómico. </font><br /><!-- [et_pb_line_break_holder] --><img src="https://sag.org.ar/jbag/wp-content/uploads/2019/11/XXIX1a04tab1.jpg" width="373" height="136" /></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif">Dada la matriz de marcadores moleculares simulados<!-- [et_pb_line_break_holder] --> se escogieron aleatoriamente 20 marcadores y con ellos<!-- [et_pb_line_break_holder] --> se realizó una combinación lineal con efectos que siguen<!-- [et_pb_line_break_holder] --> una distribución gamma con media 2 y varianza 5 [Γ(2,5)]<!-- [et_pb_line_break_holder] --> para simular el efecto de los loci ligados a un QTL. Adicionalmente,<!-- [et_pb_line_break_holder] --> se anexó a cada perfil molecular la realización<!-- [et_pb_line_break_holder] --> de una variable aleatoria con distribución normal de media<!-- [et_pb_line_break_holder] --> 100 (representa la media del carácter que depende del<!-- [et_pb_line_break_holder] --> efecto poligénico de background) y varianza 25 (representa<!-- [et_pb_line_break_holder] --> la variabilidad experimental, i.e. desvío estándar 5, no superior<!-- [et_pb_line_break_holder] --> al 5% de la media del carácter fenotípico). A esta<!-- [et_pb_line_break_holder] --> variable simulada se le adicionaron los efectos de los marcadores<!-- [et_pb_line_break_holder] --> ligados extraídos de la distribución gamma. Los<!-- [et_pb_line_break_holder] --> valores resultantes fueron usados como variable fenotípica<!-- [et_pb_line_break_holder] --> para los modelos de MA. La ubicación de cada uno de<!-- [et_pb_line_break_holder] --> los 20 QTL simulados sobre los marcadores seleccionados<!-- [et_pb_line_break_holder] --> aleatoriamente fue usada para determinar el carácter de<!-- [et_pb_line_break_holder] --> verdad de la hipótesis nula.</font></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif"> <b>Modelo de Mapeo Asociativo<!-- [et_pb_line_break_holder] --> <br /><!-- [et_pb_line_break_holder] --></b> Se estimaron ocho modelos de mapeo asociativo para evaluar<!-- [et_pb_line_break_holder] -->el efecto del marcador sobre el fenotipo (<a href="#tab2">Tabla 2</a>). El<!-- [et_pb_line_break_holder] -->modelo básico a partir del cual derivaron los modelos de<!-- [et_pb_line_break_holder] --> MA comparados fue:<!-- [et_pb_line_break_holder] --> </font></p><!-- [et_pb_line_break_holder] --><p align="center"><img src="https://sag.org.ar/jbag/wp-content/uploads/2019/11/XXIX1a04for1.jpg" width="141" height="26" /></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif">donde y es el vector de valores fenotípicos (conteniendo<!-- [et_pb_line_break_holder] --> un dato fenotípico por genotipo), X es la matriz de datos<!-- [et_pb_line_break_holder] --> de los marcadores moleculares (tantas columnas como<!-- [et_pb_line_break_holder] --> marcadores usados), b es un vector desconocido de efectos<!-- [et_pb_line_break_holder] --> de los alelos de cada marcador que debe ser estimado<!-- [et_pb_line_break_holder] --> para identificar aquellos marcadores asociados con el fenotipo,<!-- [et_pb_line_break_holder] --> EGP es la matriz de estructura genética (construida<!-- [et_pb_line_break_holder] --> alternativamente como la matriz Q de la salida del software<!-- [et_pb_line_break_holder] --> structure o la matriz P de componentes principales estadísticamente<!-- [et_pb_line_break_holder] --> significativas seleccionadas por el estadístico<!-- [et_pb_line_break_holder] --> de Tracy-Widom (1994), ambos realizados previamente<!-- [et_pb_line_break_holder] --> sobre los datos moleculares), v es el vector de efectos de la<!-- [et_pb_line_break_holder] --> estructura poblacional (en algunas aproximaciones considerado<!-- [et_pb_line_break_holder] --> como vector de efectos fijos y en otras como vector<!-- [et_pb_line_break_holder] --> de efectos aleatorios), Z es la matriz de incidencia que<!-- [et_pb_line_break_holder] --> conecta el vector aleatorio u de efectos de poligen con<!-- [et_pb_line_break_holder] --> los datos fenotípicos (matriz identidad de dimensión igual<!-- [et_pb_line_break_holder] --> al número de genotipos que componen la población de<!-- [et_pb_line_break_holder] --> mapeo) y e es un vector de términos de error aleatorio,<!-- [et_pb_line_break_holder] --> que se supone normalmente distribuido con media<!-- [et_pb_line_break_holder] --> cero y varianza constante 2<!-- [et_pb_line_break_holder] --> e s . Se supone que el vector u<!-- [et_pb_line_break_holder] --> se distribuye independientemente del vector e y con matriz<!-- [et_pb_line_break_holder] --> de varianzas y covarianzas dada por 2<!-- [et_pb_line_break_holder] --> s e K , siendo<!-- [et_pb_line_break_holder] --> K la matriz de similitud entre todos los pares de perfiles<!-- [et_pb_line_break_holder] --> moleculares derivadas del software EMMA (Kang et al.,<!-- [et_pb_line_break_holder] --> 2008) y que es usada como indicador del parentesco o la<!-- [et_pb_line_break_holder] --> filogenética existente entre los genotipos de la población<!-- [et_pb_line_break_holder] --> de mapeo.</font></p><!-- [et_pb_line_break_holder] --><p><a name="tab2" id="tab2"></a></p><!-- [et_pb_line_break_holder] --><p align="center"><font size="2" face="Arial, Helvetica, sans-serif"> <b>Tabla 2</b>. Ocho modelos de mapeo asociativo para evaluar el efecto del<!-- [et_pb_line_break_holder] -->marcador sobre el fenotipo en datos simulados. </font><font size="2"><br /><!-- [et_pb_line_break_holder] --><font face="Arial, Helvetica, sans-serif"> <img src="https://sag.org.ar/jbag/wp-content/uploads/2019/11/XXIX1a04tab2.jpg" width="362" height="94" /><br /><!-- [et_pb_line_break_holder] -->Nota: Q es la matriz de probabilidades de pertenencia a los g grupos calculada por el software structure, P es la matriz<!-- [et_pb_line_break_holder] --> de componentes principales retenidas mediante el estadístico de Tracy-Widom(1994) y K es la matriz de parentesco<!-- [et_pb_line_break_holder] -->propuesta por Kang et al., (2008). </font></font></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif"> <b>Criterios de comparación <br /><!-- [et_pb_line_break_holder] --></b> Todos los modelos fueron ajustados usando Info-Gen (Balzarini<!-- [et_pb_line_break_holder] -->y Di Rienzo, 2004) y su interfaz con R (Team,<!-- [et_pb_line_break_holder] -->2013). El desempeño de los ocho modelos se evaluó usando<!-- [et_pb_line_break_holder] --> las curvas de distribución acumulada de valores-p. Para<!-- [et_pb_line_break_holder] --> construir las curvas de distribución de valores-p, se usó<!-- [et_pb_line_break_holder] --> la opción función de distribución empírica del software<!-- [et_pb_line_break_holder] --> Info-Gen (Balzarini y Di Rienzo, 2004) usando como variable<!-- [et_pb_line_break_holder] --> de análisis el valor-p asociado a cada una de las pruebas<!-- [et_pb_line_break_holder] --> de hipótesis realizadas en un escenario. En cada escenario<!-- [et_pb_line_break_holder] --> hay tantas pruebas de hipótesis de asociación como<!-- [et_pb_line_break_holder] --> marcadores. Es importante resaltar que en una distribución<!-- [et_pb_line_break_holder] --> acumulada de valores-p se espera que, si la modelación ha<!-- [et_pb_line_break_holder] --> sido buena, la distribución se aproxime a una línea recta de<!-- [et_pb_line_break_holder] --> 45 grados, ya que la distribución de los valores-p debiera<!-- [et_pb_line_break_holder] --> ser simétrica. Una distribución asimétrica hacia valores-p<!-- [et_pb_line_break_holder] --> pequeños indica mayor significancia de la esperada, lo que<!-- [et_pb_line_break_holder] --> sugiere un posible incremento de falsos positivos, es decir<!-- [et_pb_line_break_holder] --> presencia de asociaciones espurias.<br /><!-- [et_pb_line_break_holder] --> Luego de aplicarse las correcciones por multiplicidad<!-- [et_pb_line_break_holder] --> en los modelos seleccionados, se usó como criterio de<!-- [et_pb_line_break_holder] --> evaluación la tasa de falsos descubrimientos o FDR (del<!-- [et_pb_line_break_holder] --> inglés, False Discovery Rate) (Benjamini y Hochberg, 1995) </font><font size="3" face="Arial, Helvetica, sans-serif">y la potencia estadística. La tasa FDR se calculó en base a<!-- [et_pb_line_break_holder] --> las proporciones de falsos positivos (FP) y verdaderos positivos<!-- [et_pb_line_break_holder] --> (VP). Los FP son todos aquellos valores-p significativos<!-- [et_pb_line_break_holder] --> vinculados a marcadores que no están asociados al<!-- [et_pb_line_break_holder] --> fenotipo (no ligados a un QTL) y los VP son todos aquellos<!-- [et_pb_line_break_holder] --> marcadores positivos que efectivamente están asociados<!-- [et_pb_line_break_holder] -->al fenotipo (ligados a un QTL), de esta forma tenemos,</font></p><!-- [et_pb_line_break_holder] --><p align="center"><img src="https://sag.org.ar/jbag/wp-content/uploads/2019/11/XXIX1a04for2.jpg" width="113" height="45" /></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif"> La potencia estadística en la detección de marcadores<!-- [et_pb_line_break_holder] --> asociados con el fenotipo está referida a una medida de<!-- [et_pb_line_break_holder] --> eficacia de los modelos y es la probabilidad de que la<!-- [et_pb_line_break_holder] --> hipótesis nula (H0) sea rechazada cuando esta es falsa o<!-- [et_pb_line_break_holder] --> dicho de otra manera cuando la hipótesis alternativa (Ha)<!-- [et_pb_line_break_holder] --> es verdadera. La potencia estadística (φ) puede interpretarse<!-- [et_pb_line_break_holder] --> como la probabilidad de no cometer error del tipo<!-- [et_pb_line_break_holder] --> II (error que producen los eventos conocidos como falsos<!-- [et_pb_line_break_holder] --> negativos, FN). La potencia fue calculada como, </font></p><!-- [et_pb_line_break_holder] --><p align="center"><img src="https://sag.org.ar/jbag/wp-content/uploads/2019/11/XXIX1a04for3.jpg" width="101" height="56" /></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif">Usando los datos de los 4 escenarios simulados consideramos<!-- [et_pb_line_break_holder] --> el problema de contrastar simultáneamente m hipótesis<!-- [et_pb_line_break_holder] --> nulas 0 H j , j =1,...,m, con m= 300. Si R es la cantidad<!-- [et_pb_line_break_holder] --> de hipótesis rechazadas, los resultados posibles luego del<!-- [et_pb_line_break_holder] --> contraste de hipótesis pueden resumirse como en la <a href="#tab3">Tabla<!-- [et_pb_line_break_holder] --> 3</a>. Los conjuntos de subíndices que corresponden a hipótesis<!-- [et_pb_line_break_holder] --> nulas verdaderas y falsas 0{0 } = j : H j es verdadera<!-- [et_pb_line_break_holder] --> y 1{0 } = j : H j no es verdadera son desconocidos y<!-- [et_pb_line_break_holder] --> serán estimados mediante la simulación. El conjunto total<!-- [et_pb_line_break_holder] --> de índices es {}0 1 = 1,2,...,m = . Las cantidades<!-- [et_pb_line_break_holder] --> de hipótesis nulas verdaderas 0 0 m = # y falsas<!-- [et_pb_line_break_holder] --> 1 0 1 m = mm = # , fueron estimadas por conteo dentro<!-- [et_pb_line_break_holder] --> de cada escenario. En cada escenario simulado se estimó la<!-- [et_pb_line_break_holder] --> cantidad de hipótesis nulas rechazadas R y no rechazadas<!-- [et_pb_line_break_holder] --> m-R (variables aleatorias observables a través del conjunto<!-- [et_pb_line_break_holder] --> de prueba de hipótesis).</font></p><!-- [et_pb_line_break_holder] --><p><a name="tab3" id="tab3"></a></p><!-- [et_pb_line_break_holder] --><p align="center"><font size="2" face="Arial, Helvetica, sans-serif"> <b>Tabla 3</b>. Situaciones posibles luego de realizar m pruebas de hipótesis.</font><br /><!-- [et_pb_line_break_holder] --> <img src="https://sag.org.ar/jbag/wp-content/uploads/2019/11/XXIX1a04tab3.jpg" width="500" height="134" /></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif"> <b>Procedimientos de corrección por multiplicidad <br /><!-- [et_pb_line_break_holder] --></b> Para cada escenario se implementaron 3 métodos de<!-- [et_pb_line_break_holder] --> corrección por multiplicidad y con fines comparativos,<!-- [et_pb_line_break_holder] --> también se observaron los resultados luego de contrastar las<!-- [et_pb_line_break_holder] --> m hipótesis sin corrección por multiplicidad. Los métodos<!-- [et_pb_line_break_holder] --> implementados para corregir valores-p del conjunto de<!-- [et_pb_line_break_holder] --> pruebas por multiplicidad fueron tres: (1) BH, propuesto<!-- [et_pb_line_break_holder] --> por Benjamini y Hochberg (1995); (2) LJ propuesto por<!-- [et_pb_line_break_holder] --> Li y Ji (2005); y (3) un nuevo procedimiento propuesto<!-- [et_pb_line_break_holder] --> en este trabajo que llamamos Li y Ji Modificado (MLJ). El<!-- [et_pb_line_break_holder] --> método de Bonferroni (1935) tradicionalmente usado en<!-- [et_pb_line_break_holder] --> problemas de multiplicidad, no fue usado por ser altamente<!-- [et_pb_line_break_holder] --> conservador en situaciones como las que se producen en<!-- [et_pb_line_break_holder] --> MA donde el número de contrastes de hipótesis asciende a<!-- [et_pb_line_break_holder] --> cientos e incluso miles de pruebas.<!-- [et_pb_line_break_holder] --> <br /><!-- [et_pb_line_break_holder] --> Para implementar la corrección propuesta por<!-- [et_pb_line_break_holder] --> Benjamini y Hochberg (1995) se realizó el siguiente<!-- [et_pb_line_break_holder] --> procedimiento:<!-- [et_pb_line_break_holder] --> <br /><!-- [et_pb_line_break_holder] --> 1. Los valores-p de las m pruebas de hipótesis se ordenaron<!-- [et_pb_line_break_holder] --> de menor a mayor.<!-- [et_pb_line_break_holder] --> <br /><!-- [et_pb_line_break_holder] --> 2. El valor-p mayor no fue ajustado.<!-- [et_pb_line_break_holder] --> <br /><!-- [et_pb_line_break_holder] --> 3. Cada uno de los restantes valores-p se multiplicó por<!-- [et_pb_line_break_holder] --> el número total de marcadores y se dividió por el valor<!-- [et_pb_line_break_holder] --> que denota su orden en la lista de valores-p ordenados.<!-- [et_pb_line_break_holder] --> Si el valor resultante era menor que 0,05, se rechazaba<!-- [et_pb_line_break_holder] -->la hipótesis nula.</font></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif"> Para implementar el método de corrección de Li y Ji<!-- [et_pb_line_break_holder] --> (2005), basado en la idea propuesta por Cheverud (2001)<!-- [et_pb_line_break_holder] --> para ajustar pruebas de hipótesis correlacionadas, se realizaron<!-- [et_pb_line_break_holder] --> los siguientes pasos:<!-- [et_pb_line_break_holder] --> <br /><!-- [et_pb_line_break_holder] --> 1. Se calculó la matriz de correlación para todos los loci.<!-- [et_pb_line_break_holder] --> <br /><!-- [et_pb_line_break_holder] --> 2. Se calculó el número efectivo (Meff) de pruebas<!-- [et_pb_line_break_holder] --></font><font size="3" face="Arial, Helvetica, sans-serif">independientes a través de la obtención de los valores<!-- [et_pb_line_break_holder] --> propios de la matriz de correlación, donde M es el<!-- [et_pb_line_break_holder] --> número de pruebas y son los valores<!-- [et_pb_line_break_holder] -->propios: </font></p><!-- [et_pb_line_break_holder] --><p align="center"><img src="https://sag.org.ar/jbag/wp-content/uploads/2019/11/XXIX1a04for4.jpg" width="235" height="88" /></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif">donde es una función indicadora que vale 1<!-- [et_pb_line_break_holder] --> cuando y 0 en otro caso, y es la función<!-- [et_pb_line_break_holder] --> parte entera que devuelve el mayor entero posible<!-- [et_pb_line_break_holder] --> menor o igual a x.<!-- [et_pb_line_break_holder] --> <br /><!-- [et_pb_line_break_holder] --> 3. Se ajustó el nivel de significación de la prueba como<!-- [et_pb_line_break_holder] --> si hubiera Meff pruebas independientes usando la<!-- [et_pb_line_break_holder] --> corrección de Sidak (1967):<!-- [et_pb_line_break_holder] --> <br /><!-- [et_pb_line_break_holder] --> 4. Se realizaron las m pruebas de hipótesis locus por locus y<!-- [et_pb_line_break_holder] --> cuando el valor-p de alguna prueba era menor que ,<!-- [et_pb_line_break_holder] --> la hipótesis de no asociación fue rechazada.<!-- [et_pb_line_break_holder] --> </font></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif">El método de corrección por multiplicidad propuesto<!-- [et_pb_line_break_holder] --> en este trabajo está basado en la aproximación de Li y<!-- [et_pb_line_break_holder] --> Ji (2005) con una modificación que contempla la posible<!-- [et_pb_line_break_holder] --> EGP que subyace la población de mapeo. En caso de poblaciones<!-- [et_pb_line_break_holder] --> estructuradas, la modificación analizará la correlación<!-- [et_pb_line_break_holder] --> entre marcadores, controlando por la presencia de<!-- [et_pb_line_break_holder] --> los grupos que definen la EGP, para derivar un Meff. Con<!-- [et_pb_line_break_holder] --> este fin, la matriz de correlación utilizada en el método<!-- [et_pb_line_break_holder] --> LJ es reemplazada por una matriz de estadísticos<!-- [et_pb_line_break_holder] --> c 2 de<!-- [et_pb_line_break_holder] --> Mantel y Haenszel (1959). Los estadísticos<!-- [et_pb_line_break_holder] --> c 2 fueron obtenidos<!-- [et_pb_line_break_holder] --> a partir de tablas de contingencia construidas entre<!-- [et_pb_line_break_holder] --> pares de marcadores, fijando la variable que indica el grupo<!-- [et_pb_line_break_holder] --> al cual pertenecen los genotipos como variable de control.<!-- [et_pb_line_break_holder] --> La evaluación del impacto de los métodos de corrección<!-- [et_pb_line_break_holder] --> se realizó considerando ambos niveles de FST usados<!-- [et_pb_line_break_holder] --> en la simulación, ambos tamaños poblacionales y distintos<!-- [et_pb_line_break_holder] --> modelos de MA para generar la lista de valores-p sin corregir.<!-- [et_pb_line_break_holder] --> Los modelos ajustados seleccionados para evaluar la<!-- [et_pb_line_break_holder] --> corrección por multiplicidad fueron: QK y K (Yu et al.,<!-- [et_pb_line_break_holder] --> 2006) y el modelo de mapeo de regresión de efectos fijos<!-- [et_pb_line_break_holder] --> que incluye los 300 marcadores como variables independientes<!-- [et_pb_line_break_holder] --> y no incorpora de ninguna manera explícita el modelado<!-- [et_pb_line_break_holder] --> de la EGP (modelo naive).</font></p><!-- [et_pb_line_break_holder] --><p><b><font size="3" face="Arial, Helvetica, sans-serif"> RESULTADOS</font></b></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif"> Las funciones de distribución acumulada para los<!-- [et_pb_line_break_holder] --> 4 escenarios que involucraron datos genéticos de<!-- [et_pb_line_break_holder] --> 300 marcadores moleculares multilocus-bialélicos,<!-- [et_pb_line_break_holder] --> consistentemente mostraron que los modelos con mejor<!-- [et_pb_line_break_holder] --> ajuste fueron el modelo K y el modelo QK (<a href="#fig1">Figura 1</a>).<!-- [et_pb_line_break_holder] --> Con bajo FST (<a href="#fig1">Figura 1</a> arriba, escenarios I y II) se observó<!-- [et_pb_line_break_holder] --> que el modelo de menor desempeño fue el modelo P.<!-- [et_pb_line_break_holder] --> Los modelos se comportaron de manera parecida cuando<!-- [et_pb_line_break_holder] --> fueron ajustados en un contexto de alto FST (<a href="#fig1">Figura 1</a> abajo, escenarios III y IV), situación en la que se observó<!-- [et_pb_line_break_holder] --> menor diferencias entre los ajustes, principalmente para<!-- [et_pb_line_break_holder] --> el caso de mayor estructuración relativa en la población,<!-- [et_pb_line_break_holder] --> correspondiente a un valor de FST de 0,20 y a una población<!-- [et_pb_line_break_holder] --> de 150 individuos.<!-- [et_pb_line_break_holder] --> </font></p><!-- [et_pb_line_break_holder] --><p><a name="fig1" id="fig1"></a></p><!-- [et_pb_line_break_holder] --><p align="center"><font size="2" face="Arial, Helvetica, sans-serif"> <b><img src="https://sag.org.ar/jbag/wp-content/uploads/2019/11/XXIX1a04fig1.jpg" width="468" height="405" /><br /><!-- [et_pb_line_break_holder] --> Figura 1</b>. Función de distribución acumulada de los valores-p para cada uno de los ocho modelos evaluados<!-- [et_pb_line_break_holder] --> en cuatro escenarios simulados que contienen 300 marcadores moleculares multilocus-bialélicos.<!-- [et_pb_line_break_holder] --> En la columna de la izquierda escenarios con tamaño poblacional de 150 y en la columna derecha<!-- [et_pb_line_break_holder] -->tamaño poblacional de 300. Arriba FST bajo y abajo FST alto. </font></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif">Las tasas FDR fueron menores para alto FST en los<!-- [et_pb_line_break_holder] --> tres métodos de corrección por multiplicidad, i.e., para los<!-- [et_pb_line_break_holder] --> dos modelos de mapeo asociativo seleccionados por tener<!-- [et_pb_line_break_holder] --> el mejor desempeño (modelo K y modelo QK) y para el<!-- [et_pb_line_break_holder] --> modelo naive, seleccionado como modelo de referencia;<!-- [et_pb_line_break_holder] --> tanto en poblaciones de tamaño 150 como de 300 se pudo </font><font size="3" face="Arial, Helvetica, sans-serif">observar que las tasas FDR fueron menores para alto FST.<!-- [et_pb_line_break_holder] --> Cuando nos ubicamos en la situación de no corrección<!-- [et_pb_line_break_holder] --> por estructura ni parentesco en el modelado, es decir cuando<!-- [et_pb_line_break_holder] --> ajustamos un modelo naive, podemos observar que la<!-- [et_pb_line_break_holder] --> tasa FDR disminuye con todas las correcciones respecto<!-- [et_pb_line_break_holder] --> a sin corrección (SC), pero con alto FST baja en mayor<!-- [et_pb_line_break_holder] --> medida corrigiendo con MLJ que con BH y LJ, esto se<!-- [et_pb_line_break_holder] --> debe a que la estructura es grande y no fue corregida previamente<!-- [et_pb_line_break_holder] --> en el modelado. Cuando la estructura es baja, es<!-- [et_pb_line_break_holder] --> decir el nivel de convergencia entre poblaciones es alto, es<!-- [et_pb_line_break_holder] --> más importante incluir la corrección por estructura en el<!-- [et_pb_line_break_holder] --> modelado que en la corrección por multiplicidad, si bien<!-- [et_pb_line_break_holder] --> las tasas FDR igualmente bajan con las correcciones por<!-- [et_pb_line_break_holder] --> multiplicidad, dicha disminución no se produce de forma<!-- [et_pb_line_break_holder] --> tan drástica como en la situación de alta estructura genética<!-- [et_pb_line_break_holder] --> poblacional (<a href="#tab4">Tabla 4</a> y <a href="#tab5">Tabla 5</a>).<!-- [et_pb_line_break_holder] --> </font></p><!-- [et_pb_line_break_holder] --><p><a name="tab4" id="tab4"></a></p><!-- [et_pb_line_break_holder] --><p align="center"><font size="3" face="Arial, Helvetica, sans-serif"><font size="2"><b>Tabla 4</b>. Tasa de falsos descubrimientos (FDR) para tres modelos de mapeo<!-- [et_pb_line_break_holder] --> asociativo, tres opciones de corrección de valores-p por inferencia<!-- [et_pb_line_break_holder] --> simultánea bajo dos niveles de estructura genética poblacional, baja<!-- [et_pb_line_break_holder] --> (FST= 0,03) y alta (FST= 0,2) divergencia genética, con un tamaño<!-- [et_pb_line_break_holder] -->poblacional de 150.<br /><!-- [et_pb_line_break_holder] --><img src="https://sag.org.ar/jbag/wp-content/uploads/2019/11/XXIX1a04tab4.jpg" width="383" height="142" /><br /><!-- [et_pb_line_break_holder] --></font></font><font size="2" face="Arial, Helvetica, sans-serif">*SC: Sin corrección por multiplicidad, BH: Benjamini y Hochberg, LJ: Li y Ji, MLJ: Li y Ji Modificado. **naive: sin<!-- [et_pb_line_break_holder] --> corrección por estructura, K: con corrección por matriz de parentesco y QK: modelo mixto con Q, corrección mediante la<!-- [et_pb_line_break_holder] --> matriz de probabilidades a posteriori obtenida con el software Structure, como factor de efectos fijos y K factor de efectos<!-- [et_pb_line_break_holder] --> aleatorios. </font></p><!-- [et_pb_line_break_holder] --><p><a name="tab5" id="tab5"></a></p><!-- [et_pb_line_break_holder] --><p align="center"><font size="2" face="Arial, Helvetica, sans-serif"> <b>Tabla 5</b>. Tasa de falsos descubrimientos (FDR) para tres modelos de mapeo asociativo, tres opciones<!-- [et_pb_line_break_holder] --> de corrección de valores-p por inferencia simultánea bajo dos niveles de estructura genética<!-- [et_pb_line_break_holder] --> poblacional, baja (FST= 0,03) y alta (FST= 0,2) divergencia genética, con un tamaño poblacional<!-- [et_pb_line_break_holder] -->de 300.<br /><!-- [et_pb_line_break_holder] --><img src="https://sag.org.ar/jbag/wp-content/uploads/2019/11/XXIX1a04tab5.jpg" width="351" height="130" /><br /><!-- [et_pb_line_break_holder] -->*SC: Sin corrección por multiplicidad, BH: Benjamini y Hochberg, LJ: Li y Ji, MLJ: Li y Ji Modificado. **naive: <!-- [et_pb_line_break_holder] -->sin corrección por estructura, K: con corrección por matriz de parentesco y QK: modelo mixto con Q, corrección <!-- [et_pb_line_break_holder] -->mediante la matriz de probabilidades a posteriori obtenida con el software Structure, como factor de efectos fijos y K <!-- [et_pb_line_break_holder] -->factor de efectos aleatorios.</font></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif">Los resultados indicaron que aún para el caso de no<!-- [et_pb_line_break_holder] --> corrección por EGP, es decir con el modelo naive, la aplicación<!-- [et_pb_line_break_holder] --> de métodos de ajustes de valor-p por multiplicidad<!-- [et_pb_line_break_holder] --> reduce la potencia significativamente. Potencias excesivamente<!-- [et_pb_line_break_holder] --> bajas se observaron en escenarios correspondientes<!-- [et_pb_line_break_holder] --> al menor tamaño poblacional (150 individuos) cuando las<!-- [et_pb_line_break_holder] --> subpoblaciones tenían poca divergencia. Cuando se ajustaron<!-- [et_pb_line_break_holder] --> los modelos de mapeo K o QK, la corrección de<!-- [et_pb_line_break_holder] --> valores-p también produjo reducciones importantes de<!-- [et_pb_line_break_holder] --> potencia. Estas reducciones fueron de mayor magnitud<!-- [et_pb_line_break_holder] --> que las producidas por el ajuste de un modelo de MA<!-- [et_pb_line_break_holder] --> que controla EGP y sin corrección por multiplicidad. Es<!-- [et_pb_line_break_holder] --> importante, mencionar que los métodos presentados para<!-- [et_pb_line_break_holder] --> corrección por multiplicidad han sido diseñados para controlar<!-- [et_pb_line_break_holder] --> el error de tipo I en una familia de pruebas y no para<!-- [et_pb_line_break_holder] --> aumentar la probabilidad de detectar verdaderos positivos.<!-- [et_pb_line_break_holder] --> Por la relación teórica existente entre los errores de tipo I<!-- [et_pb_line_break_holder] --> y de tipo II en las pruebas de hipótesis es de esperar que la<!-- [et_pb_line_break_holder] --> reducción significativa que estos métodos producen a nivel<!-- [et_pb_line_break_holder] --> de FDR se encuentre asociada a pérdida de potencia. No<!-- [et_pb_line_break_holder] --> obstante, la potencia con alto FST para el método MLJ<!-- [et_pb_line_break_holder] --> fue igual o superior a la de los otros dos métodos de corrección<!-- [et_pb_line_break_holder] --> de valores-p por multiplicidad (<a href="#tab6">Tabla 6</a> y <a href="#tab7">Tabla 7</a>).<!-- [et_pb_line_break_holder] --> Con el mayor de los tamaños poblacionales (300), la<!-- [et_pb_line_break_holder] --> aplicación del método MLJ directamente sobre los valores-<!-- [et_pb_line_break_holder] --> p derivados del modelo más simple (de efectos fijos<!-- [et_pb_line_break_holder] --> y sin corrección por EG, i.e., naive) produjo potencias similares<!-- [et_pb_line_break_holder] --> a las obtenidas con el modelo de mapeo QK y sin<!-- [et_pb_line_break_holder] --> ninguna corrección de valores-p. Las mayores pérdidas de<!-- [et_pb_line_break_holder] --> potencia se obtuvieron con las dos estrategias usadas para<!-- [et_pb_line_break_holder] --> controlar por EGP simultáneamente, es decir en el momento<!-- [et_pb_line_break_holder] --> del modelado y al utilizar los valores-p para determinar<!-- [et_pb_line_break_holder] --> significancia. MLJ produjo menor FDR que LJ en<!-- [et_pb_line_break_holder] --> escenarios de alta estructura genética y no mostró mayores<!-- [et_pb_line_break_holder] --> reducciones de potencia que LJ. </font></p><!-- [et_pb_line_break_holder] --><p><a name="tab6" id="tab6"></a></p><!-- [et_pb_line_break_holder] --><p align="center"><font size="2" face="Arial, Helvetica, sans-serif"> <b>Tabla 6</b>. Tasa de falsos descubrimientos (FDR) para tres modelos de mapeo asociativo, tres opciones<!-- [et_pb_line_break_holder] --> de corrección de valores-p por inferencia simultánea bajo dos niveles de estructura genética<!-- [et_pb_line_break_holder] --> poblacional, baja (FST= 0,03) y alta (FST= 0,2) divergencia genética, con un tamaño poblacional<!-- [et_pb_line_break_holder] -->de 300.<br /><!-- [et_pb_line_break_holder] --><img src="https://sag.org.ar/jbag/wp-content/uploads/2019/11/XXIX1a04tab6.jpg" width="345" height="131" /><br /><!-- [et_pb_line_break_holder] -->*SC: Sin corrección por multiplicidad, BH: Benjamini y Hochberg, LJ: Li y Ji, MLJ: Li y Ji Modificado. **naive: <!-- [et_pb_line_break_holder] -->sin corrección por estructura, K: con corrección por matriz de parentesco y QK: modelo mixto con Q, corrección <!-- [et_pb_line_break_holder] -->mediante la matriz de probabilidades a posteriori obtenida con el software Structure, como factor de efectos fijos <!-- [et_pb_line_break_holder] -->y K factor de efectos aleatorios.</font></p><!-- [et_pb_line_break_holder] --><p><a name="tab7" id="tab7"></a></p><!-- [et_pb_line_break_holder] --><p align="center"><font size="2" face="Arial, Helvetica, sans-serif"> <b>Tabla 7</b>. Potencia estadística para tres modelos de mapeo asociativo, tres opciones de corrección de<!-- [et_pb_line_break_holder] --> valores-p por inferencia simultánea bajo dos niveles de estructura genética poblacional, baja<!-- [et_pb_line_break_holder] -->(FST= 0,03) y Alto (FST= 0,2) divergencia genética, con un tamaño poblacional de 300.<br /><!-- [et_pb_line_break_holder] --><img src="https://sag.org.ar/jbag/wp-content/uploads/2019/11/XXIX1a04tab7.jpg" width="343" height="125" /><br /><!-- [et_pb_line_break_holder] -->*SC: Sin corrección por multiplicidad, BH: Benjamini y Hochberg, LJ: Li y Ji, MLJ: Li y Ji Modificado. **naive: <!-- [et_pb_line_break_holder] -->sin corrección por estructura, K: con corrección por matriz de parentesco y QK: modelo mixto con Q, <!-- [et_pb_line_break_holder] -->corrección mediante la matriz de probabilidades a posteriori obtenida con el software Structure, como factor de <!-- [et_pb_line_break_holder] -->efectos fijos y K factor de efectos aleatorios.</font></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif"> <b>DISCUSIÓN</b></font></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif"> La corrección por multiplicidad con el método MLJ,<!-- [et_pb_line_break_holder] --> propuesto en este trabajo, fue más potente que los métodos<!-- [et_pb_line_break_holder] --> de corrección LJ y BH con los que fue comparado bajos<!-- [et_pb_line_break_holder] --> distintos escenarios en relación al tamaño poblacional<!-- [et_pb_line_break_holder] --> y al nivel de diferenciación genética entre las subpoblaciones<!-- [et_pb_line_break_holder] --> de la población de mapeo. MLJ disminuyó la FDR<!-- [et_pb_line_break_holder] --> en mayor proporción que BH y LJ en escenarios con alta<!-- [et_pb_line_break_holder] --> divergencia genética poblacional aun cuando la EGP no<!-- [et_pb_line_break_holder] --> había sido incluida en el ajuste del modelo, i.e. modelo naive.<!-- [et_pb_line_break_holder] --> Para estudios de asociación genómica donde los marcadores<!-- [et_pb_line_break_holder] --> pueden estar asociados, Li y Ji (2005) propusieron<!-- [et_pb_line_break_holder] --> determinar el número efectivo de pruebas independientes<!-- [et_pb_line_break_holder] --> (Meff) para usarlo posteriormente en la corrección de los<!-- [et_pb_line_break_holder] --> valores-p de las pruebas de hipótesis realizadas para descubrir<!-- [et_pb_line_break_holder] --> asociaciones entre el estado de cada marcador y el<!-- [et_pb_line_break_holder] --> fenotipo. Li y Ji op. cit., usaron la descomposición espectral<!-- [et_pb_line_break_holder] --> de la matriz de correlación entre marcadores para determinar<!-- [et_pb_line_break_holder] --> el número de pruebas independientes. Esta aproximación<!-- [et_pb_line_break_holder] --> es la base del método de corrección MLJ, aunque<!-- [et_pb_line_break_holder] --> a diferencia de LJ, MLJ incorpora la estructura genética<!-- [et_pb_line_break_holder] --> poblacional (EGP) en el cálculo de Meff. La estrategia metodológica<!-- [et_pb_line_break_holder] --> para contemplar la falta de independencia entre<!-- [et_pb_line_break_holder] --> las pruebas de hipótesis que es ocasionada por la presencia<!-- [et_pb_line_break_holder] --> de EGP, es ajustar la asociación entre cualquier par de marcadores<!-- [et_pb_line_break_holder] --> por la estructura de grupo que determina la EGP.<!-- [et_pb_line_break_holder] --> Así, la matriz de correlación usada por LJ es reemplazada<!-- [et_pb_line_break_holder] --> por la matriz de medidas de asociación calculadas mediante<!-- [et_pb_line_break_holder] --> el estadístico χ2 de Mantel y Haenszel (1959) fijando<!-- [et_pb_line_break_holder] --> como variable de control el grupo al que pertenece cada<!-- [et_pb_line_break_holder] --> individuo de la población de mapeo.<br /><!-- [et_pb_line_break_holder] --> Li et al. (2012) también trabajaron con la matriz de<!-- [et_pb_line_break_holder] --> correlación entre marcadores, pero propusieron particionar<!-- [et_pb_line_break_holder] --> dicha matriz en bloques de grupos de ligamiento<!-- [et_pb_line_break_holder] --> para acelerar los tiempos computacionales relativos a la<!-- [et_pb_line_break_holder] --> descomposición espectral. La estratificación en grupos de<!-- [et_pb_line_break_holder] --> ligamiento permitió obtener una tasa de error de tipo I<!-- [et_pb_line_break_holder] --> con valores cercanos al correcto de 0,05. Mientras mayor<!-- [et_pb_line_break_holder] --> era la cantidad de estratos, más se acercaba al nivel de significación<!-- [et_pb_line_break_holder] --> deseado (Li et al., 2012). La propuesta fue comparada<!-- [et_pb_line_break_holder] --> con otros métodos de corrección por multiplicidad,<!-- [et_pb_line_break_holder] --> incluyendo el método de Li y Ji (2005) y el método de<!-- [et_pb_line_break_holder] --> Moskvina y Schmidt (2008) que también estima el número<!-- [et_pb_line_break_holder] --> de pruebas independientes a partir de la matriz de correlación<!-- [et_pb_line_break_holder] --> entre marcadores, pero agrega el grado de independencia<!-- [et_pb_line_break_holder] --> estadística entre las pruebas de hipótesis de un<!-- [et_pb_line_break_holder] --> marcador respecto a los marcadores que lo preceden (Keff).<!-- [et_pb_line_break_holder] --> LJ resultó, en esta comparación, más liberal que el método<!-- [et_pb_line_break_holder] --> de Moskvina y Schmidt (2008) el cual fue menos conservador<!-- [et_pb_line_break_holder] --> a medida que aumentaba la cantidad de bloques.<!-- [et_pb_line_break_holder] --> BH (Benjamini y Hochberg, 1995), es otro de los desarrollos<!-- [et_pb_line_break_holder] --> metodológicos difundidos para la corrección de<!-- [et_pb_line_break_holder] --> valores-p en casos de múltiples pruebas de hipótesis y de<!-- [et_pb_line_break_holder] --> extenso uso en mapeo asociativo (Gutiérrez et al., 2011;<!-- [et_pb_line_break_holder] --> Muñoz-Amatriaín et al., 2014; Olukolu et al., 2014; Wang<!-- [et_pb_line_break_holder] --> et al., 2012). BH fue concebido como un método para<!-- [et_pb_line_break_holder] --> corrección de la tasa de falsos descubrimientos. Para todos<!-- [et_pb_line_break_holder] --> los métodos de control de multiplicidad, la potencia o<!-- [et_pb_line_break_holder] --> capacidad de detectar asociaciones verdaderas disminuye a<!-- [et_pb_line_break_holder] --> medida que aumenta el número de pruebas (Benjamini y<!-- [et_pb_line_break_holder] --> Hochberg, 1995). En nuestro estudio, la pérdida de potencia<!-- [et_pb_line_break_holder] --> fue mayor en BH y LJ que en MLJ y fue más abrupta<!-- [et_pb_line_break_holder] --> para BH en el escenario con menor tamaño poblacional y<!-- [et_pb_line_break_holder] --> bajo nivel de divergencia genética.<!-- [et_pb_line_break_holder] --> Wang et al. (2012) estudiaron el efecto del tamaño poblacional<!-- [et_pb_line_break_holder] --> en la habilidad para detectar QTL usando un<!-- [et_pb_line_break_holder] --> modelo que corregía por estructura sobre líneas endocriadas<!-- [et_pb_line_break_holder] --> de cebada con EGP. A partir de las líneas disponibles<!-- [et_pb_line_break_holder] --> generaron poblaciones de tamaños diferentes: 96, 192, 288,<!-- [et_pb_line_break_holder] --> 384, 480, 576 y 672 individuos, encontrando que reducir<!-- [et_pb_line_break_holder] --> el tamaño poblacional por debajo de 384 individuos produce<!-- [et_pb_line_break_holder] --> una tasa alta de falsos descubrimientos. Cuando el<!-- [et_pb_line_break_holder] --> tamaño de la población de mapeo disminuyó de 480 a 288<!-- [et_pb_line_break_holder] --> individuos, la FDR aumentó un 18%. Nuestros hallazgos<!-- [et_pb_line_break_holder] --> también mostraron incremento de la FDR (7%), cuando<!-- [et_pb_line_break_holder] --> el tamaño poblacional disminuyó de 300 a 150 individuos.<br /><!-- [et_pb_line_break_holder] --> Beavis (1998) postuló que la construcción de un<!-- [et_pb_line_break_holder] --> resultado estadístico en un análisis de asociación donde<!-- [et_pb_line_break_holder] --> se pretende identificar QTL, puede caracterizarse según<!-- [et_pb_line_break_holder] --> los valores de error de tipo I asociado a la tasa de falsos<!-- [et_pb_line_break_holder] --> descubrimientos y según los valores de potencia para las<!-- [et_pb_line_break_holder] --> pruebas de asociación. Beavis op. cit. estudió el efecto de la<!-- [et_pb_line_break_holder] --> potencia simulando tres tamaños poblacionales (100, 500<!-- [et_pb_line_break_holder] --> y 1000 individuos para una progenie F2) para detectar 10<!-- [et_pb_line_break_holder] --> y 40 QTL, bajo tres niveles de heredabilidad expresado<!-- [et_pb_line_break_holder] --> como variabilidad fenotípica explicada por los QTL (30,<!-- [et_pb_line_break_holder] --> 63, 95%). Los valores de potencia estimados fueron menores<!-- [et_pb_line_break_holder] --> a 6% con tamaños poblacionales de 100 individuos aun<!-- [et_pb_line_break_holder] --> con QTL de alta heredabilidad. A medida que aumentaba<!-- [et_pb_line_break_holder] --> el tamaño poblacional, los valores de potencia estimados<!-- [et_pb_line_break_holder] --> aumentaron. Con 500 individuos las potencias fueron<!-- [et_pb_line_break_holder] --> mayores al 50% sólo con 10 QTL, pero con 40 QTL<!-- [et_pb_line_break_holder] --> se necesitaron 1000 individuos para alcanzar potencias mayores al 50% en la detección de QTL de mediana a<!-- [et_pb_line_break_holder] --> alta heredabilidad. Sin embargo, los QTL de menor efecto<!-- [et_pb_line_break_holder] --> no fueron bien detectados aun con 1000 individuos en la<!-- [et_pb_line_break_holder] --> población. Bradbury et al. (2011) usando datos genotípicos<!-- [et_pb_line_break_holder] --> del programa de cebada (BarleyCAP), simularon datos<!-- [et_pb_line_break_holder] --> con efectos fenotípicos para diferente cantidad de QTL<!-- [et_pb_line_break_holder] --> con tres niveles de heredabilidad. En cada escenario ellos<!-- [et_pb_line_break_holder] --> calcularon la potencia y el FDR para tamaños muestrales<!-- [et_pb_line_break_holder] --> de 100 y 300 individuos. Bajo el modelo K para mapeo<!-- [et_pb_line_break_holder] --> asociativo, las simulaciones con 100 líneas se desempeñaron<!-- [et_pb_line_break_holder] --> pobremente para la detección de QTL, pero simulaciones<!-- [et_pb_line_break_holder] --> con 300 líneas se desempeñaron adecuadamente. Las<!-- [et_pb_line_break_holder] --> simulaciones con 300 líneas resultaron suficientemente<!-- [et_pb_line_break_holder] --> potentes para detectar QTL cuando el carácter fenotípico<!-- [et_pb_line_break_holder] --> fue controlado por pocos QTL con tamaño de efecto<!-- [et_pb_line_break_holder] --> grande, aunque la potencia para detectar QTL de tamaño<!-- [et_pb_line_break_holder] --> de efecto pequeño fue deficiente. En nuestro trabajo, las<!-- [et_pb_line_break_holder] --> potencias fueron bajas debido a los tamaños poblaciones. La<!-- [et_pb_line_break_holder] --> corrección por multiplicidad disminuye la FDR y provoca<!-- [et_pb_line_break_holder] --> una pérdida de potencia en cualquiera de los métodos a<!-- [et_pb_line_break_holder] --> los que se ha hecho referencia. Sin embargo, la corrección<!-- [et_pb_line_break_holder] --> por multiplicidad con MLJ, usada en modelos donde no<!-- [et_pb_line_break_holder] --> se ha descontado el efecto de la EGP previamente, fue<!-- [et_pb_line_break_holder] --> la opción que condujo a la menor pérdida de potencia<!-- [et_pb_line_break_holder] --> en poblaciones con alta divergencia genética y mayor<!-- [et_pb_line_break_holder] --> tamaño poblacional. En poblaciones de mapeo de interés<!-- [et_pb_line_break_holder] --> agronómico es frecuente la presencia de ancestros en<!-- [et_pb_line_break_holder] --> común y por lo tanto la existencia de EGP, por lo que la<!-- [et_pb_line_break_holder] --> práctica de usar un modelo que descuente su efecto sobre<!-- [et_pb_line_break_holder] --> la dependencia en la pruebas de hipótesis es recomendable<!-- [et_pb_line_break_holder] --> para disminuir la tasa de falsos descubrimientos y trabajar<!-- [et_pb_line_break_holder] --> con poblaciones de mapeos de más de 300 individuos<!-- [et_pb_line_break_holder] --> para evitar que la tasa de no detección de QTL sea alta,<!-- [et_pb_line_break_holder] --> sobre todo en contextos donde se esperan varios QTL de<!-- [et_pb_line_break_holder] --> moderado o bajo efecto.</font></p><!-- [et_pb_line_break_holder] --><p><font size="3" face="Arial, Helvetica, sans-serif"> <b><font size="2">BIBLIOGRAFÍA</font></b></font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 1. Balzarini M., Di Rienzo J. (2004) Info-Gen. Universidad<!-- [et_pb_line_break_holder] --> Nacional de Cordoba, Córdoba.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 2. Balzarini M.G., Gonzalez L., Tablada M., Casanoves F., Di<!-- [et_pb_line_break_holder] --> Rienzo J.A., Robledo C.W. (2008) Infostat. Manual<!-- [et_pb_line_break_holder] --> del Usuario, Córdoba, Argentina.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 3. Beavis W.B. (1998) QTL analyses: power, precision, and accuracy.<!-- [et_pb_line_break_holder] --> In: Patterson A.H. (Ed.) Molecular dissection of<!-- [et_pb_line_break_holder] --> complex traits. CRC Press, Boca Raton.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 4. Benjamini Y., Hochberg Y. (1995) Controlling the false<!-- [et_pb_line_break_holder] --> discovery rate: A practical and powerful approach to<!-- [et_pb_line_break_holder] --> multiple testing. J. R. Stat. Soc. Ser. B 57: 289-300.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 5. Bernardo R. (2013) Genome wide markers as cofactors<!-- [et_pb_line_break_holder] --> for precision mapping of quantitative trait loci. Theor.<!-- [et_pb_line_break_holder] --> Appl. Genet. 126: 999-1009. doi:10.1007/s00122-<!-- [et_pb_line_break_holder] --> 012-2032-2.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 6. Bonferroni C.E. (1935) Il calcolo delle assicurazioni su<!-- [et_pb_line_break_holder] --> gruppi di teste. Studi in Onore del Professore Salvatore<!-- [et_pb_line_break_holder] --> Ortu Carboni, pp. 13-60.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 7. Bradbury P., Parker T., Hamblin M.T., Jannink J.L. (2011)<!-- [et_pb_line_break_holder] --> Assessment of power and false discovery in genome-<!-- [et_pb_line_break_holder] --> wide association studiesusing the BarleyCAP<!-- [et_pb_line_break_holder] --> germplasm. Crop Sci. 51: 52-59.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 8. Breseghello F., Sorrells M.E. (2006). Association Mapping<!-- [et_pb_line_break_holder] --> of Kernel Size and Milling Quality in Wheat (Triticum<!-- [et_pb_line_break_holder] --> aestivum L.) Cultivars. Genetics, 172(2), 1165–1177.<!-- [et_pb_line_break_holder] --> <a href="http://doi.org/10.1534/genetics.105.044586" target="_blank">http://doi.org/10.1534/genetics.105.044586</a>.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 9. Cappa E.P., El-Kassaby Y.A., Garcia M.N., Acuña C.,<!-- [et_pb_line_break_holder] --> Borralho N.M.G., Grattapaglia D., Marcucci Poltri S.<!-- [et_pb_line_break_holder] --> (2013) Impacts of population structure and analytical<!-- [et_pb_line_break_holder] --> models in genome-wide association studies of complex<!-- [et_pb_line_break_holder] --> traits in forest trees: a case study in Eucalyptus<!-- [et_pb_line_break_holder] --> globulus. PLoS ONE 8: e81267. doi:10.1371/journal.pone.0081267.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 10. Cheverud J.M. (2001) A simple correction for multiple<!-- [et_pb_line_break_holder] --> comparisons in interval mapping genome scans. Heredity<!-- [et_pb_line_break_holder] --> 87: 52-58.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 11. Draper N.R., Smith H. (1998) Applied regression analysis,<!-- [et_pb_line_break_holder] --> 3rd EditionWiley, New York.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 12. Excoffier L., Hofer T., Foll M. (2009) Detecting loci under<!-- [et_pb_line_break_holder] --> selection in a hierarchically structured population.<!-- [et_pb_line_break_holder] --> Heredity 103: 285-298. doi:<a href="http://www.nature.com/hdy/journal/v103/n4/suppinfo/hdy200974s1.html" target="_blank">http://www.nature.com/hdy/journal/v103/n4/suppinfo/hdy200974s1.html</a>.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 13. Gutiérrez L., Cuesta-Marcos A., Castro A.J., von Zitzewitz J., Schmitt M., Hayes P.M. (2011) Association<!-- [et_pb_line_break_holder] --> mapping of malting quality Quantitative Trait Loci in<!-- [et_pb_line_break_holder] --> winter barley: positive signals from small germplasm<!-- [et_pb_line_break_holder] --> arrays. Plant Gen. 4: 256-272. doi:10.3835/plantgenome2011.07.0020.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 14. Gutiérrez L., Germán S., Pereyra S., Hayes P., Pérez C., Capettini<!-- [et_pb_line_break_holder] --> F., Locatelli A., Berberian N.M., Falconi E.E.,<!-- [et_pb_line_break_holder] --> Estrada R., Fros D., Gonza V., Altamirano H., Huerta-<!-- [et_pb_line_break_holder] --> Espino J., Neyra E., Orjeda G., Sandoval-Islas S.,<!-- [et_pb_line_break_holder] --> Singh R., Turkington K., Castro A.J. (2015) Multi-environment<!-- [et_pb_line_break_holder] --> multi-QTL association mapping identifies<!-- [et_pb_line_break_holder] --> disease resistance QTL in barley germplasm from<!-- [et_pb_line_break_holder] --> Latin America. Theor. Appl. Genet. 128 (3): 501-516.<!-- [et_pb_line_break_holder] --> doi:10.1007/s00122-014-2448-y.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 15. Kang H.M., Zaitlen N.A., Wade C.M., Kirby A., Heckerman<!-- [et_pb_line_break_holder] --> D., Daly M.J., Eskin E. (2008) Efficient control<!-- [et_pb_line_break_holder] --> of population structure in model organism association<!-- [et_pb_line_break_holder] --> mapping. Genetics 178: 1709-1723. doi:10.1534/genetics.<!-- [et_pb_line_break_holder] --> 107.080101.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 16. Li J., Ji L. (2005) Adjusting multiple testing in multilocus<!-- [et_pb_line_break_holder] --> analyses using the eigenvalues of a correlation matrix.<!-- [et_pb_line_break_holder] --> Heredity 95: 221-227.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 17. Li M.X., Yeung J.M.Y., Cherny S.S., Sham P. (2012)<!-- [et_pb_line_break_holder] --> Evaluating the effective numbers of independent<!-- [et_pb_line_break_holder] --> tests and significant p-value thresholds in commercial<!-- [et_pb_line_break_holder] --> genotyping arrays and public imputation reference<!-- [et_pb_line_break_holder] --> datasets. Hum. Genet. 131(5): 747. <a href="https://doi.org/10.1007/s00439-011-1118-2" target="_blank">https://doi.org/10.1007/s00439-011-1118-2</a>.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 18. Locatelli A., Cuesta-Marcos A., Gutiérrez L., Hayes P.,<!-- [et_pb_line_break_holder] --> Smith K., Castro A. (2013) Genome-wide association<!-- [et_pb_line_break_holder] --> mapping of agronomic traits in relevant barley<!-- [et_pb_line_break_holder] --> germplasm in Uruguay. Mol. Breeding 31: 631-654.<!-- [et_pb_line_break_holder] --> doi:10.1007/s11032-012-9820-x.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 19. Malosetti M, van der Linden CG, Vosman B, van Eeuwijk<!-- [et_pb_line_break_holder] --> FA (2007) A mixed-model approach to association<!-- [et_pb_line_break_holder] --> mapping using pedigree information with an<!-- [et_pb_line_break_holder] --> illustration of resistance to Phytophthora infestans in<!-- [et_pb_line_break_holder] --> potato. Genetics 175:879–889.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 20. Mantel N., Haenszel W. (1959) Statistical aspects of the<!-- [et_pb_line_break_holder] --> analysis of data from retrospective studies of disease.<!-- [et_pb_line_break_holder] --> Journal of the National Cancer Institute 22: 719-748.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 21. Miller C.J., Genovese C., Nichol R.C., Wasserman L.,<!-- [et_pb_line_break_holder] --> Connolly A., Reichart D., Hopkins A., Schneider J.,<!-- [et_pb_line_break_holder] --> Moore A. (2001) Controlling the false-discovery rate<!-- [et_pb_line_break_holder] --> in astrophysical data analysis. The Astronomical Journal<!-- [et_pb_line_break_holder] --> 122 (6): 3492-3505.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 22. Moskvina V., Schmidt K.M. (2008) On multiple-testing<!-- [et_pb_line_break_holder] --> correction in genome-wide association studies. Genet.<!-- [et_pb_line_break_holder] --> Epidemiol. 32: 567-573.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 23. Muñoz-Amatriaín M., Cuesta-Marcos A., Endelman J.B.,<!-- [et_pb_line_break_holder] --> Comadran J., Bonman J.M., Bockelman H.E., Chao<!-- [et_pb_line_break_holder] --> S., Russell J., Waugh R., Hayes P.M., Muehlbaueret<!-- [et_pb_line_break_holder] --> G.J. (2014) The USDA Barley Core Collection: Genetic<!-- [et_pb_line_break_holder] --> diversity, population structure, and potential for<!-- [et_pb_line_break_holder] --> genome-wide association studies. PLoS ONE 9 (4):<!-- [et_pb_line_break_holder] --> e94688. doi:10.1371/journal.pone.0094688.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 24. Olukolu B.A., Wang G.F., Vontimitta V., Venkata B.P., Marla<!-- [et_pb_line_break_holder] --> S., Ji J., Gachomo E., Chu K., Negeri A., Benson<!-- [et_pb_line_break_holder] --> J., Nelson R., Bradbury P., Nielsen D., Holland J.B.,<!-- [et_pb_line_break_holder] --> Balint-Kurti P., Gurmukh J. (2014) A Genome-Wide<!-- [et_pb_line_break_holder] --> Association Study of the maize hypersensitive defense<!-- [et_pb_line_break_holder] --> response identifies genes that cluster in related pathways.<!-- [et_pb_line_break_holder] --> PLoS Genet 10: e1004562. doi:10.1371/journal.<!-- [et_pb_line_break_holder] --> pgen.1004562.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 25. Parisseaux B., Bernardo R. (2004) In silico mapping of<!-- [et_pb_line_break_holder] --> quantitative trait loci in maize. Theor. Appl. Genet.<!-- [et_pb_line_break_holder] --> 109:508–514.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 26. Peña Malavera A. (2015) Aproximaciones estadísticas para<!-- [et_pb_line_break_holder] --> el mapeo asociativo en estudios genéticos. Universidad<!-- [et_pb_line_break_holder] --> Nacional de Córdoba, Córdoba.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 27. Pers T. H., Karjalainen J. M., Chan Y., Westra H. J., Wood<!-- [et_pb_line_break_holder] --> A. R., Yang J., LuiJ. C., Vedantam S., Gustafsson S., Esko<!-- [et_pb_line_break_holder] --> T., Frayling T.,Speliotes E.K. Genetic Investigation<!-- [et_pb_line_break_holder] --> of ANthropometric Traits (GIANT) Consortium,<!-- [et_pb_line_break_holder] --> Boehnke M., Raychaudhuri S., Fehrmann R.,<!-- [et_pb_line_break_holder] --> Hirschhorn J., Franke L. (2015) Biological interpretation<!-- [et_pb_line_break_holder] --> of genome-wide association studies using predicted<!-- [et_pb_line_break_holder] --> gene functions. Nature communications 6: 5890.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 28. Sabatti C., Service S., Freimer N. (2003) False discovery<!-- [et_pb_line_break_holder] --> rate in linkage and association genome screens for<!-- [et_pb_line_break_holder] --> complex disorders. Genetics 164: 829-833.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 29. Sargolzaei M., Schenkel F. (2009) QMSim: a large-scale<!-- [et_pb_line_break_holder] --> genome simulator for livestock. Bioinformatics 25:<!-- [et_pb_line_break_holder] --> 680-681.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 30. Schwartzman A., Dougherty R.F., Taylor J.E. (2008) False<!-- [et_pb_line_break_holder] --> discovery rate analysis of brain diffusion direction<!-- [et_pb_line_break_holder] --> maps. The Annals of Applied Statistics 153-175.<!-- [et_pb_line_break_holder] --> doi:10.1214/07-aoas133.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 31. Sidak Z. (1967) Rectangular confidence regions for the<!-- [et_pb_line_break_holder] --> means of multivariate normal distributions. Journal<!-- [et_pb_line_break_holder] --> of the American Statistical Association 62: 626-633.<!-- [et_pb_line_break_holder] --> doi:10.2307/2283989.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 32. Spindel J., Begum H., Akdemir D., Virk P., Collard B.,<!-- [et_pb_line_break_holder] --> Redoña E., Atlin G., Jannink JL., McCouch S. (2015)<!-- [et_pb_line_break_holder] --> Genomic selection and association mapping in rice<!-- [et_pb_line_break_holder] --> (Oryza sativa): effect of trait genetic architecture,<!-- [et_pb_line_break_holder] --> training population composition, marker number and<!-- [et_pb_line_break_holder] --> statistical model on accuracy of rice genomic selection<!-- [et_pb_line_break_holder] --> in elite, tropical rice breeding lines. PLoS Genet.11:<!-- [et_pb_line_break_holder] --> e1004982.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 33. Tadesse W., Ogbonnaya F.C., Jighly A., Sanchez-Garcia<!-- [et_pb_line_break_holder] --> M., Sohail Q., Rajaram S., Baum M. (2015) Genome-<!-- [et_pb_line_break_holder] --> Wide Association Mapping of Yield and Grain<!-- [et_pb_line_break_holder] --> Quality Traits in Winter Wheat Genotypes. Plos One<!-- [et_pb_line_break_holder] --> 10(10): e0141339. <a href="https://doi.org/10.1371/journal.pone.0141339" target="_blank">https://doi.org/10.1371/journal.pone.0141339</a>.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 34. Team R.D.C. (2013) R: A language and environment for<!-- [et_pb_line_break_holder] --> statistical computing, Vienna, Austria.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 35. Tracy C.A., Widom H. (1994) Level-spacing distributions<!-- [et_pb_line_break_holder] --> and the Airy kernel. Comm. Math. Phys. 159: 23.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 36. Tusher V.G., Tibshirani R., Chu G. (2001) Significance<!-- [et_pb_line_break_holder] --> analysis of microarrays applied to the ionizing radiation<!-- [et_pb_line_break_holder] --> response. Proceedings of the National Academy of<!-- [et_pb_line_break_holder] --> Sciences 98: 5116-5121.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 37. Wang H., Smith K., Combs E., Blake T., Horsley R., Muehlbauer<!-- [et_pb_line_break_holder] --> G. (2012) Effect of population size and unbalanced<!-- [et_pb_line_break_holder] --> data sets on QTL detection using genome-wide<!-- [et_pb_line_break_holder] --> association mapping in barley breeding germplasm.<!-- [et_pb_line_break_holder] --> Theor. Appl. Genet. 124: 111-124. doi:10.1007/<!-- [et_pb_line_break_holder] --> s00122-011-1691-8.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 38. Wright S. (1951) The genetical structure of populations.<!-- [et_pb_line_break_holder] --> Ann. Eugen. 15: 31.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 39. Xiao J., Zhu W., Guo J. (2013) Large-scale multiple testing<!-- [et_pb_line_break_holder] --> in genome-wide association studies via region-specific<!-- [et_pb_line_break_holder] --> hidden Markov models. BMC Bioinformatics 14: 282.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 40. Yan J., Warburton M., Crouch J. (2011) Association<!-- [et_pb_line_break_holder] --> mapping for enhancing maize (Zea mays L.) genetic<!-- [et_pb_line_break_holder] --> improvement. Crop Sci 51: 433–449.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 41. Yu J., Pressoir G., Briggs W., Bi I., Yamasaki M., Doebley<!-- [et_pb_line_break_holder] --> J., McMullen M.D., Gaut B.S., Nielsen D.N., Holland<!-- [et_pb_line_break_holder] --> J.B., Kresovich S., Buckler E.S. (2006) A unified mixed<!-- [et_pb_line_break_holder] --> model method for association mapping that accounts<!-- [et_pb_line_break_holder] --> for multiple levels of relatedness. Nat. Genet. 2: 203-208.</font></p><!-- [et_pb_line_break_holder] --><p><font size="2" face="Arial, Helvetica, sans-serif"> 42. Zhou G. F., Broughton S., Zhang X. Q., Zhou M. X., Li<!-- [et_pb_line_break_holder] --> C. D. (2016) Genome-wide association mapping of<!-- [et_pb_line_break_holder] --> acid soil resistance in barley (Hordeum vulgare L.).Front.<!-- [et_pb_line_break_holder] --> Plant Sci.7:406 10.3389/fpls.2016.00406</font></p><!-- [et_pb_line_break_holder] --></body><!-- [et_pb_line_break_holder] --></html>