Vol. XXXI Issue 1
Article 3

Untitled Document

ARTÍCULOS ORIGINALES

Meta-análisis para evaluar eficiencia de selección genómica en cereales

Meta-analysis for evaluating the efficiency of genomic selection in cereals

 

Rueda Calderón M. A.1,2 , Balzarini M.1,2, Bruno C.1,2*

1 Estadística y Biometría. Facultad de Ciencias Agropecuarias. Universidad Nacional de Córdoba, Córdoba, Argentina. Ing. Agr. Félix Aldo Marrone 746. Ciudad Universitaria, Córdoba, Argentina
2 Unidad de Fitopatología y Modelización Agrícola (UFyMA), Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Córdoba, Argentina.
Corresponding author: Cecilia Bruno cebruno@agro.unc.edu.ar

DOI: 10.35407/bag.2020.31.01.03

Received: 03/09/2020
Revised version received: 04/23/2020
Accepted: 04/28/2020


RESUMEN

La selección genómica (SG) es usada para predecir el mérito de un genotipo respecto a un carácter cuantitativo a partir de datos moleculares o genómicos. Estadísticamente, la SG requiere ajustar un modelo de regresión con múltiples variables predictoras asociadas a los estados de los marcadores moleculares (MM). El modelo se calibra en una población en la que hay datos fenotípicos y genómicos. La abundancia y la correlación de la información de los MM dificultan la estimación, y por ello existen distintas estrategias para el ajuste del modelo basadas en: mejor predictor lineal insesgado (BLUP), regresiones Bayesianas y aprendizaje automático. La correlación entre el fenotipo observado y el mérito genético predicho por el modelo ajustado, provee una medida de eficiencia (capacidad predictiva) de la SG. El objetivo de este trabajo fue realizar un meta-análisis de la eficiencia de la SG en cereales. Se realizó una revisión sistemática de estudios relacionados a SG y se llevó a cabo un meta-análisis, para obtener una medida global de la eficiencia de la SG en trigo y maíz, bajo diferentes escenarios (cantidad de MM y método estadístico usado para la SG). El metaanálisis indicó un coeficiente de correlación promedio de 0,61 entre los méritos genéticos predichos y los fenotipos observados. No se observaron diferencias significativas en la eficiencia de la SG realizada con modelos basados en BLUP (RR-BLUP y GBLUP), enfoque estadístico más comúnmente usado. El incremento de MM no cambia significativamente la eficiencia de la SG.

Palabras clave: Revisión sistemática; Modelos de efectos aleatorios; Forest plot; Capacidad predictiva.

ABSTRACT

Genomic selection (GS) is used to predict the merit of a genotype with respect to a quantitative trait from molecular or genomic data. Statistically, GS requires fitting a regression model with multiple predictors associated with the molecular markers (MM) states. The model is calibrated in a population with phenotypic and genomic data. The abundance and correlation of MM information make model estimation challenging. For that reason there are diverse strategies to adjust the model: based on best linear unbiased predictors (BLUP), Bayesian regressions and machine learning methods. The correlation between the observed phenotype and the predicted genetic merit by the fitted model provides a measure of the efficiency (predictive ability) of the GS. The objective of this work was to perform a metaanalysis on the efficiency of GS in cereals. A systematic review of related GS studies and a meta-analysis, in wheat and maize, was carried out to obtain a global measure of GS efficiency under different scenarios (MM quantity and statistical models used in GS). The meta-analysis indicated an average correlation coefficient of 0.61 between observed and predicted genetic merits. There were no significant differences in the efficiency of the GS based on BLUP (RR-BLUP and GBLUP), the most common statistical approach. The increase of MM data, make GS efficiency do not vary widely.

Key words: Systematic review; Random effects model; Forest plot; Predictive accuracy.


 

INTRODUCCIÓN

La selección genómica (SG) es una técnica con alto potencial para acelerar la tasa de ganancia genética en vegetales (Heffner et al., 2009). Valiéndose de modelos estadísticos, permite relacionar vasta cantidad de marcadores moleculares (MM) o información genómica a un carácter fenotípico de interés, para predecir luego el mérito genético de cada fenotipo. En SG se parte de una población de entrenamiento o calibración, donde no sólo el genotipo molecular es conocido sino también el fenotipo, y se estiman modelos relacionales, que aprendiendo desde dicha población son luego aplicados a poblaciones de líneas donde no se conoce el fenotipo pero si se desea predecir el mérito genético. Es a partir del modelo estadístico estimado o ajustado que se realizan predicciones para estimar el valor de cría o mérito genético de cada individuo en la población de interés. Así, es posible seleccionar individuos con características promisorias para un determinado carácter, usando sólo la información molecular que usualmente proviene del genotipado con marcadores moleculares distribuidos en todo el genoma de cada individuo (Hawkins y Yu, 2018). La información del genotipo y del fenotipo en la población de entrenamiento también es usada para estimar el efecto de cada marcador sobre el carácter de interés. Aun con gran cantidad de MM, los modelos estadísticos usados en SG permiten ajustar el efecto de todos los marcadores simultáneamente. Si los MM se encuentran en desequilibrio de ligamiento con la mutación que afecta el carácter, los marcadores serán capaces de capturar una gran proporción de la varianza genética del carácter de interés (Voss Fels et al., 2019) y el modelo estadístico permitirá asociar los MM con el fenotipo (Hawkins y Yu, 2018). El modelo aplicado sobre la población de mejora se usa para predecir el valor genético del individuo desde la información molecular distribuida en todo el genoma (Genome Estimated Breeding Value-GEBV) (Bhat et al., 2016; Hawkins y Yu, 2018). La SG tiene la capacidad de utilizar altas cantidades de MM asociados a cada loci, incluso de efecto menor (Heffner et al., 2009) y así capturar mayor variación genética.
La eficiencia de la SG en un contexto particular, puede evaluarse a través de las correlaciones entre los fenotipos observados y los méritos genéticos predichos o valor de cría (GEBV). Existen una importante cantidad de estudios primarios de SG en vegetales, y si bien es posible su recopilación a través de la revisión sistemática de literatura, no es común encontrar estudios secundarios o meta-análisis (MA) de esos estudios primarios. La revisión sistemática permite sintetizar la información científica disponible, pero es el MA la técnica que permite incrementar la potencialidad de las conclusiones de los estudios primarios (Ferreira González et al., 2011).
La revisión sistemática involucra una serie de acciones: i) formular la pregunta de investigación a partir de la cual se realiza un constructo de búsqueda para explorar plataformas digitales; ii) realizar la búsqueda de manera exhaustiva y comprensiva de estudios primarios en diferentes bases de datos; iii) compactar la información obtenida de las diferentes bases de datos a través de un gestor bibliográfico; iv) establecer los criterios de exclusión e inclusión para la selección de estudios primarios; v) determinar la relevancia de los estudios identificados; y vi) extraer los datos en el formato necesario para el MA que se quiera realizar (Pai et al., 2004; Akobeng, 2005; Borenstein et al., 2009; 2010; Sánchez Meca, 2010). El término MA fue introducido por primera vez por Glass (1976), para denotar la síntesis estadística de los resultados de estudios primarios similares respecto al tema objeto de estudio. El MA permite: i) sintetizar los resultados de estudios primarios obtenidos de la revisión sistemática para incrementar la potencia de las pruebas de hipótesis de interés; ii) estimar el tamaño del efecto de interés o efecto global; iii) evaluar heterogeneidad entre estudios; y iv) en caso de que sea necesario, hacer análisis por subgrupos o meta-regresiones para comprender el impacto de factores y covariables sobre el tamaño del efecto en cada estudio primario (Borenstein et al., 2009). El MA permite estimar un efecto global o de síntesis de los estudios primarios. En este trabajo, el efecto que se midió a través del MA de estudios de SG es el tamaño o magnitud de la correlación entre valores fenotípicos observados y méritos genéticos predichos por los modelos de SG en las poblaciones de mejora. El gráfico Forest Plot, permite visualizar los resultados del MA a través de intervalos de confianza para el valor esperado del efecto de interés, tanto para cada estudio primario como para el conjunto de éstos. La amplitud de estos intervalos de confianza dependerá de la precisión con que se reportan los resultados de cada estudio primario; ésta es función del tamaño muestral y de la varianza residual. El efecto global es estimado como una media ponderada de los efectos reportados en los estudios primarios, y esta ponderación depende de la precisión de cada estudio. En escenarios de alta heterogeneidad entre estudios respecto al tamaño del efecto objeto de estudio, se realizan análisis por subgrupos de estudios primarios relativamente homogéneos. En los estudios de SG en vegetales, es frecuente que se presenten datos de otras variables que podrían marcar diferencias o generar heterogeneidad entre estudios, como por ejemplo, la cantidad de genotipos evaluados, la cantidad de marcadores moleculares empleados (Wu y Hu, 2012) o los modelos estadísticos usados para la SG. Esta información puede ser considerada para conformar subgrupos para el MA y así comparar el impacto de los distintos niveles de estos factores sobre la correlación objeto de estudio. El objetivo de este trabajo fue realizar un MA de la eficiencia de la SG en cereales y su dependencia con la cantidad de MM y el modelo estadístico usado.

MATERIALES Y MÉTODOS

Recolección de la información a través de la revisión sistemática
En la revisión sistemática se seleccionaron palabras clave relacionadas a la pregunta de investigación, y de este compendio de palabras se construyó el siguiente constructo de búsqueda: (GS o “Genomic Selection”) y (“Plant breeding”) y (crops) para obtener la mayor cantidad posible de literatura referente a estudios de SG en mejoramiento vegetal. La búsqueda de estudios primarios fue llevada a cabo en múltiples bases de datos: Scopus, Science Direct, EBSCOhost, Pubmed, JSTOR, Red de Revistas Científicas de América Latina y el Caribe, España y Portugal “Redalyc” y SpringerLink. Se obtuvieron 5014 estudios primarios que mencionaran la SG en vegetales. A través del gestor bibliográfico Zotero se realizó la unificación de los estudios primarios obtenidos en las siete bases de datos electrónicas, así como la eliminación de estudios primarios duplicados, excluyendo 779 estudios primarios. Luego, se seleccionaron aquellos estudios que contenían las palabras de búsqueda en el título (947 estudios primarios). Seguidamente, se leyeron los resúmenes de los trabajos que pasaron el filtrado del título y se eligieron aquellos que tratasen la eficiencia de la SG (se desecharon otros 358 estudios primarios). Los estudios que pasaron la anterior etapa (589 trabajos), fueron leídos de manera completa para seleccionar aquellos estudios donde estaba publicada la información necesaria para la construcción de la base de datos (especies, carácter fenotípico, cantidad de marcadores, métodos de estimación y la precisión de la predicción (prediction accuracy), medida a través del coeficiente de correlación “r” entre el fenotipo observado y los valores de mejora predichos. Finalmente, la cantidad de estudios primarios seleccionados para la conformación de la base de datos fue de 68. En la Figura 1 se presenta un diagrama de flujo de los pasos mencionados.


Figura 1.
Diagrama de flujo de los criterios de exclusión para el meta-análisis.

Conformación de la base de datos para realizar el metaanálisis
La base de datos quedó conformada por 68 estudios primarios, aunque en algunos de ellos se evaluaron varios casos, i.e., más de un proceso de SG y por tanto se pudieron obtener varios coeficientes de correlación, totalizando 232 casos de SG. La base de datos conformada a partir de los estudios primarios seleccionados contiene la variable “Estudios” para identificar los estudios primariosa través de sus autores y el año de la publicación. Una columna denominada “Subgrupo_Especies” con dos categorías: “cereales” (trigo, maíz, cebada, arroz y centeno) y “otras especies” (césped, soja, colza, remolacha, alfalfa, eucalipto, pera, raigrás, mandioca, caña de azúcar y vid). Para este trabajo se consideraron los datos provenientes de SG en cereales. La columna “carácter” recopila la variable fenotípica analizada en la población de entrenamiento (rendimiento de grano, tiempo de floración, altura de planta, contenido de proteína). La columna “Total_Marcadores” contiene la cantidad de marcadores moleculares usados en cada estudio primario y categorizada en terciles de la distribución de cantidad de marcadores: baja≤1.700, media=(1.700; 17.000] y alta>17.000. La columna “Método_Estimación”, reporta los métodos de estimación usados en la SG que luego son reagrupados en dos categorías: “basados en BLUP” (BLUP, G-BLUP y RR-BLUP) y “otros”, que incluyen “métodos bayesianos o de aprendizaje automático” (M-BL, SVR, RKHS, Bayes A y Bayes B). La última columna contiene el coeficiente de correlación “r” entre el fenotipo observado y el mérito genético predicho por SG reportado en cada estudio primario. Un valor de correlación cercano a uno indica alta eficiencia de la SG. Los métodos basados en modelos mixtos y consecuentemente en el mejor predictor lineal insesgado (BLUP) han sido los más usados en SG.
El método G-BLUP se caracteriza por asignar la misma varianza a todos los loci, es decir, otorga la misma importancia a cada alelo del marcador para obtener el predictor del mérito genético, i.e., como suma los efectos alélicos individuales; algunos marcadores pueden asociarse a efectos nulos (Clark y van derWerf, 2013). Por otra parte, el método RR-BLUP asume que todos los loci tienen el mismo efecto, distinto de cero con las mismas varianzas, pero esto no implica que todos los MM tengan el mismo efecto. RR-BLUP estima la matriz de relaciones entre los genotipos a partir de la información provista por los MM, por lo tanto, algunos loci pueden aportar al predictor y otros no. Los métodos bayesianos ponderan el efecto de cada locus con distinta varianza a diferencia de RR-BLUP. Entre los métodos basados en aprendizaje automáticos, SVM ha sido uno de los más usados en la SG, dado que al usar una función kernel para los cálculos como el producto interno, resuelve el problema de estimación con alta dimensionalidad. Por ello, en estos tipos de modelos, la selección de la función kernel se vuelve un factor clave, dado que la misma debe reflejar la distribución característica de la muestra de entrenamiento (Wang et al., 2018).

Meta-análisis
Se estimó la correlación (promedio ponderado de los estudios) entre los valores observados y predichos por el modelo en los estudios de SG realizados en maíz y trigo; especies que representaron más del 50% del total de casos detectados en la revisión sistemática. Se usó un modelo de efectos aleatorios para el MA, ya que se observó alta heterogeneidad entre estudios respecto a los valores de r y la precisión reportada:

donde ri es la correlación observada, μ es la correlación esperada entre el fenotipo observado y el mérito genético predicho, τi es un efecto aleatorio asociado a cada estudio primario que se supone con distribución N(0,τ) y i es un término de error aleatorio con distribución N(0,σ2) que mide la precisión dentro de cada caso de SG.
La heterogeneidad entre estudios se evaluó con el estadístico I2, que permite cuantificar cuánto de la variabilidad total en el estadístico de interés debe ser atribuida a la variación entre estudios (Higgins et al., 2003). Es una medida independiente del número de estudios incluidos en el meta-análisis y de la unidad de medida utilizada para cuantificar el efecto estudiado. El estadístico I2, se expresa como una proporción, un valor cercano a cero indica que la varianza observada es espuria y por lo tanto, los estudios primarios pueden considerarse homogéneos. Higgins et al. (2003) sugirieron que valores de I2 hasta 25% podrían ser indicadores de baja heterogeneidad, entre 25 y 50% de mediana heterogeneidad y más de 75% de alta heterogeneidad. Dado los altos valores encontrados para I2, se llevaron a cabo análisis por subgrupos considerando en cada análisis diferentes variables de clasificación, como la cantidad de marcadores moleculares utilizados (“Subgrupo_MM”) y el tipo de método de estimación utilizado para la SG (variable “Método_Estimación”). La estrategia de realizar análisis por subgrupo, además de controlar la heterogeneidad entre estudios, permitió detectar cómo estás variables contribuyen en la estimación global de la eficiencia de la SG. Los metaanálisis se realizaron con los datos transformados a través del z de Fisher, pero los resultados de los efectos globales fueron reportados en la métrica de correlaciones. Los datos fueron analizados usando el software R con el paquete meta (R Core Team 2020).

RESULTADOS

La SG en cereales ha convocado mayor atención que en otras especies agrícolas por el acortamiento aparejado en el ciclo de mejoramiento genético vegetal. Probablemente, este hecho se asocie con la importancia alimentaria de estas especies agrícolas que cuentan con programas de mejoramiento genético vegetal en gran parte del mundo.
Los resultados reportados en la Tabla 1 indican predominancia del uso de los métodos de estimación RR-BLUP y G-BLUP en el ajuste del modelo estadístico que permitirá obtener las predicciones para la SG. Es importante destacar que se observó alta variabilidad en los reportes de eficiencia de la SG; por ejemplo, en trigo algunas publicaciones reportaban correlaciones menores al 20% mientras que otras reportaban valores de correlaciones en el valor fenotípico observado y el valor genético predicho mayores al 80%. No obstante, en la mayoría de los casos analizados la eficiencia de la SG fue cercana al 60%, que en términos estadísticos es mediana, pero en términos prácticos puede ser suficiente.

Tabla 1. Estudios de selección genómica (SG) en cultivos (n=232) según especie, cantidad de genotipos y de marcadores moleculares en la población de entrenamiento, método de estimación y eficiencia promedio.

La representación gráfica de los resultados se realiza con un Forest Plot (Figura 2), cuyas filas representan cada uno de los estudios primarios y la eficiencia de la SG en las especies trigo y maíz agrupadas según el método de estimación del modelo de SG (G-BLUP y RR-BLUP). El tamaño del efecto es la magnitud de la asociación entre el valor fenotípico observado y el valor genético predicho. Así, el gráfico permite visualizar la correlación de interés promedio (cuadrado) de cada estudio primario y su intervalo de confianza (IC) con nivel de confianza del 95%. Mientras menor es la amplitud del intervalo de confianza, mayor es la precisión en la estimación del coeficiente de correlación entre el valor fenotípico observado y el valor genético predicho. El cuadrado que representa el tamaño del efecto de cada estudio primario varía entre estudios para reflejar el peso de cada uno en la estimación del efecto global (correlación promedio ponderada). Un estudio con precisión relativamente buena, tendrá asignada mayor ponderación o peso para generar la estimación global. La precisión está gobernada por el tamaño de la muestra y por la varianza residual del estudio. Al final de la lista de estudios se visualiza el efecto global (rombo). Si la correlación global es estadísticamente distinta de cero, el valor de cría predicho por el modelo se correlaciona con el valor observado y la SG es eficiente. El efecto global de la correlación entre los valores observados y los valores predichos fue de 0,61, con un intervalo de confianza (IC) de [0,59-0,64] que confirma la eficiencia de la SG. La heterogeneidad entre estudios fue alta I2=99% y estadísticamente significativa p<0,001; como estrategia analítica para controlar parte de la heterogeneidad, se identificaron subgrupos relacionados al método de estimación (Figura 2) y a la cantidad de marcadores moleculares involucrados en la construcción del modelo de SG (Figura 3).


Figura 2.
Forest Plot de la eficiencia de SG para los métodos de estimación G-BLUP y RR-BLUP en trigo y maíz. El modelo de metaanálisis ajustado fue un modelo de efectos aleatorios por subgrupos (G-BLUP y RR-BLUP), contemplando de esta forma la heterogeneidad entre estudios primarios y entre grupos. Las correlaciones se presentan ordenadas de mayor a menor dentro de cada método de estimación.


Figura 3.
Forest Plot de la eficiencia de SG para distintas densidades de marcadores moleculares categorizadas en: baja (menos de 1.700), media (entre 1.700 y 17.000) y alta densidad de marcadores moleculares, mayor a 17.000 para estudios primarios de trigo y maíz. El modelo de meta-análisis ajustado fue un modelo de efectos aleatorios por subgrupos de densidad de marcadores moleculares (Alta, Baja y Media), contemplando de esta forma la heterogeneidad entre estudios primarios y entre grupos. Las correlaciones se presentan ordenadas de mayor a menor dentro de cada categoría de densidad de marcadores moleculares.

El intervalo de confianza (IC) para G-BLUP fue [0,57- 0,66] y para RR-BLUP [0,59-0,64]; en ambos casos no contienen al cero e indican que la eficiencia de la SG es similar entre ellos y que no estuvo condicionada por la selección de uno u otros métodos de estimación basados en BLUP. La superposición de los IC indica que no existen diferencias estadísticamente significativas entre ambos métodos de construcción del modelo para predecir mérito genético desde la información genómica. Los resultados del meta-análisis para trigo y maíz, realizado por subgrupos definidos por la densidad de marcadores moleculares (alta con más de 17.000 MM, media de 1.700 hasta 17.000 MM y baja con 1.700 o menos MM), mostraron similitud de la eficiencia alcanzada con distinta cantidad de marcadores moleculares (cerca del 60%) (Figura 3). Las ponderaciones o pesos reportados para las categorías alta y media fueron 41,1% y 36,1% respectivamente, mientras que las ponderaciones de la categoría de baja densidad de marcadores moleculares fue de 22,8%. Esto evidenció que la mayor contribución al efecto global de correlación entre los valores observados y predichos, se obtuvieron con densidades de marcadores moleculares medias y altas (Tabla 2).

Tabla 2. Estimación de la correlación entre fenotipo observado y mérito genético predicho desde la información molecular de los métodos de estimación más frecuentes de selección genómica y densidad de marcadores moleculares en maíz y trigo (n=122).

DISCUSIÓN

La SG se comenzó a aplicar para la predicción genética en animales (Meuwissen et al., 2001), no obstante, fue adaptada rápidamente en los programas de mejoramiento genético vegetal (Thavamanikumar et al., 2015). Se presenta como una herramienta que permite predecir de manera efectiva, los méritos genéticos de los individuos a partir de información genómica, sin necesidad de observar el fenotipo; así la selección se puede realizar de manera más rápida.
Diferentes modelos estadísticos son usados para asociar la variabilidad genómica a un carácter fenotípico de interés y poder luego predecir el mérito genético de un nuevo individuo. Sin embargo, han manifestado la complejidad a la hora de comparar los resultados de diferentes estudios, además consideran que no siempre se ajusta el modelo más eficiente para un estudio en particular (Wang et al., 2015). Los resultados del metaanálisis conducido en este trabajo, sugieren que no existe una diferencia significativa entre el ajuste del modelo por G-BLUP o RR-BLUP, dos de los métodos más usados para la construcción del modelo de SG.
Dado que los valores de correlación dependen fuertemente de las varianzas de las variables que se correlacionan, y que éstas pueden ser distintas bajo distintos escenarios, el meta-análisis se realizó previa transformación (z de Fisher) de las correlaciones reportadas. La transformación del coeficiente de correlación en la escala z de Fisher permite realizar el meta-análisis en una escala común y luego transformar el tamaño del efecto y los intervalos de confianza logrados a las escalas originales (Borenstein et al., 2009). Algunos autores sugieren que la transformación z de Fisher podría producir un sesgo hacia la derecha (Silver y Dunlap, 1987; Strube, 1988; Field, 2001; 2005). Otros autores sugieren que la transformación logra que el error estándar y, por lo tanto los intervalos de confianza, dependan únicamente del tamaño muestral y no del tamaño de la correlación observada, que puede verse afectada por el error de muestreo (Silver y Dunlap, 1987; Field, 2005). Strube (1988) señaló que a medida que aumenta el número de estudios primarios, el sesgo debido a la transformacion es despreciable. En nuestro trabajo el número de correlaciones derivadas de los estudios primarios fue alto (n=232 cuando se trabajó con todos los casos y n=48 cuando se analizaron las medias de correlaciones por publicación). Mas allá de la existencia de un posible sesgo, las correlaciones promedio, aunque significativas, no fueron altas (aprox. r=0,6) sugiriendo que existe espacio para mejorar la capacidad predictiva de los modelos usados en SG en trigo y maíz.
Podría ser importante considerar efectos de interacción entre los efectos de marcadores en los modelos lineales usados para SG con el fin de incrementar la eficiencia de la SG. Conceptualmente estos modelos son entendibles, pero son computacionalmente difíciles de estimar en la actualidad. Los métodos de base computacional como algunos modelos de regresión de aprendizaje automático podrían ofrecer una herramienta para el tratamiento de interacciones de orden múltiple. Varios métodos de ajustes de modelos de SG abordan los problemas de la alta dimensionalidad y la complejidad computacional capturando diferentes aspectos de la asociación entre el genotipo y el fenotipo. Sin embargo, el desempeño de diferentes métodos depende de la arquitectura genética subyacente del carácter de interés (Resende et al., 2012; Wang et al., 2018). Se ha discutido en la literatura que la precisión de la SG depende de la heredabilidad y de la distribución de los genes causales (Desta y Ortiz, 2014) y consecuentemente la heredabilidad del carácter en estudio se relaciona positivamente a la precisión de la predicción. Otro factor importante que debe ser considerado es la interacción genotipo-ambiente (G×E); ya que predicciones sobre el mismo carácter, pero evaluados en varios ambientes, difieren considerablemente debido al efecto que causa esta interacción (Wang et al., 2018). Su et al. (2012) usaron predicción genómica con densidades extremas de SNPs y observaron que cuando aumentaron la cantidad de información genómica en un 1438%, la precisión de la predicción aumentó solo en 0,5-1,0%. Aun cuando se conoce que cuanto más marcadores haya mejor será la predicción, la precisión es difícil de mejorar significativamente cuando la densidad inicial de marcadores ya es alta. Los resultados del meta-análisis son consistentes con estas publicaciones. Nakaya e Isobe (2012) realizaron otra revisión de estudios donde se estimaba el mérito genético sobre bases de datos simulados y bases de datos reales, y reportaron que la predicción del valor de cría fue siempre mejor cuando en los modelos se incorporó información provista por marcadores moleculares distribuidos densamente en el genoma respecto a los modelos tradicionales de la construcción del BLUP solo con datos fenotípicos. En otros estudios para caracteres relacionados a calidad de grano en poblaciones biparentales de trigo, se observó que la precisión de los modelos de SG alcanzó una meseta con una densidad de marcadores moleculares que se acercaba a los 256 (Heffner et al., 2011). Para otras especies, como pinos, se observó que la máxima capacidad predictiva se alcanzó en subconjuntos de 564 marcadores moleculares y luego disminuyó (Resende et al., 2012). El mismo fenómeno se observó en otro estudio pero con una densidad de marcadores mucho mayor, ya que se usaron 3490 marcadores moleculares para calibrar los modelos de SG (Oakey et al., 2016). Yang et al. (2010) y Wang et al. (2017) concluyeron que cuando la densidad de marcadores alcanza un cierto nivel, la predicción genómica no se beneficia.
Entre los métodos estadísticos para ajustar el modelo de SG, el más recomendado en la práctica de mejoramiento, debido a su robustez y eficiencia computacional es el G-BLUP (Wang et al., 2018). No obstante, algunos algoritmos de aprendizaje de máquinas, como RKHS (Reproducing Kernel Hilbert Space) han tomado un papel muy importante en SG (Cuevas et al., 2016). El método G-BLUP asume que todos los efectos de marcador se distribuyen normalmente con igual varianza (Meuwissen et al., 2001) y puede producir resultados similares al método Bayes C (Ferrão et al., 2017). En el trabajo de Gianola (2013) se aprecia que el método de G-BLUP es similar al RR-BLUP, como también se observó en el meta-análisis de este trabajo. Daetwyler et al. (2014) calibraron modelos de SG basados en G-BLUP y en regresión bayesiana para predecir la resistencia a la roya en trigo, y concluyeron que el modelo G-BLUP presentó mejor desempeño que la regresión bayesiana. En trigo, los modelos de SG bayesianos han mostrado resultados prometedores en el contexto del análisis de QTL (quantitative trait loci), siendo más sensibles al aumento del número de QTL sin disminuir la precisión en contextos de múltiples QTL (Wang et al., 2015).
La precisión que aportan los métodos G-BLUP y RR-BLUP se puede mantener casi constante, independientemente de la cantidad de QTL (Wang et al., 2018). Si bien los modelos Bayes A y Bayes B han mostrado buen desempeño (De los Campos et al., 2009) la estimación de los modelos bayesianos puede llevar mucho tiempo restringiendo su aplicación. Friedman et al. (2010) mostraron una mejor alternativa con el algoritmo LASSO, que logra un equilibrio entre la contracción selectiva de los efectos alélicos y la eficiencia computacional. A pesar del buen desempeño de los modelos bayesianos en SG animal (Neves et al., 2014), Xu et al. (2017) señalaron que el modelo G-BLUP tiene mejor desempeño que los bayesianos en la predicción de caracteres relacionados con el rendimiento en maíz y también, en la predicción del rendimiento en grano de trigo. En el presente trabajo se observó que la eficiencia de la SG no difiere significativamente entre el uso de G-BLUP o RR-BLUP para el ajuste del modelo, resultado consistente con lo publicado (Dong et al., 2016; Ferrão et al., 2017).
En conclusión, aún cuando los modelos estadísticos usados para SG en cultivos de importancia agrícola han contribuido en la predicción genómica, permitiendo seleccionar genotipos promisorios en etapas tempranas de los programas de mejoramiento genético vegetal, aún es necesario incrementar la capacidad predictiva. Los modelos más usados en maíz y trigo para predecir mérito genético han sido G-BLUP y RR-BLUP, sin diferencias estadísticas en su performance. Si bien la capacidad predictiva aumenta con el número de marcadores usados, la respuesta no es lineal y en algunas situaciones el incremento de estos podría no ser redituable en términos del aumento producido sobre la eficiencia de la SG.

BIBLIOGRAFÍA

1. Akobeng A.K. (2005) Understanding systematic reviews and metaanalysis. Archives of Disease in Childhood 90 (8): 845-848.

2. Bhat J.A., Ali S., Salgotra R.K., Mir Z.A., Dutta S., Jadon V., Tyagi A., Mushtaq M., Jain N., Singh P.K., Singh G.P., Prabhu K.V. (2016) Genomic selection in the era of next generation sequencing for complex traits in plant breeding. Frontiers in Genetics 7: 221.

3. Borenstein M., Hedges L.V., Higgins J.P.T., Rothstein H.R. (2009) Introduction to meta-analysis. John Wiley & Sons. Ltd., Chichester, UK.

4. Borenstein M., Hedges L.V., Higgins J.P.T., Rothstein H.R. (2010) A basic introduction to fixed-effect and random-effects models for metaanalysis. Research Synthesis Methods 1 (2): 97-111.

5. Clark S.A., van der Werf J. (2013) Genomic best linear unbiased prediction (gBLUP) for the estimation of genomic breeding values. In: Gondro C., van der Werf J., Hayes B. (Eds.) Genome-Wide Association Studies and Genomic Prediction. Springer Protocols, pp. 321-330.

6. Cuevas J., Crossa J., Soberanis V., Pérez Elizalde S., Pérez Rodríguez P., de los Campos G., Montesinos López O.A., Burgueño J. (2016) Genomic prediction of genotype × environment interaction kernel regression models. The Plant Genome 9 (3).

7. Daetwyler H.D., Bansal U.K., Bariana H.S., Hayden M.J., Hayes B.J. (2014) Genomic prediction for rust resistance in diverse wheat landraces. Theoretical and Applied Genetics 127 (8): 1795-1803.

8. de los Campos G., Naya H., Gianola D., Crossa J., Legarra A., Manfredi E., Weigel K., Cotes J.M. (2009) Predicting quantitative traits with regression models for dense molecular markers and pedigree. Genetics 182 (1): 375-85.

9. Desta Z.A., Ortiz R. (2014) Genomic selection: genome-wide prediction in plant improvement. Trends in Plant Science 19 (9): 592-601.

10. Dong L., Xiao S., Wang Q., Wang Z. (2016) Comparative analysis of the GBLUP, emBayesB, and GWAS algorithms to predict genetic values in large yellow croaker (Larimichthys crocea). BMC Genomics 17 (1): 460.

11. Ferrão L.F.V., Ortiz R., Garcia A.A.F. (2017) Genomic selection: state of the art. In: Campos H., Caligari P. (Eds.) Genetic Improvement of Tropical Crops. Springer, pp. 19-54.

12. Ferreira González I., Urrútia G., Alonso Coello P. (2011) Revisiones sistemáticas y metaanálisis: bases conceptuales e interpretación. Revista Española de Cardiología 64 (8): 688-696.

13. Field A.P. (2001) Meta-analysis of correlation coefficients: a Monte Carlo comparison of fixed- and random-effects methods. Psychological Methods 6 (2): 161-180.

14. Field A.P. (2005) Is the meta-analysis of correlation coefficients accurate when population correlations vary? Psychological Methods 10 (4): 444-467.

15. Friedman J., Hastie T., Tibshirani R. (2010) Regularization Paths for Generalized Linear Models via Coordinate Descent. Journal of Statistical Software 33 (1): 1-22.

16. Gianola D. (2013) Priors in whole-genome regression: the Bayesian alphabet returns. Genetics 194 (3): 573-596.

17. Glass G.V. (1976) Primary, secondary, and meta-analysis of research. Educational Researcher 5 (10): 3-8.

18. Hawkins C., Yu L.X. (2018) Recent progress in alfalfa (Medicago sativa L.) genomics and genomic selection. The Crop Journal 6 (6): 565-575.

19. Heffner E.L., Jannink J.L., Iwata H., Souza E., Sorrells M.E. (2011) Genomic selection accuracy for grain quality traits in biparental wheat populations. Crop Science 51: 2597- 2606.

20. Heffner E.L., Sorrells M.E., Jannink J.L. (2009) Genomic selection for crop improvement. Crop Science 49 (1): 1-12.

21. Higgins J.P.T., Thompson S.G, Deeks J.J., Altman D.G. (2003) Measuring inconsistency in meta-analyses. BMJ 327 (7414): 557-560.

22. Meuwissen T.H., Hayes B.J., Goddard M.E. (2001) Prediction of Total Genetic Value Using Genome-Wide Dense Marker Maps. Genetics 157 (4): 1819-1829.

23. Nakaya A., Isobe S.N. (2012) Will genomic selection be a practical method for plant breeding? Annals of Botany 110 (6): 1303- 1316.

24. Neves H.H.R., Carvalheiro R., O’Brien A.M.P., Utsunomiya Y.T, do Carmo A.S, Schenkel F.S, Sölkner J., McEwan J.C., Van Tassell C.P., Cole J.B., da Silva M.V.G.B., Queiroz S.A., Sonstegard T.S., Garcia J.F. (2014) Accuracy of genomic predictions in Bos indicus (Nellore) cattle. Genetics Selection Evolution 46 (1): 17.

25. Oakey H., Cullis B., Thompson R., Comadran J., Halpin C., Waugh R. (2016) Genomic selection in multi-environment crop trials. G3: Genes, Genomes, Genetics 6 (5): 1313- 1326.

26. Pai M., McCulloch M., Gorman J.D., Pai N., Enanoria W., Kennedy G., Tharyan P., Colford J.M. (2004) Systematic reviews and meta-analyses: an illustrated, step-by-step guide. The National Medical Journal of India 17 (2): 86-95.

27. R Core Team (2020) R: A language and environment for statistical computing. R Foundation for Statistical Computing. Vienna.

28. Resende M.F.R., Muñoz P., Resende M.D.V., Garrick D.J., Fernando R.L., Davis J.M., Jokela E.J., Martin T.A., Peter G.F., Kirst M. (2012) Accuracy of genomic selection methods in a standard data set of Loblolly Pine (Pinus taeda L.). Genetics 190 (4): 1503-1510.

29. Sánchez Meca J. (2010) Cómo realizar una revisión sistemática y un meta-análisis. Aula Abierta 38 (2): 53-64.

30. Silver N.C., Dunlap W.P. (1987) Averaging correlation coefficients: should Fisher’s z transformation be used? Journal of Applied Psychology 72 (1): 146-148.

31. Strube M.J. (1988) Averaging correlation coefficients: influence of heterogeneity and set size. Journal of Applied Psychology 73 (3): 559-568.

32. Su G., Brøndum R.F., Ma P., Guldbrandtsen B., Aamand G.P., Lund M.S. (2012) Comparison of genomic predictions using mediumdensity (~54,000) and high-density (~777,000) single nucleotide polymorphism marker panels in Nordic Holstein and Red Dairy Cattle populations. Journal of Dairy Science 95 (8): 4657-4665.

33. Thavamanikumar S., Dolferus R., Thumma B.R. (2015) Comparison of genomic selection models to predict flowering time and spike grain number in two hexaploid wheat doubled haploid populations. G3: Genes, Genomes, Genetics 5 (10): 1991-1998.

34. Voss Fels K.P., Cooper M., Hayes B.J. (2019) Accelerating crop genetic gains with genomic selection. Theoretical and Applied Genetics 132 (3): 669-686.

35. Wang X., Li L., Yang Z., Zheng X., Yu S., Xu C., Hu Z. (2017) Predicting rice hybrid performance using univariate and multivariate GBLUP models based on North Carolina mating design II. Heredity 118: 302-310.

36. Wang X., Xu Y., Hu Z., Xu C. (2018) Genomic selection methods for crop improvement: Current status and prospects. The Crop Journal 6 (4): 330-340.

37. Wang X., Yang Z., Xu C. (2015) A comparison of genomic selection methods for breeding value prediction. Science Bulletin 60 (10): 925-935.

38. Wu X.L., Hu Z.L. (2012) Meta-analysis of QTL mapping experiments. In: Rifkin S.A. (Ed.) Quantitative Trait Loci (QTL): Methods and Protocols. Totowa, NJ, Humana Press, pp. 145-171.

39. Xu Y., Xu C., Xu S. (2017) Prediction and association mapping of agronomic traits in maize using multiple omic data. Heredity 119 (3): 174-184.

40. Yang J., Benyamin B., McEvoy B.P., Gordon S., Henders A.K., Nyholt D.R., Madden P.A., Heath A.C., Martin N.G., Montgomery G.W., Goddard M.E., Visscher P.M. (2010) Common SNPs explain a large proportion of the heritability for human height. Nature Genetics 42: 565-569.

Verified by MonsterInsights