MIME-Version: 1.0 Content-Type: multipart/related; boundary="----=_NextPart_01DA421A.4107BCE0" Este documento es una página web de un solo archivo, también conocido como "archivo de almacenamiento web". Si está viendo este mensaje, su explorador o editor no admite archivos de almacenamiento web. Descargue un explorador que admita este tipo de archivos. ------=_NextPart_01DA421A.4107BCE0 Content-Location: file:///C:/8CEA59D3/1069-RTE-35-3.htm Content-Transfer-Encoding: quoted-printable Content-Type: text/html; charset="windows-1252"
https://doi.org/10.37815/rte.v35n3.1069
Artículos originales
Development of a predictive model using supervised learning techniqu=
es
to detect moniliasis in cocoa plants in the Province of Orellana=
Danny
Jesiel Castillo Lapo1 https://orcid.org/0000-0002-0330-19=
47,
Mariuxi Noemí Ramírez Cambo=
span>1=
https://orcid.org/0000-0001-6971-51=
09, Wilson Gust=
avo
Chango Sailema=
1 https://orcid.org/0000-0003-3231-01=
53, Pedro Stalyn Aguilar Encarnación1 https://orcid.org/0009-0005-1664-22=
80
1Esc=
uela
Superior Politécnica de Chimborazo, Espoch Sede Orellana, Ecuador
jesiel.castillo@espoch.edu.ec, mariuxi.ramirez@espoch.edu.ec, wilson.chango@espoch.edu.ec, pedro.aguilar@espoch.edu.ec
Enviado: 2023/09/05
Aceptado: 2023/12/14
Publicado:
2023/12/30
Resumen
La respuesta al enigma de la moniliasis se
encuentra en la ciencia y la tecnología con el proyecto desarrollado en la
Provincia de Orellana, en donde la moniliasis es una enfermedad fúngica que
causa efectos devastadores incluyen do la pudrición de las flores, vainas y
frutos de cacao, lo que conlleva pérdidas significativas a los agricultores=
. La
moniliasis afecta gravemente a los cultivos de cacao y resulta difícil dete=
ctar
su presencia tempranamente. Para lograr la detección de esta enfermedad, se
recopilaron datos obtenidos de sensores y registros manuales para entrenar y
validar un modelo predictivo mediante aprendizaje supervisado, en donde se
analizó las condiciones ambientales y los síntomas de la enfermedad. Se apl=
icó
la metodología de la ciencia del diseño basada en tres ciclos: el ciclo de
relevancia, rigor y diseño. En el ciclo de relevancia se definió el problem=
a y
la necesidad del modelo, en el ciclo de rigor se realizó una investigación
preliminar para determinar la viabilidad del objetivo y, por último, en el
ciclo de diseño se modelaron los datos con algoritmos de aprendizaje automá=
tico
y se implementó el modelo de predicción, probándolo para verificar su corre=
cto
funcionamiento.
Sumario:=
span> Introducción,
Metodología, Resultados, Discusión y Conclusiones. Como citar: Castillo,
D., Ramírez, M., Chango, S. & Aguilar, P. (2023). Desarrollo de un
modelo predictivo utilizando técnicas de aprendizaje supervisado para
detectar la moniliasis en plantas de cacao de la Provincia de Orellana=
. Revista
Tecnológica - Espol, 35(3), 46-67. http://www.rte.espol.edu.ec/index.php/tecnologica/article/view/1=
069
El modelo se compartió con las familias cacaote=
ras
de Orellana, demostrando su eficacia. Esto permitirá a los agricultores tom=
ar
medidas de control adecuadas y oportunas para prevenir la propagación de la
enfermedad y, por lo tanto, aumentar la producción y la calidad del cacao. =
=
Palabras clave: S=
cikit-Learn,
PWA, MongoDB, React.js, Python.
Abstract
The answer to the moniliasis
enigma lies in science and technology with the project developed in Orellana
Province, where moniliasis is a fungal disease that causes significant loss=
es
to farmers. Moniliasis severely affects cocoa crops, and it is difficult to
detect its presence early. Data fr=
om
sensors and manual records were collected to train and validate a predictive
model using supervised learning, where environmental conditions and disease
symptoms were analysed. Design science methodology was applied based on thr=
ee
cycles: the relevance, rigour and design cycle. In the relevance cycle the
problem and the need for the model were defined, in the rigour cycle a
preliminary investigation was carried out to determine the feasibility of t=
he
objective and finally in the design cycle the data was modelled with machine
learning algorithms and the prediction model was implemented and tested to
verify its correct functioning.
The model was shared with cocoa
farming families in Orellana, demonstrating its effectiveness. This will al=
low
farmers to take appropriate and timely control measures to prevent the spre=
ad
of the disease and thus increase cocoa production and quality.
Keywords: Scikit-Learn, PWA, MongoDB, React.js, Pyt=
hon.
Introducción
El cacao es un cultivo de importancia a escala mundial, pero su
rendimiento está severamente limitado por enfermedades como la moniliophthora Pod Rot (MPR) causada por el hongo Moniliophthora roreri. Varios
estudios demuestran que esta enfermedad es uno de los principales factores
limitantes de la producción de cacao en América Latina
argumentan que la agricultura en=
frenta
desafíos todos los días, los que van desde la siembra hasta la cosecha de
cultivos, la inteligencia artificial y el aprendizaje automático desempeñan=
un
papel importante en la calidad de la cosecha de cultivos. Además, se mencio=
na
que la detección temprana de la moniliasis una enfermedad fúngica que afect=
a a
varios tipos de plantas y frutas, en particular al cacao causando la pudric=
ión
de las vainas, lo que a su vez daña las semillas es crucial identificar
rápidamente la presencia de esta enfermedad y tomar medidas preventivas o de
control antes de que la infección se propague y cause daños significativos.=
Al
identificar la moniliasis en sus etapas iniciales, se pueden implementar
tratamientos adecuados y prácticas de gestión para minimizar el impacto en =
los
cultivos y, en última instancia, proteger la producción agrícola.
El problema de investigación planteado es la detección de la monilia=
sis
en plantas de cacao de la Provincia de Orellana. El objetivo principal es
desarrollar un modelo predictivo utilizando técnicas de aprendizaje supervi=
sado
para detectar esta enfermedad.
Para cumplir con esta finalidad, se utilizó la metodología Ciencia d=
el
Diseño, un enfoque basado en la investigación científica, proporcionando un
marco estructurado para abordar problemas complejos basándose en tres ciclo=
s.
Esta investigación es de suma
importancia porque se puede detectar la presencia de la moniliasis a
través de variables microclimáticas y cuantitat=
ivas:
lluvia, temperatura, reacción de hipersensibili=
dad,
punto de rocío, velocidad del viento, dirección y
ráfagas, cantidad de plantas, frutos, incidencia y el porcentaje severidad =
de
datos históricos recopilados manualmente y mediante el uso de un pluviómetro
S-RGF-M002.
Para lograr que el modelo sea accesible de manera sencilla para los
agricultores, se diseñó una Aplicación Web Progresiva (PWA). De acuerdo con=
la
definición de
Por otro lado, el modelo se entrenó util=
izando
técnicas de aprendizaje supervisado el cual “está compuesto por algoritmos =
que
intentan encontrar relaciones y dependencias entre un elemento objetivo”
Para el frontend se utilizó React.js, una librería de JavaScrip=
t.
Se espera que el modelo predictivo desarrollado pueda detectar la presencia de moniliasis con un alto porcentaje de precisión, utilizando los datos históricos recopilados manualmente mediante el uso de un pluviómetro. Además, se espera que este modelo pueda ayudar a los agricultores a preveni= r la aparición de la enfermedad y reducir las pérdidas en la cosecha del cacao.<= o:p>
El esquema para el desarrollo del presente proyecto es el siguiente:= en el apartado 2 se describe la metodología utilizada para la implementación d= el modelo, en el apartado 3 se presentan los resultados obtenidos y discusión,= y en la sección 4 se muestran las conclusiones del proyecto.
M
Este proyecto se realizó en la Prov= incia de Orellana, cantón Francisco de Orellana. Se tomó una muestra de 20 familias cacaoteras para realizar el entrenamiento del modelo. Para implementar el modelo predictivo se utilizó la metodología Ciencia del Diseño (Horst Rittel, 1960). Esta metodología se basa en tres ciclos: relevancia, rigor y diseño. “La herramienta principal para estos cic= los es la investigación y búsqueda de información útil para la construcción de = un artefacto dentro de un contexto” (Robles et al., 2019).
El ciclo de relevancia implica exam= inar los requisitos del mercado y el entorno en el que se utilizará el producto. El ciclo de rigor se basa en la búsqueda de información pertinente, como soluciones previas y los c= onocimientos técnicos necesarios. Finalmente, en el ciclo de diseño se evalúan varias respuestas al problema utilizando una variedad de herramientas para confirmar su eficacia. Estos tres ciclos se representan esquemáticamente en la Figura 1.
Figura = 1=
Metodología de Ciencia de Diseño = aplicada al modelo predictivo
Nota: Esquema de Ciencia de Diseño tomada de (Robles et al., 2019).
Ciclo de relevancia
Definición del problema= p>
Este estudio, se propuso abo=
rdar el
problema de la moniliasis en plantas de cacao en la Provincia de Orellana. =
“La
moniliasis es una enfermedad fúngica que ataca el cultivo de cacao, causada=
por
el basidiomycete Monili=
ophthora
roreri” =
Ciclo de rigor
Investigación preliminar<= /p>
De acuerdo con sus investigaciones,=
La Provincia de Orellana = está situada en la parte nororiental de la región amazónica donde habi= tan familias indígenas cacaoteras que cultivan orgánicamente este cultivo.
El cultivo de cacao y su impacto ec= onómico y social en Ecuador, particularmente en este sector, es de gran relevancia.= Sin embargo, es importante destacar que, además de estos aspectos agrícolas y sociales, se presentan las diferentes herramientas y tecnologías que se utilizarán para llevar a cabo este proyecto.
El Aprendizaje Supervisado es una técnica de aprendizaje automático que construye un modelo predictivo utilizando datos de entrenamiento a partir de datos no etiquetado= s, “este algoritmo busca crear un modelo que pueda realizar predicciones acerc= a de los valores de respuesta para un nuevo conjunto de datos” (Gramajo et al., 2020).
Python es un lenguaje de programación de alto nivel interpretado, orientado a objetos, con semántica dinámica y administración automática de memoria (Fernández et al., 2018).
Scikit-Learn=
span> es una librería de código abierto en Python que se puede util=
izar
para el procesamiento de datos, reducción de la dimensionalidad, clasificac=
ión,
regresión, agrupamiento y selección de modelos. Los resultados de la evalua=
ción
pueden ser en forma de tiempo de ejecución, precisión, matriz de confusión,
tasa de falsos positivos, tasa de falsos negativos, precisión, recordar, y
otros
Mongo DB es una base de datos con un entorno de código abierto que se fundamenta en el almacenamiento masivo de datos a través de archivos distribuidos con eficiencia de acceso.=
React.js es una librería JavaScript de código abierto utilizada para
construir interfaces de usuario interactivas y creativas que se emplea
ampliamente en el desarrollo de aplicaciones web de una sola página
(Single-Page Applications) y aplicaciones móvil=
es.
Docker es un proyecto de código abierto, independiente de lenguajes y
bases de datos, ejecutándolos dentro de contenedores. Un contenedor es=
una
agrupación de aplicaciones junto con sus dependencias, que comparten el
Ciclo de diseño
Se definieron las siguientes variab=
les para
el entrenamiento del conjunto de datos: lluvia, temperatura, HR, punto de
rocío, velocidad del viento, dirección y ráfagas, cantidad de plantas, frut=
os,
incidencia y el porcentaje de severidad. Se realizaron pruebas para
identificar valores atípicos y se evaluó el rendimiento de diferentes
algoritmos para elegir el que obtenga mejor resultado de precisión.
Después de recolectar los datos de = la muestra, se realizaron pruebas con diferentes algoritmos para identificar el mejor resultado. Se emplearon técnicas de análisis estadístico para evaluar= la eficiencia, capacidad de almacenamiento, tiempo de respuesta y otras métric= as pertinentes.
Para el
modelado de datos se utilizaron las siguientes tecnologías: herramienta Git=
Hub
para el control de versiones del proyecto, lenguaje de programación Python =
para
el backend, React.js para el frontend. Se eligi=
ó la
base de datos mongodb y Docker para el desplieg=
ue de
la aplicación.
Se impleme=
ntaron
medidas adecuadas para garantizar la privacidad y confidencialidad de los d=
atos
de acuerdo con la ley vigente, lo que implica garantizar que los datos sean
almacenados y utilizados de manera segura, y que solo sean accesibles para =
las
personas autorizadas involucradas en el proyecto.
Obtener una
muestra representativa de la población de plantas de cacao puede ser un des=
afío
logístico y requerir un muestreo cuidadoso al igual que la variabilidad de las condiciones ambientales pu=
ede
dificultar la creación de un modelo efectivo en diferentes escenarios y
ubicaciones. Otra limitación es la evolución y cambios en la moniliasis que
pueden afectar la eficacia del modelo predictivo a medida que se enfrenta a
nuevas cepas o cambios en la enfermedad.
Se
anticipa que los hallazgos y la estructura del estudio son presentados de
manera exhaustiva y comprensible para facilitar la reproducción de la
investigación por parte de otros investigadores. Es esencial proporcionar u=
na
descripción precisa de los procedimientos y enfoques utilizados, asegurándo=
se
de que se presenten sin ambigüedades. Además, es necesario definir
minuciosamente las variables y medidas involucradas en el estudio, brindando
detalles específicos que permitan una comprensión completa de su significad=
o y
aplicabilidad.
Diseño conceptual
Figura 2Tabla 1.
Rendimiento de algoritmos KPC
ALGORITMO KPCA |
KERNEL |
VALOR OBTENIDO |
Datos originales |
Linear |
1.0 |
Polynomial |
0.9865 |
|
RBF |
0.9373 |
|
Datos normalizados |
Linear |
0.8611 |
Polynomial |
0.8194 |
|
RBF |
0.8835 |
|
Datos discretizados |
Linear |
0.9373 |
Polynomial |
0.9492 |
|
RBF |
0.7731 |
El
análisis de los resultados indica claramente que el ke=
rnel
lineal obtuvo el mejor rendimiento en comparación con los kernels
polinómico y RBF. Este kernel logró un puntaje =
más
alto en todas las métricas evaluadas: el puntaje original, el puntaje
normalizado y el puntaje discretizado. Estos resultados sugieren que la
proyección de los datos en un espacio de menor dimensión, utilizando el
En cuanto
a las pruebas realizadas con los algoritmos PCA e IPCA, arrojaron los
siguientes resultados.
Tabla 2Tabla 3.
Rendimiento de algoritmos PCA, IP= CA y KPCA
MÉTODO |
KERNEL |
VALOR OBTENIDO |
PCA |
- |
1.0 |
IPCA |
- |
1.0 |
KPCA |
Lineal |
1.0 |
El
algoritmo de PCA demostró un rendimiento excelente al obtener un valor de 1=
.0
en la métrica evaluada. Esto indica que PCA fue capaz de capturar
eficientemente la varianza en los datos y proporcionar una representación
compacta y significativa de las características originales. Además, PCA es
ampliamente utilizado y reconocido en la comunidad científica, lo que brinda
confianza en su aplicabilidad y resultados.
Una de
las principales razones para elegir PCA es su capacidad de interpretación y
comprensión de los datos. Al extraer los componentes principales, se puede
identificar las características más relevantes y entender mejor las relacio=
nes
entre las variables originales. Esta interpretación es crucial para este
proyecto, ya que se busca obtener conocimientos significativos y explicable=
s.
Otra
consideración importante es que no se requiere explícitamente la capacidad =
de
no linealidad en el análisis. Dado que el kernel
lineal en KPCA obtuvo el mismo rendimiento que PCA, no hay una ventaja clar=
a en
utilizar la extensión no lineal en este caso. Al elegir PCA, este estudio se
puede beneficiar de su simplicidad y eficiencia computacional en comparación
con KPCA.
Algoritmos para abordar valores atípic= os
Para
realizar experimentos y mejorar la precisión del modelo de predicción, se
implementaron tres modelos de Scikit-learn: SVR=
, RANSACRegressor y HuberRegressor=
.
El objetivo de esta investigación fue abordar el desafío de los valores
atípicos en el conjunto de datos. Para ello, se ejecutó cada modelo utiliza=
ndo
tres enfoques diferentes en los datos: los datos originales, los datos
normalizados y los datos discretizados. Para cada enfoque y modelo, se ajus=
tó
el modelo a los datos de entrenamiento y se realizó predicciones en los dat=
os
de prueba. Se calculó el Error Cuadrático Medio (MSE) para evaluar el desem=
peño
de cada modelo y enfoque.
Tabla 4Tabla 5.
Resultados aplicando técnicas de regularización
TIPO DE DATOS |
ALGORITMOS |
RESULTADOS |
Datos originales |
Lineal |
0.8317 |
Lasso |
0.8023 |
|
Ridge |
0.8282 |
|
ElasticNet |
0.8016 |
|
Datos normalizados |
Lineal |
0.8317 |
Lasso |
0.6223 |
|
Ridge |
0.8313 |
|
ElasticNet |
-6.4228 |
|
Datos discretizados |
Lineal |
0.8114 |
Lasso |
0.7032 |
|
Ridge D |
0.8113 |
|
ElasticNet |
0.2845 |
Después de realizar estos experimentos, se encontró que el modelo lineal es el mejor candidato para abordar el problema de la multicolinealidad. Este modelo obtuvo puntajes altos en todas las versiones= de los datos. Esto indica que este modelo tiene un buen rendimiento en diferen= tes contextos.
El modelo lineal demostró un buen d=
esempeño
en términos de predicción, superando a los modelos Ridge, Lasso y ElasticNet en la mayoría de las métricas evaluadas. S=
us
puntajes fueron consistentemente altos, lo que indica que es capaz de captu=
rar
las relaciones entre las variables y hacer predicciones precisas. Los
coeficientes del modelo lineal indican la contribución relativa de cada
característica para predecir la variable objetivo (Incidencia). Observando =
los
coeficientes del modelo lineal, se notó que, en el caso de los datos
originales, la caract=
erística
"Rain" tiene el coeficiente más alto, lo que sugiere que puede se=
r la
característica más importante para el modelo en cuestión. En el segundo y
tercer caso de normalización y discretización, la característica “Severidad
(%)” tiene el mayor peso, lo que sugiere que puede ser la más importante pa=
ra
esos modelos. Estos coeficientes indican que un aumento en estas
características tiende a estar asociado con un aumento en la variable objet=
ivo
(Incidencia).
Basado =
en esto,
se puede decir que la característica "Rain" tiene el mayor peso e=
n el
modelo y es el factor más importante para predecir la variable objetivo
(Incidencia) según el modelo lineal.
Variables que tienen mayor peso o infl= uencia en la predicción
Tabla 6789Tabla 10 y Tabla 11.
Bagging
Resultados= de modelos ensamblados basados en bagging= p>
TIPOS DE DATOS |
MODELO |
RESULTADOS |
Datos originales |
LogisticRegression |
1.0 |
SVC |
0.9846 |
|
LinearSVC |
1.0 |
|
SGD |
1.0 |
|
KNN |
0.9936 |
|
DecisionTreeClf |
1.0 |
|
RandomTreeFores |
1.0 |
|
LogisticRegression |
0.9820 |
|
SVC |
0.9808 |
|
LinearSVC |
0.9923 |
|
SGD |
0.9923 |
|
KNN |
0.9603 |
|
DecisionTreeClf |
1.0 |
|
RandomTreeFores |
1.0 |
|
Datos discretizados |
LogisticRegression |
0.9923 |
SVC |
0.9782 |
|
LinearSVC |
0.9923 |
|
SGD |
0.9884 |
|
KNN |
0.9641 |
|
DecisionTreeClf |
0.9872 |
|
RandomTreeFores |
0.9923 |
<= o:p>
En términos generales, todos los mo= delos mostraron un rendimiento bastante sólido en los tres escenarios. Algunos modelos destacaron en ciertos aspectos, pero es importante considerar que la elección del mejor modelo depende de las características y requisitos específicos del problema en cuestión.
El modelo Logi= sticRegression obtuvo una puntuación perfecta de precisión (1.0) en el escenario de datos originales, lo que indica que pudo clasificar correctamente todas las muest= ras de prueba. Sin embargo, también consiguió un rendimiento muy bueno en los o= tros dos escenarios, con puntuaciones de precisión superiores al 0.98. Esto sugi= ere que LogisticRegression es un modelo sólido y confiable en general.
Otros modelos, como SVC, LinearSVC, SGD y RandomTreeFores= t, también obtuvieron puntuaciones muy altas en los tres escenarios, aunque ligeramente inferiores a las del modelo LogisticRegres= sion. Estos modelos demuestran una capacidad consistente para clasificar correctamente las muestras.
El modelo KNN mostró un rendimiento ligeramente inferior en comparación con los anteriores. Aunque obtuvo puntuaciones de precisión superiores al 0.96 en los tres escenarios, es importante tener en cuenta que KNN se basa en la cercanía de los vecinos, lo que puede resultar en un rendimiento variable dependiendo de los datos y la distribución de las muestras.
Por último, los modelos DecisionTreeClf y RandomTreeForest también mostraron un rendimi= ento sólido en los datos originales y normalizados, con puntuaciones de precisión perfectas (1.0). Sin embargo, el rendimiento en el escenario de datos discretizados fue ligeramente inferior, lo que indicó que estos modelos pue= den no ser tan eficientes al tratar con datos discretizados.
Considerando los resultados obtenid= os, el modelo LogisticRegression parece ser el más ade= cuado en términos de rendimiento general en los tres escenarios evaluados.=
Boosting
Resultados del modelo ensamblado = basado en boosting
TIPO DE DATOS |
PRECISIÓN |
NÚMERO DE ESTIMADORES |
Originales |
1.0 |
4 |
Normalizados |
1.0 |
4 |
Discretizados |
0.9885 |
4 |
Los resultados obtenidos revelaron = que, en todos los casos, el algoritmo de boosting logró= una alta precisión en la clasificación. Tanto los datos originales como los dat= os normalizados alcanzaron una precisión perfecta del 100% con un número de estimadores igual a 4. Esto indica que el modelo fue capaz de aprender eficientemente y realizar una clasificación precisa utilizando cualquiera de los dos conjuntos de datos.
Por otro lado, los datos discretiza= dos también ofrecieron un rendimiento muy sólido, con una precisión cercana al 98.85%. Aunque ligeramente inferior a los otros dos conjuntos de datos, sig= ue siendo un resultado muy satisfactorio. Estos resultados sugirieron que el algoritmo de boosting utilizado fue robusto y c= apaz de manejar diferentes tipos de datos. Tanto los datos originales como los d= atos normalizados demostraron ser igualmente efectivos, mientras que la discretización de los datos introdujo una leve disminución en el rendimient= o, pero aún ofreció una precisión destacable.
Con base en los hallazgos presentad= os, se puede concluir que tanto los datos originales como los datos normalizados alcanzaron un rendimiento excelente con una precisión del 100%. Dado que no hubo una diferencia significativa entre estos dos conjuntos de datos en tér= minos de rendimiento, se puede elegir cualquiera de ellos para entrenar el modelo= de boosting.
Resultados= span>
Después de revisar los resultados y considerar los puntajes obtenidos por diferentes algoritmos, he llegado a la conclusión de que Logistic= Regression es el mejor algoritmo en comparación de los demás algoritmos de aprendizaje supervisado, ya que con los datos de prueba obtuvo el mejor resultado. Este modelo ha demostrado un desempeño sobresaliente al obtener un puntaje perfe= cto de 1.0 en los datos originales utilizados, lo que indica que LogisticRegression ha logrado un ajuste óptimo a los = datos originales y puede realizar predicciones precisas en ese conjunto de datos específico. Esto sugiere que el modelo ha capturado de manera efectiva los patrones y las relaciones presentes en los datos originales.<= /p>
Figura 3
Esquema de elección del algoritmo de aprendizaje supervisado q= ue obtuvo el mejor resultado
Validación de modelos
Se
ha validado el modelo entrenado para predecir la moniliasis utilizando tres
enfoques diferentes de validación cruzada: k-folds,
LOOCV y Hold-Out, así también, se corroboró el =
modelo
con un conjunto de datos diferente que no fue utilizado para entrenar el mo=
delo
y las predicciones fueron igualmente precisas.Los
resultados se muestran a continuación.
K-Fold Cross-
La Validación Cruzada K-Fold (K-Fold Cross-Validation) es una técnica de evaluación = de modelos de aprendizaje automático ampliamente utilizada para medir la capac= idad de generalización de un modelo en un conjunto de datos. Su objetivo princip= al es obtener una estimación más precisa del rendimiento del modelo al usar los datos de manera más eficiente.
El procedimiento de K-Fold Cross-Validation consiste en dividir el conjunto de datos en "k" partes o subconju= ntos (folds), aproximadamente, iguales. Luego, el mo= delo se entrena y evalúa "k" veces, donde en cada iteración se utiliza= una partición diferente como conjunto de prueba, y las restantes se emplean como conjunto de entrenamiento. Esto asegura que cada instancia del conjunto de datos sea utilizada tanto para entrenar como para evaluar el modelo.=
En cada iteración, se registran las métricas de rendimiento, como el Error Cuadrático Medio (MSE), precisión, recall, entre otras, para evaluar el rendimiento del modelo en cada conjunto de prueba.= span>
Por último, se calcula el promedio de las métricas de rendimiento obtenidas en = las "k" iteraciones para obtener una estimación general del rendimien= to del modelo.
Análisis del Resultado de K-Fold Cross-Validation
Se aplicó K-Fold Cross-Valida= tion con "k=3D3" particiones para evaluar el modelo de regresión previ= amente entrenado. Los resultados muestran tres valores de MSE para cada iteración = de K-Fold, y se obtuvo un MSE promedio de 0.0.
El MSE promedio de 0.0 indicó una coincidencia perfecta entre las predicciones= del modelo y los valores reales en todos los conjuntos de prueba utilizados en = la validación cruzada.
Leave-One-Out Cross-Valida=
tion
LOOCV (Leave-One-Out Cross-Valid= ation) es una técnica de validación cruzada que se utiliza para evaluar el rendimi= ento de un modelo estadístico o de aprendizaje automático. Su objetivo es estimar cómo se comportará el modelo en datos no vistos y comprobar su capacidad pa= ra generalizar a nuevos datos.
El funcionamiento de LOOCV es relativamente sencillo. En primer lugar, se toma= el conjunto de datos original y se divide en dos partes: un punto de datos individual (una muestra) se separa para ser utilizado como conjunto de validación, mientras que el resto de los datos forman el conjunto de entrenamiento. El modelo se entrena usando el conjunto de entrenamiento y l= uego se evalúa su rendimiento manejando el punto de datos de validación único qu= e se dejó fuera previamente.
Este proceso de entrenamiento y evaluación se repite para cada punto de datos en= el conjunto original, dejando uno diferente fuera en cada iteración. Por lo ta= nto, si el conjunto de datos original tiene N puntos, se realizarán N iteracione= s en total. Al finalizar, se promedian los resultados de evaluación obtenidos en cada iteración para obtener una medida de rendimiento general del modelo.= span>
Análisis del Resultado de Leave-One-Out
Cross-Validation
Se aplicó LOOCV para evaluar el modelo de regresión previamente entrenado. Los valores de MSE resultantes fueron todos cero. Esto significa que el error cuadrático medio (MSE) obtenido, utilizando la técnica de validación cruzada LOOCV, fue cero para todos los datos de prueba, esto indicó que el modelo p= udo ajustarse perfectamente a los datos de entrenamiento y pudo hacerse predicciones precisas para los datos de prueba.
Tras aplicar el método de validación Hold-Out al mod= elo aquí propuesto, se obtuvo un error cuadrático medio (MSE) de cero. Esto mos= tró que las predicciones del modelo son perfectamente precisas y no hay diferen= cia entre los valores reales y los valores predichos. Además, se validó con un conjunto de datos diferente que no fue empleado para entrenar el modelo y l= as predicciones fueron igualmente precisas. Esto sugiere que el modelo plantea= do ha capturado bien las relaciones subyacentes en los datos y puede generaliz= ar bien si se aplica a nuevos datos.
Hold-Out= Validation
La validación Hold-Out es una técnica de evaluació= n de modelos de aprendizaje supervisado que consiste en dividir el conjunto de d= atos en dos subconjuntos disjuntos: un conjunto de entrenamiento y un conjunto de prueba. El de entrenamiento se utiliza para entrenar el modelo, mientras qu= e el conjunto de prueba se reserva exclusivamente para evaluar su rendimiento de manera independiente. Es decir, el modelo no ha visto los datos del conjunt= o de prueba durante su proceso de entrenamiento, lo que permite obtener una estimación más objetiva de su capacidad para generalizar a datos no vistos previamente.
El funcionamiento de la validación Hold-Out consis= te en dividir el conjunto de datos en dos partes mutuamente excluyentes: el conju= nto de entrenamiento y el conjunto de prueba. El conjunto de entrenamiento se utiliza para entrenar el modelo, ajustando sus parámetros y aprendiendo patrones en los datos. Posteriormente, el modelo se evalúa con el conjunto = de prueba, que contiene datos no vistos durante el entrenamiento, para medir su capacidad de generalización y su rendimiento en nuevas instancias. Esta téc= nica proporciona una estimación inicial del desempeño del modelo y permite detec= tar problemas como el ajuste excesivo (overfitting). Aunque la validación Hold-Out es sencilla y ráp= ida, su representatividad puede depender del tamaño del conjunto de prueba y, por tanto, es aconsejable combinarla con otras técnicas, como la validación cruzada, para obtener una evaluación más robusta del modelo.<= /p>
Análisis del Resultado de Hold-Out
Validation
Tras aplicar el método de validación Hold-Out al mod= elo, se obtuvo un error cuadrático medio (MSE) de cero. Esto indica que las predicciones del modelo fueron precisas y no hay diferencia entre los valor= es reales y los predichos.
Comparativa entre métodos de validación
Según los resultados, todos los métodos de validación utilizados (k-folds, LOOCV y Hold-Out) = dieron un MSE promedio de 0.0, como se ve en la Tabla 12<= /span>. Esto indica que las predicciones del modelo son precisas y no hay diferencia entre los valores reales y los valores predichos en ninguno de los métodos de validación utilizados.
Tabla 12
Resultados de métodos de Validación
MÉTODO DE
VALIDACIÓN |
MSE PROME=
DIO |
k-folds |
0.0 |
LOOCV |
0.0 |
Hold-Out |
0.0 |
El modelo muestra un alto nivel de precisión en la tarea de predicción, independientemente del método de validación utilizado. Esto sugiere que el modelo ha capturado bien las relaciones subyacentes en los datos y puede generalizar cuando se aplica a nuevos datos.
Optimización paramétrica
Se ha realizado una optimización paramétrica del modelo propuesto utilizando t= res enfoques diferentes: manual, grilla y búsqueda aleatoria. Estos son métodos comunes para ajustar los parámetros de un modelo y mejorar su rendimiento.<= /span>
Los resultados se muestran a continuación.
Optimización
manual
Este enfoque implica ajustar manualmente los parámetros del modelo y evaluar su rendimiento. Este proceso se repite hasta encontrar una combinación de parámetros que proporcione el mejor rendimiento.
Tras aplicar una optimización manual de los parámetros del modelo de regresión de bosques aleatorios, se encontró que la mejor combinación de parámetros fue = n_estimators=3D4, criterion=3D ‘squared_error’ y max_depth=3D2, como se muestra en la Tabla 13<= /span>.
Tabla 13
Resultados de la optimización manual
PARÁMETRO=
|
MEJOR VAL=
OR |
n_estimators |
4 |
criterion |
squared_error |
max_depth |
2 |
Esto significa que el mejor modelo encon= trado tiene 4 árboles, emplea el error cuadrático como criterio para medir la cal= idad de las divisiones y tiene una profundidad máxima de 2.
Optimización por grilla
Este enfoque implica definir un conjunto de valores posibles para cada parámetro= y evaluar el rendimiento del modelo para todas las combinaciones posibles de parámetros. La combinación de parámetros que proporcione el mejor rendimien= to se selecciona como la mejor.
Tras aplicar una búsqueda en grilla para optimizar los parámetros del modelo de regresión de bosques aleatorios, se detectó que la mejor combinación de parámetros fue n_estimators=3D4, criterion=3D ‘squared_error’ y max_dept= h=3D2 como se evidencia en la Tabla 14<= /span>.
Tabla 14
Resultados de la optimización por grilla
PARÁMETRO=
|
MEJOR VAL=
OR |
n_estimators |
4 |
criterion |
squared_error |
max_depth |
2 |
Esto significa que el mejor modelo encontrado tuvo 4 árboles, utiliza el error cuadrático como criterio para medir la calidad de las divisiones y tuvo una profundidad máxima de 2.
Optimización por Búsqueda aleatoria
Este enfoque implica muestrear aleatoriamente combinaciones de parámetros y eval= uar el rendimiento del modelo para cada combinación. La combinación de parámetr= os que proporcione el mejor rendimiento se selecciona como la mejor.
Tras aplicar una búsqueda aleatoria para optimizar los parámetros del modelo de regresión de bosques aleatorios, encontramos que la mejor combinación de parámetros fue n_estimators=3D13, criterion=3D ‘absolute_error’ y max_dep= th=3D9 como se oberva en la Tabla 15<= /span>.
Tabla 15
Resultados de optimización por Búsqueda aleatoria
PARÁMETRO=
|
MEJOR VAL=
OR |
n_estimators |
13 |
criterion |
absolute_error |
max_depth |
9 |
Esto significa que el mejor modelo encontrado tuvo 13 árboles, utiliza el error absoluto como criterio para medir la calidad de las divisiones y tuvo una profundidad máxima de 9.
Comparativa entre métodos de optimización
Se ha aplicado diferentes métodos de optimización de parámetros para el modelo= de regresión de bosques aleatorios propuesto y se encontró diferentes combinaciones óptimas de parámetros dependiendo del método utilizado. Despu= és de aplicar una optimización manual y una búsqueda en grilla, la mejor combinación de parámetros encontrada fue n_estimators<= /span>=3D4, criterion=3D ‘squared_erro= r’ y max_depth=3D2. Por otro lado, después de apli= car una búsqueda aleatoria, la mejor combinación de parámetros encontrada fue n_estimators=3D13, criterion=3D ‘absolute_error’ y max_depth=3D9 (Tabla 16).
Tabla 16
Comparativ= a entre métodos de optimización
MÉTODO DE
OPTIMIZACIÓN |
N_ESTIMAT=
ORS |
CRITERION=
|
MAX_DEPTH=
|
Manual |
4 |
squared_error |
2 |
Grilla |
4 |
squared_error |
2 |
Búsqueda
aleatoria |
13 |
absolute_error |
9 |
Estos
resultados muestran que diferentes métodos de optimización pueden llevar a
diferentes combinaciones óptimas de parámetros para este modelo.
Implementación del modelo predictivo en la PWA
Una vez que se validó y se comprobó=
que
el modelo predictivo da buenos resultados, se implementó el modelo en la PW=
A, el
cual, quedó de la siguiente manera:
En la pantalla de inicio, los eleme=
ntos
que se encuentran son: una barra de navegación en la parte superior, en el =
lado
izquierdo, se destaca una imagen de un árbol de cacao. Justo del lado derec=
ho,
se muestra un título grande que dice "Moniliasis" y un subtítulo =
que
indica "Enfermedad del cacao”, y más abajo, un párrafo que ofrece
información importante sobre la moniliasis y su impacto en el cultivo de ca=
cao.
En la parte de abajo del contenido principal, hay dos botones, uno que ofre=
cen
la posibilidad de acceder a ver la información sobre los datos de los senso=
res,
y otro que dirige a la página para que el usuario pueda predecir la monilia=
sis
en su planta de cacao.
Figura 4
Pantalla de inicio de la PWA
=
En la página para ver lo datos de l=
os
sensores, los datos que se muestran son extraídos de la base de datos de
MongoDB mediante una API.
El contenido principal está dividid=
o en
dos columnas, en la columna izquierda, hay un recuadro rectangular que mues=
tra
la temperatura, en la columna derecha, hay varios recuadros, cada uno con un
título descriptivo, un ícono correspondiente y un campo que muestra datos d=
e la
lluvia, humedad relativa, punto de rocío, velocidad y dirección del viento,=
así
como velocidad de ráfaga. Además, se almacenan localmente los datos obtenid=
os
para acceder a ellos cuando el dispositivo esté fuera de línea. Si el dispo=
sitivo
cambia de estado de fuera de línea a en línea, se vuelven a cargar los datos
desde la API.
Figura 5
Página de la PWA que muestra los datos de los sensores
En la página para predecir la monil=
iasis,
el usuario podrá ingresar datos de una planta, como el identificador de la
planta, los fruto y la severidad. El contenido se divide en dos columnas. E=
n la
columna izquierda hay un rectángulo que muestra un título "Ingrese los
datos de la planta" seguido de un formulario con tres campos de entrada
para los datos mencionados anteriormente. El usuario puede completar estos
campos con la información deseada. Luego, hay un botón "Enviar" q=
ue,
cuando se hace clic, realiza una solicitud POST al servidor para procesar l=
os
datos ingresados y mostrar la predicción echa en la columna derecha. En la
columna derecha se muestra la predicción como tal.
Figura 6
Página para predecir la moniliasis
Discusión
La presente investigación se centró en el desarrollo de un modelo predictivo p= ara detectar la moniliasis en plantas de cacao en la Provincia de Orellana. Los resultados obtenidos destacan la importancia del uso de técnicas de aprendi= zaje supervisado en la detección de esta enfermedad fúngica, con el objetivo de reducir las pérdidas en los cultivos de cacao.
En primer lugar, los resultados de esta investigación demuestran que el modelo desarrollado presenta una precisión significativa en la predicción de la presencia de moniliasis en las plantas de cacao. Esta capacidad predictiva resulta fundamental para los agricultores, ya que les permite tomar medidas preventivas y aplicar tratamientos específicos en etapas tempranas, contribuyendo así a reducir la propagación de la enfermedad y minimizar las pérdidas.
Asimismo, la recopilación de datos detallados sobre las características de las planta= s de cacao y las condiciones ambientales, tanto a través de sensores como de registros manuales, resultó de vital importancia para entrenar el modelo presentado de manera efectiva. Estos hallazgos enfatizan la necesidad de obtener información precisa y completa, a fin de mejorar la precisión de los modelos predictivos en el ámbito agrícola.
No
obstante, es importante reconocer ciertas limitaciones del estudio. Por
ejemplo, la disponibilidad de datos históricos sobre la moniliasis fue
limitada, lo que pudo haber afectado la capacidad del modelo para capturar =
toda
la variabilidad de la enfermedad. Además, es importante destacar que la
investigación se enfocó específicamente en la Provincia de Orellana, por lo
que, los resultados podrían no ser generalizables a otras regiones con
diferentes condiciones climáticas y de cultivo.
Este estudio ha demostrado la efica= cia de un modelo predictivo basado en aprendizaje supervisado para detectar la moniliasis en plantas de cacao en la Provincia de Orellana. Los resultados obtenidos resaltan la importancia de utilizar herramientas de análisis de d= atos en el campo agrícola, especialmente en la detección temprana de enfermedades que pueden afectar la producción y calidad de los cultivos.
Se identificó la importancia de rec= opilar datos detallados sobre las características de las plantas de cacao y las condiciones ambientales para mejorar la precisión del modelo predictivo. Es= to resalta la necesidad de contar con información precisa y completa, obtenida= a través de sensores y registros manuales, para desarrollar modelos más efect= ivos en el futuro.
Es importante tener en cuenta algun= as limitaciones de este estudio. La disponibilidad de datos históricos sobre la moniliasis fue escasa, lo que podría haber afectado la capacidad del modelo para capturar toda la variabilidad de la enfermedad. Además, los resultados= se limitan a la Provincia de Orellana y pueden no ser generalizables a otras regiones con diferentes condiciones climáticas y de cultivo.
Reconocimientos
Los autores desean expresar su agradecimiento a la Escuela Superior Politécnica de Chimborazo, de igual ma= nera a nuestros docentes, el distinguido Wilson Gustavo Chango Sailema, Ph.D. y al Ing. = Pedro Stalyn Aguilar Encarnación. Gracias por su colaboraci= ón en este estudio.
Referencias
Bernardi, L., Branco da Motta, & Bernardi L=
ucioana,
C. (2018). Development of an app as a tool to support research and the preventi=
on
of osteoporosis. Or=
iginal Articles.
https://doi.org/10.1590/1981-22562018021.170189
Boersma, S., & lu=
ngu,
mircea. (2021). React-brat=
us:
visualización de jerarquías de componentes de React. IEEE.
Caicedo,=
C.
(2019). Primer Simposio Internacional Innovaciones Tecnológicas para
Fortalecer la Cadena de Cacao en la.
Carrera,=
K.,
Mosquera, L., & Leiva, M. (2014). Protocolo para el aislamiento de Moniliophthora roreri (Cif y Par)Evans et al. en frutos de cacao cv. ‘Nacional’ de la Amazoníaecu=
atoriana.
Biotecnología Vegetal , 14.
Correa, =
J.,
Castro, S., & Coy, J. (2014). Estado de la moniliasis del cacao causada=
por
Moniliophthora roreri en
Colombia . Sistema de Información Científica Redalyc.
Fernánde=
z, T.,
Fernández Leonardo, Ricciardi, T., Ugarte, L., & Almeida, M. (2018).
Lenguaje de programación Python para el análisis de sistemas de potencia
Educación e investigación. IEEE.
Fortunat=
o, D.,
& Bernardino, jorge. (2018). Aplicaciones w=
eb
progresivas: una alternativa a las aplicaciones móviles nativas. =
IEEE=
.
Gramajo, M. G., Ballejos, L., & Ale, M. (2020). Seizing
Requirements Engineering Issues through Supervised Learning Techniques. IEEE Latin America Transactions, 18(7), 1164–1184.
https://doi.org/10.1109/TLA.2020.9099757
Jha, K., Doshi, A., Patel, P., & Shah, M. (2019). A comprehensive
review on automation in agriculture using artificial intelligence. In Artificial Intelligence in Agriculture=
(Vol. 2, pp. 1–12). KeAi Communications Co.
https://doi.org/10.1016/j.aiia.2019.05.004
Leandro-Muñoz, M. E., Tixier, P., Germon, A., Rakotobe, V.,
Phillips-Mora, W., Maximova, S., & Avelino, J. (2017). Effects of
microclimatic variables on the symptoms and signs onset of Moniliophthora
roreri, causal agent of Mo=
niliophthora
pod rot in cacao. PLoS ONE=
, 12=
(10).
https://doi.org/10.1371/JOURNAL.PONE.0184638
Oliveira, D., Barbosa, U., CRO Bergland, A., & Resende, O. (2022=
). G-SOJA - SITIO WEB CON PREDICCIÓN D=
E LA
CLASIFICACIÓN DE LA SOJA UTILIZANDO MACHINE LEARNING. IEEE.
Ovalle, =
C.
(2022). Modelo predictivo basado en Machine Learning para la Cadena de
Suministro y su influencia en la gestión logística de una empresa de venta =
de
autos. Journal o=
f
the ACM ER .
Ricardez, D. la C., Espinoza, L., García, O=
., &
Pérez, P. (2016). ACTIVIDAD ANTIFÚNGICA in vitro DEL EXTRACTO ACUOSO Y
ALCALOIDEO DE Lupinus spp<=
/span>.
SOBRE Moniliophthora rorer=
.
Agroproductividad.
Robles, =
S.,
Vásquez, H., & Naranjo, L. (2019). Vista de Adaptación de la metodol=
ogía
de ciencia de diseño en el desarrollo de luminarias | Tecnología Vital.
https://revistas.ulatina.ac.cr/index.php/tecnologiavital/article/view/252/2=
65
Susanto, Stiawan, D., Arifin, M. A. S., =
Idris,
M. Y., & Budiarto, R. (2020). Iot botnet ma=
lware
classification using weka tool and scikit-learn
machine learning. International
Conference on Electrical Engineering, Computer Science and Informatics (EEC=
SI),
2020-October, 15–20.
https://doi.org/10.23919/EECSI50503.2020.9251304
Susilo<=
/span>, A., Karna, N., & Mayasari,
R. (2021). Decision Tree-Based Bok Choy Growth Prediction Model for Smart Farm.=
2021 4th International Conference on
Information and Communications Technology (ICOIACT), 169–174.
https://doi.org/10.1109/ICOIACT53268.2021.9563914