MIME-Version: 1.0 Content-Type: multipart/related; boundary="----=_NextPart_01D91C3E.61C46030" Este documento es una página web de un solo archivo, también conocido como "archivo de almacenamiento web". Si está viendo este mensaje, su explorador o editor no admite archivos de almacenamiento web. Descargue un explorador que admita este tipo de archivos. ------=_NextPart_01D91C3E.61C46030 Content-Location: file:///C:/8CEA55D4/963-RTE-34-4.htm Content-Transfer-Encoding: quoted-printable Content-Type: text/html; charset="windows-1252"
https://doi.org/10.37815/rte.v34n4.963
Artículos
originales
Use of machine learning algorithms to analyze data on electricity bi=
lled
in the Metropolitan Region of Chile during the period 2015-2021<=
span
lang=3DEN-US style=3D'font-size:10.0pt;mso-ansi-language:EN-US'>
César A. Yajure
Ramírez1 https://orcid.org/0000-0002-3813-7606
1Universidad Cent=
ral de
Venezuela, Caracas, Venezuela
Enviado: 2022/08/18
Aceptado: 2022/12/01
Publicado: 2022/12/30
Resumen
En la presente investigación se hace el análisis de los datos de ene= rgía eléctrica facturada a los clientes regulados en la región metropolitana de Chile durante el período 2015-2021, con el fin de establecer las caracterís= ticas de la estructura de los datos, la relación entre las variables, predecir las clases de los registros nuevos, e identificar los patrones subyacentes en l= os datos. Para ello se utilizó el análisis estadístico descriptivo y los algoritmos de aprendizaje automático K-Means y K-NN. Se pudo establecer que, para el período de estudio, el consumo de energía unitario promedio para clientes residenciales fue de 453 kWh, y de 10.315 kWh para clientes no residenciales. Asimismo, se estableció que hay dependencia entre el número = de clientes y la energía eléctrica facturada, al igual que entre la comuna y la empresa distribuidora. Por otra parte, con el algoritmo K-Means se obtuvo un modelo que agrupó los datos de acuerdo con el tipo de cliente, así como tam= bién de acuerdo con el tipo de empresa de distribución eléctrica que abastece a = los clientes regulados. Por medio del algoritmo K-NN se obtuvo un modelo para predecir el tipo de cliente de los registros nuevos, con una exactitud del 99,73%.
=
Palabras clave: Ciencia de datos, clientes regulados, tipos =
de
clientes, K-NN, K-Means.
Abstract
Sumario: Introducc=
ión,
Metodología, Resultados y Discusión y Conclusiones. Como citar: Yajure, C=
. (2022).
Uso de algoritmos de aprendizaje automático para analizar los datos de
energía eléctrica facturada en la Región Metropolitana de Chile durant=
e el
período 2015-2021. Revista Tecnológica - Espol, 34(4), 137-152.=
http://www.rte.espol.edu.ec/index.php/tecnologica/article/view/9=
63
This research presents the data
analysis of electrical energy billed to regulated clients in the metropolit=
an
region of Chile during 2015-2021 to establish the characteristics of the da=
ta
structure and the relationship between the variables. It also aims to predi=
ct
the classes of new records, and to identify underlying patterns in the data.
This study uses descriptive statistical analysis, and the K-Means and K-NN
machine learning algorithms. For this study period, it was established that=
the
average unit energy consumption for residential customers was 453 kWh, and
10,315 kWh for non-residential customers. Likewise, there is a dependency
between the number of clients and the electricity billed, as well as between
the commune and the distribution company. On the other hand, the K-Means
algorithm suggests a model that groups the data according to the type of
customer and the type of electricity distribution company that supplies
regulated customers. The application of the K-NN algorithm resulted in a mo=
del
to predict the type of client of the new records, with an accuracy of 99.73=
%.
Keywords: Data Science, regulated customers, types =
of
clients, K-NN, K-Means.
Introducción
En Chile se=
tienen
tres sistemas eléctricos independientes, el sistema eléctrico nacional
compuesto por las instalaciones de generación eléctrica, transmisión y cons=
umo
que abarcan el territorio desde las regiones de Arica Parinacota, hasta la =
Isla
Grande de Chiloé, en la región de Los Lagos. El Sistema de Aysén en la regi=
ón
del mismo nombre, y el Sistema de Magallanes que abarca la región de Magall=
anes
y la Antártica Chilena.
Desde
el punto de vista de los usuarios, la normativa chilena establece dos segme=
ntos
principales en el área de consumo de energía eléctrica: clientes regulados y
clientes libres. De acuerdo con la Sociedad Alemana de Cooperación
Internacional (2020, p. 30), “el segmento de clientes regulados lo conforman
consumidores con una potencia conectada igual o inferior a 5 MW, pero aquel=
los
con una potencia conectada entre 500 kW y 5 MW, y que están ubicados en el =
área
de concesión de una empresa distribuidora, pueden optar a ser clientes libr=
es”.
Por el contrario, el segmento de clientes libres está compuesto por
consumidores cuya potencia conectada es superior a 5 MW, y que pueden pactar
libremente los precios y condiciones con sus suministradores. Aquellos con
potencia superior a 500 kW que opten a ser clientes libres, deben permanece=
r al
menos 4 años en esta categoría. La principal razón que impulsa el traspaso =
de
clientes regulados a clientes libres es el monto que se debe pagar por el
consumo de electricidad, y según García Bernal (2019) desde el año 2018 el
monto por el kWh de energía ha sido mayor en la tarifa de clientes regulados
con respecto a la de los clientes libres, y se espera que se mantenga esa
tendencia, por lo menos hasta el año 2028.
Por su definición, los clientes regulados se relacionan únicamente con la empresa = de distribución eléctrica. Ésta deberá contratar el suministro de energía y potencia y traspasar estos costos, además de los cargos de transmisión, al cliente. Además, debe recaudar el valor agregado de distribución, es decir,= los costos de generación, transmisión y distribución se traspasan al cliente fi= nal. Según lo indican Argüello y García (2020, p. 1), “el costo de la energía asociado al segmento de generación se calcula a través del precio de nudo promedio”. En cuanto a la transmisión, el costo debe considerar el uso de l= as instalaciones a nivel nacional y zonal, además de los sistemas de intercone= xión internacional. Por último, las empresas de distribución reciben sus ingreso= s a través del llamado valor agregado de distribución. La Comisión Nacional de Energía (CNE), es el ente encargado de fijar las tarifas que pueden cobrar = las empresas por la distribución de electricidad, esto lo realiza cada cuatro a= ños. Como lo indican Argüello y García, para los clientes residenciales todos los costos mencionados se establecen de manera regulada, a través de decretos.<= o:p>
La
normativa vigente chilena establece distintas opciones tarifarias para los
clientes regulados, y define dos niveles de voltaje para los tipos de tarif=
as.
Según
Ahora
bien, con el fin de definir y/o hacer seguimiento a las políticas públicas =
en
el área energética y/o mejorar la gestión del servicio que se presta desde =
las
empresas distribuidoras de electricidad, es conveniente conocer el desempeño
del consumo de energía eléctrica, a través del análisis de datos de consumo=
o
de facturación de la energía eléctrica de los clientes del servicio. En ese
sentido, en la presente investigación, tomando en cuenta los datos estadíst=
icos
oficiales de la CNE, se realizó el análisis de los datos de energía eléctri=
ca
facturada mensual por tipo de cliente, tipo de tarifa, y ubicación geográfi=
ca
de los usuarios, durante el período 2015-2021, en la región metropolitana de
Chile. Los objetivos fueron describir, a partir de los resultados cuantitat=
ivos
obtenidos, sus características principales, descubrir patrones en la energía
eléctrica facturada, y predecir categorías en los datos nuevos. Para lograr=
lo,
se hizo uso de algoritmos de aprendizaje automático, tanto de aprendizaje
supervisado como de no supervisado. Específicamente, se utilizó el algoritmo
K-Means para encontrar patrones en los datos de energía eléctrica facturada=
, y el
algoritmo K-NN para predecir las categorías de nuevos datos.
Se
encontró una gran variedad de investigaciones sobre uso de algoritmos de
aprendizaje automático para detectar patrones y/o hacer predicciones a part=
ir
de datos de consumo de energía eléctrica. La mayoría de ellas está orientad=
a al
consumo eléctrico residencial y/o al uso de algoritmo K-Means para definir
perfiles de usuarios, principalmente con datos de consumo horario. Por ejem=
plo,
en Rajabi et al. (2020) desarrollan un estudio comparativo de técnicas de
agrupamiento para patrones de segmentación de carga eléctrica, utilizando d=
atos
de consumo diario de energía eléctrica, y haciendo uso de distintas métricas
para comparar los distintos algoritmos empleados, siendo K-Means el algorit=
mo
de mejor desempeño con respecto a las métricas MSE y tiempo de procesamient=
o.
De igual forma, en
El
resto del artículo se organiza de la siguiente manera. En la sección 2 se
presenta la metodología utilizada en la investigación. Seguidamente, en la
sección 3 se presenta el desarrollo de la metodología aplicada y la discusi=
ón
de los resultados obtenidos. En la sección 4 se presentan las conclusiones =
que
se derivaron de la investigación realizada.
M
Este trabajo tiene rasgos de una investigación descrip= tiva, asociados al análisis exploratorio de los datos, pero también rasgos de una= investigación explicativa relacionados con la aplicación de los algoritmos de aprendizaje automático. Pues, tal como lo indica Bernal (2010), en la investigación descriptiva se refieren las características del fenómeno objeto de estudio. Adicionalmente Bernal plantea que en la investigación de tipo explicativa se analizan causas y efectos de la relación entre variables existentes.
Por otra parte, para realizar el análisis de grandes
cantidades de datos, con el fin de extraer de ellos la información pertinen=
te
para la toma de decisiones se utiliza lo que se conoce como la Ciencia de
Datos. De acuerdo con Cielen y otros (2016), la Ciencia de Datos involucra =
el
uso de métodos para analizar cantidades masivas de datos y extraer el
conocimiento que contienen. La extracción de información y/o conocimiento a
partir de los datos se lleva a cabo a través de dos etapas claramente
diferenciadas: el análisis exploratorio de los datos y la modelación de los
datos. La primera usualmente se ejecuta utilizando medios visuales y
estadística descriptiva, mientras que la etapa de modelación se lleva a cabo
aplicando algoritmos de aprendizaje automático para generar modelos que nos
permitan detectar patrones en los datos, predecir categorías, predecir valo=
res
de una variable objetivo, entre otras características. En ese sentido, las etapas que conforman =
un
proceso de Ciencia de Datos se presentan en la Figura 1.
<= o:p>
Figura = 1=
Etapas del proceso de la Ciencia = de Datos
<= o:p>
D=
e la Figura 1 se puede observar que la pr=
imera
etapa consiste en establecer los objetivos de la investigación, la cual
requiere tener un conocimiento básico del negocio del que se generan los da=
tos
a analizar. En esta investigación se desarrollan las seis etapas del proces=
o y
se aplican a los datos de energía eléctrica facturada mensual en la Región
Metropolitana (RM) de Chile, durante el período 2015-2021. La etapa 2 se
presenta en esta sección, y las restantes etapas se presentan en la siguien=
te
sección.
<= o:p>
Extracción y descripción del conjunto = de datos
Los datos utilizados se extrajeron el 16/07/2022 de la plataforma online “Energía Abierta” de la Comisión Nacional de Energía de C= hile (2022), la cual es el ente regulador del mercado energético chileno. Estos datos corresponden a la energía eléctrica facturada mensual para clientes regulados en Chile, durante el período 2015-2021.
El conjunto de datos tiene 338.652 filas y 11 columnas= . Las columnas equivalen a las 11 variables existentes, las cuales son: el año en= que se consume esta energía facturada (“Year”), el mes en que se consume la ene= rgía facturada (“Mes”), la comuna donde la empresa distribuidora hace el retiro = de esta energía para los clientes regulados (“Comuna”), el tipo de clientes ya sean residenciales o no residenciales (“Tipo_clientes”), el tipo de tarifa correspondiente para los tipos de clientes (“Tarifa”), la cantidad de clien= tes que son abastecidos con la energía eléctrica retirada del punto de suminist= ro (“Numero_Clientes”), la energía eléctrica base en kWh facturada a los clien= tes regulados durante el período informado (“E1_kwh”), la energía eléctrica adicional de invierno en kWh facturada a los clientes regulados (“E2_kwh”),= la energía eléctrica total en kWh facturada a los clientes regulados durante e= l período informado (“Energia_kwh”), el precio equivalente de la energía en pesos por= kWh (PEE), el precio equivalente de la potencia en pesos por kW (PEP).
Cada una de las 338.652 filas corresponden a un lote de energía eléctrica retirado del punto de suministro por parte de la empresa distribuidora durante el período informado, para abastecer a un determinado número de clientes, que tienen un mismo tipo de tarifa, y que están ubicado= s en la misma región y comuna del país.
Seguidamente, se aplican las etapas restante=
s del
proceso de Ciencia de Datos, y se discuten los resultados obtenidos.
Preparación de los datos
La limpieza y
preparación de los datos se hizo aplicando las técnicas mencionadas por
Los datos nu= méricos y los categóricos deben tener el formato correcto, de acuerdo con su naturaleza. Para los datos categóricos se utiliza el formato “object”, y pa= ra los datos numéricos se utilizan los formatos “int” (entero) o “float” (decimal). En esta investigación, solo fue necesario ajustar el formato del número de clientes de decimal a entero.
Adicionalmen= te, se detectaron un total de 25 datos faltantes, uno en la variable “Numero_Clientes”, doce en la variable “E1_kwh”, y 12 en la variable “E2_kw= h”. Estos 25 datos correspondieron a 13 filas del conjunto de datos, las cuales fueron alrededor del 0,004% del total de filas, por lo que fueron eliminada= s. Por otra parte, se comprobó la posible existencia de filas duplicadas, de l= as cuales sólo se encontró una de ellas, y fue eliminada, quedando 338.638 fil= as sin datos faltantes, y sin duplicación.
Ahora, hacie= ndo una revisión más relacionada con el área de negocios de los datos analizados, se detectaron filas que no tenían clientes asociados, es decir, el número de clientes era nulo. Las filas con esta característica de número de clientes nulos no tenían sentido, puesto que el conjunto de datos está referido a la energía eléctrica facturada a un número determinado de clientes regulados. = El número de filas con esta situación fue de 4.468, representando sólo el 1,32% del total filas, por lo que fueron eliminadas del conjunto de datos, quedan= do 334.170 filas. Posteriormente, se filtraron los datos de manera tal de trab= ajar sólo con los de la Región Metropolitana, después de lo cual quedaron 50.960 filas. A continuación, se consideró que la energía eléctrica facturada se p= uede tomar como un proxy del consumo de energía, por lo que se combinaron las columnas “Número_Clientes” y “Energía_kwh” para calcular el consumo unitari= o en kWh y agregarlo como una columna adicional (“ConsUnit_kwh”). Finalmente, se agregó una columna con la empresa distribuidora de electricidad correspondi= ente a cada grupo de clientes abastecidos.
Análisis exploratorio de los datos
Consistió en= el desarrollo de un análisis descriptivo de los datos, utilizando tanto herramientas visuales como analíticas, con el fin de obtener un mayor entendimiento de éstos, y de la interacción entre las variables. El conjunt= o de datos disponibles en este punto está compuesto por 50.960 filas y 13 column= as, correspondientes a los datos de la energía eléctrica facturada en la RM.
En primer lu=
gar, se
comprueba que en los datos hay tarifas para clientes residenciales y para
clientes no residenciales. Para clientes residenciales se tiene únicamente =
la
tarifa BT1a. Para clientes no residenciales se tienen =
las
tarifas: BT2, BT3, BT4.1, BT4.2, BT4.3, AT2, AT3, AT4.1, AT4.2, AT4.3.
Del conjunto= de datos analizados se puede establecer que, durante el período de estudio, se abastecieron mensualmente, en promedio, 2.741.233 clientes regulados, equivalentes a un promedio anual de 29.654.800 clientes. Del total del perí= odo, el 97,22% correspondióa clientes regulados residenciales con el tipo de tar= ifa BT1a, mientras que sólo el 1,04% correspondió a clientes regulados con tari= fa BT2. En la Tabla 1 se muestran los datos para todo el período de estudio.
Tabla 1=
Cantidad de clientes abastecidos por tipo de tarifa
Tarifa |
Numero_Cl=
ientes |
% |
BT1a |
201.809.1=
55 |
97,218 |
BT3 |
2.166.553=
|
1,0437 |
BT43 |
1.474.378=
|
0,7103 |
BT2 |
1.137.571=
|
0,5480 |
AT43 |
550.715 |
0,2653 |
AT3 |
240.765 |
0,1160 |
AT2 |
175.825 |
0,0847 |
BT41 |
14.605 |
0,0070 |
AT42 |
9.146 |
0,0044 |
BT42 |
2.750 |
0,0013 |
AT41 |
2.135 |
0,0010 |
Por otra par=
te,
durante el período de estudio se facturó un total de 90.230.754 MWh, siendo
aproximadamente 50% a clientes regulados no residenciales, y el otro 50% a
clientes residenciales. El consumo unitario promedio para clientes
residenciales fue de aproximadamente 453 kWh, mientras que para los cliente=
s no
residenciales fue 10.315 kWh. Sin embargo, es importante mencionar que entre
los años 2015 y 2019 el consumo unitario residencial fue en promedio de 224
kWh, pero en el año 2020 en el que ocurrieron las cuarentenas por la pandem=
ia
de la Covid-19, subió a 1.759,28 kWh, cayendo nuevamente en el año 2021 has=
ta
258,92 kWh. El aumento del consumo durante el año 2020 coincide con lo
presentado por
Figura 2=
Energía facturada por tarifa y tipo de cliente
Por otra par= te, la energía facturada total anual a clientes regulados para el año 2015, el pri= mero del período de estudio, fue de 14.325.878,7 MWh. Este valor aumentó 1,48% durante el año 2016, pero luego ha disminuido continuamente, 2,37% en el año 2017, 8,14% en el año 2018, y 9,69% durante el año 2019. Luego aumentó 4,87% durante el año 2020 impulsada por el sector residencial, pero finalmente ca= yó 8,09% durante el año 2021. En total, durante el período de estudio, cayó ca= si 21%. En la Figura 3 se presenta la información completa, mostrando la energía facturada total anual por tipo de cliente regulado.
Figura 3=
Energía facturada por año y tipo de cliente
De la Figura 3 se puede observar que entre el año 2015 y el año 2018, los clientes no residenciales tuvieron una mayor facturación de energía eléctri= ca. A partir del año 2019 la situación cambió, siendo los clientes residenciales los que tuvieron una mayor facturación. De hecho, desde el año 2017, la ene= rgía facturada a los clientes no residenciales ha disminuido constantemente, mientras que la facturación de energía a los clientes residenciales ha aumentado desde el año 2015. En cuanto al número de clientes no residencial= es, para el año 2021 hay 9,7% menos de lo que había en el año 2019. Estos resultados coinciden con lo presentado por Salazar Córdova (2018), quien en= su investigación plantea que, durante el año 2017 hasta 1100 clientes con pote= ncia instalada entre 500 kW y 5000 kW emigraron desde el segmento de clientes regulados al segmento de clientes libres.
Respecto a la energía facturada mensual, en promedio se muestra un mayor consumo de energ= ía durante los meses de junio, julio y agosto, siendo la mayor facturación en = el mes de julio. Los meses de menor facturación promedio corresponden a los me= ses del verano, específicamente los meses de diciembre, febrero y marzo, siendo marzo el mes de menor facturación promedio de energía eléctrica, durante el período de estudio. La información completa se presenta en la Figura 4.
Figura 4=
Energía facturada promedio por mes y tipo de cliente
De la Figura 4 también se puede observar que la energía facturada promedio
mensual para los clientes no residenciales se mantiene aproximadamente
constante, y la variación mensual de la energía promedio la establecen los
clientes residenciales; esto coincide con lo mostrado en
Referente a = las comunas, se tiene que, durante el período de estudio, Santiago es la comuna= en la que ha habido mayor energía eléctrica facturada con un total de 9.317.09= 2,7 MWh y un promedio para el año 2021 de 21.590 clientes, seguida de Las Conde= s con 7.113.678,2 MWh y un promedio para el año 2021 de 13.811,7 clientes. La com= una de Alhué es la que ha tenido la menor cantidad de energía facturada con 131.683,4 MWh para un promedio de 218,7 clientes para el año 2021. En la = span>Figura 5 se presenta la información completa sobre la energía eléctri= ca facturada por comuna durante el período de estudio.
Figura 5=
Energía facturada por comuna
De la Figura 5 se observa que la comuna de Maipú es la tercera con mayor
energía eléctrica facturada con 5.136.314,6 MWh y con un promedio para el a=
ño
2021 de 13.373,8 clientes, el cual es mayor al de Las Condes que sin embargo
tiene un 27,8% más de energía facturada. En ese sentido, el consumo =
unitario
de energía promedio mensual en la comuna de Las Condes es de 262,27 kWh para
clientes residenciales y de 20.495,51 kWh para clientes no residenciales,
mientras que en la comuna de Maipú es de 207,02 kWh y 18.168,24 kWh,
respectivamente. Para el caso de la comuna de Santiago se tienen 185,41 kWh=
y
14.566,21 kWh, y en la comuna de Alhué se tienen 199,17 kWh y 13.789,7 kWh,
respectivamente.
Aplicación
de algoritmos de aprendizaje automático
A continuación, se presenta la aplicación de los algoritmo= s de aprendizaje automático al conjunto de datos, y los resultados correspondien= tes. En ese sentido, se aplicó el algoritmo de agrupamiento K-Means para generar= un modelo que permite detectar patrones dentro del conjunto de datos. Adicionalmente, se aplicó el algoritmo de predicción K-NN, para generar un modelo que permite predecir la clase de los registros nuevos que se incorpo= ren al conjunto.
Aplicación de algoritmo K-Means
El algoritmo de agrupamiento=
o
clustering K-Means, es un algoritmo de aprendizaje no supervisado que busca
principalmente definir grupos dentro de los datos, de tal forma que cada da=
to
dentro de un grupo tenga una variación mínima respecto a los otros integran=
tes
del grupo. De acuerdo con Igual y Seguí (2017), el agrupamiento por K-Means
consiste en agrupar juntos objetos que sean similares entre sí. Puede haber=
más
de un grupo, siempre y cuando los objetos de un mismo grupo o clúster sean
similares entre sí, y los objetos de grupos diferentes tengan característic=
as
diferentes entre sí.
En la presente investigación=
se
utiliza K-Means para detectar patrones en los datos, tal como lo hacen en
Pizarro Herrera (2017), con la salvedad que ellos utilizan datos de consumo
diario de energía. Ahora, previo a la aplicación del algoritmo, se hace un
análisis de correlación entre las variables numéricas para reducir la
dimensionalidad del conjunto datos. Como no se tiene un conocimiento previo=
de
la posible normalidad de los datos, se procede a realizar el análisis de
correlación considerando tres métodos: Pearson, Spearman y Kendall. Según lo
planteado por Amat Rodrigo (2022), el coeficiente de Pearson funciona bien =
para
datos cuantitativos y distribuidos normalmente, pero cuando no se cumple la
condición de normalidad se deben utilizar alternativas no paramétricas, com=
o el
estadístico Rho de Spearman o el estadístico Tau de Kendall.
Luego de realizar el análisi=
s, se
encontró que hay una alta correlación (mayor a 0,65 en magnitud) entre las
variables: “Energia_kwh”, “E1_kwh”, y “Numero_Clientes”. Este resultado se
obtiene para cada uno de los tres métodos aplicados, y era de esperarse pue=
sto
que la energía facturada se mueve en la misma dirección que se mueve el núm=
ero
de clientes que consumen dicha energía. Adicionalmente, la energía facturada
base es la componente principal de la energía total facturada. Los valores =
de
coeficiente de correlación con respecto a la energía total facturada
(“Energía_kwh”) se presentan en la Tabla =
2.
Tabla 2=
Coeficientes de correlación con la variable Energía_kwh
Variable<= o:p> |
Pearson |
Spearman<= o:p> |
Kendall |
Energia_k=
wh |
1,0000 |
1,0000 |
1,0000 |
E1_kwh |
0,9995 |
1,0000 |
0,9996 |
Numero_Cl=
ientes |
0,7714 |
0,8474 |
0,6668 |
E2_kwh |
0,4781 |
0,4223 |
0,3413 |
ConsUnit_=
kwh |
0,1662 |
0,2970 |
0,2439 |
Year |
0,0299 |
0,0231 |
0,0165 |
PEE |
0,0196 |
0,0231 |
0,0168 |
PEP |
0,0111 |
0,0012 |
0,0009 |
Mes |
0,0052 |
0,0088 |
0,0061 |
Posteriormente, se desarroll=
a un
análisis de dependencia de las variables categóricas, puesto que se presume=
que
hay dependencia entre los tipos de clientes y las tarifas, así como entre l=
as
distribuidoras y las comunas. Para llevar a cabo el análisis, se crean tabl=
as
de contingencia entre cada par de variables, y a cada una de esas tablas se=
les
aplica la Prueba de Independencia de Chi-Cuadrado para variables categórica=
s.
Se concluye, con un nivel de significancia del 5%, que las variables
“Tipo_clientes” y “Tarifa” son dependientes, así como también las variables
“Distribuidora” y “Comuna”.
Por consiguiente, para la ap=
licación
del algoritmo K-Means se descartan las variables “E1_kwh” y “Numero_Cliente=
s”,
debido al análisis de correlación. Adicionalmente, se descartan las variabl=
es:
“Tarifa” y “Comuna”, debido al análisis de dependencia de las variables
categóricas.
El algoritmo K-Means tiene como hiperparámetro el número de clústers K, cuyo v= alor debe ser definido por el usuario. Sin embargo, tal como lo indican en Umarg= ono et al. (2020), se puede utilizar una metodología para obtener el valor ópti= mo de K. Ésta se conoce como el “método del codo”, para lo cual debe definirse= una métrica de optimización. Según lo indicado por Russano y Ferreira (2020), l= a inercia es una métrica muy popular, que se utiliza para obtener el valor óptimo de = K, y no es más que el cuadrado de la distancia euclidiana entre cada punto del clúster y su centroide. En su investigación, Kong et al. (2021) utilizan el método del codo con la inercia como métrica para seleccionar el K óptimo, p= ero también utilizan la técnica de maximizar el valor de la métrica Silhouette.= En esta investigación, luego de aplicar el método del codo utilizando la inerc= ia como métrica, se obtiene que el valor óptimo de K es 16. De igual manera, se utilizó la métrica Silhouette para obtener el K óptimo, resultando el valor= de 15. La ilustración del método util= izando la métrica Silhouette se presenta en la Figura 6.
Figura 6=
Curva para obtener el número óptimo de clústers K
De la Figura 6 se pu=
ede
observar que el valor máximo de la métrica se alcanza cuando el número de
clústers es igual a 15. Con ese valor de K=3D15, se aplica el algoritmo K-M=
eans
para detectar patrones en los datos. En la Figura 7, se p=
resentan
los clústers obtenidos y su relación con los tipos de clientes. Se puede
observar que los clientes residenciales se agrupan únicamente en los clúste=
rs
3, 6 y 14. Los clientes no residenciales se agrupan en el resto de los
clústers.
Figura 7=
Clústers vs. Tipo de clientes
Igualmente,=
la
forma en que se relacionan las empresas distribuidoras con los clústers se
muestran en la Figura 8. Se puede ver en la figura que las empresas
distribuidoras se agrupan en clústers diferentes. Los registros asociados a=
la
empresa CGE se agrupan en los clústers 1, 4, 6, 9, 12, y 13. Los registros
correspondientes a la empresa ENEL se agrupan en los restantes clústers.
Figura 8=
Clústers vs. Distribuidora
Dado que las tarifas se relacionan con los tipos de clientes, en los clústers 3,= 6 y 14 hay sólo registros de clientes residenciales con la tarifa BT1a, tal com= o se observa en la Figura 9.
Figura 9=
Clústers vs. Tipo de tarifa
En este punto, es importante recordar que los elementos de los clústers están compuestos por cada una de las filas del conjunto de datos, y que cada fila está asociada a un lote de usuarios y no a un usuario en particular.=
Aplicació= n del algoritmo K-NN
El algoritmo de los K vecinos más cercanos K-NN, es un algoritmo de aprendizaje automático supervisado para clasificación, mediante el cual se busca predec= ir la clase o categoría de un conjunto de datos, a partir de un grupo de varia= bles predictoras. De acuerdo con Lee (2019), K-NN es uno de los algoritmos más simples dentro de los algoritmos de aprendizaje automático supervisado para clasificación. Funciona comparando la distancia entre cada instancia de referencia y las otras muestras del set de entrenamiento, seleccionando los= K vecinos más cercanos a ellas. En su investigación, Raschka y Mirjalili (201= 7) plantean que es un algoritmo que no genera una función discriminativa para clasificar los puntos de datos nuevos.
Para este algoritmo, se trabaja con la variable “Tipo_clientes” como variable objetivo, es decir, el modelo obtenido debe predecir si la instancia que se pruebe pertenece a clientes regulados residenciales o no residenciales. Para generar el modelo, inicialmente se debe establecer el número de vecinos K, = pero se puede obtener el valor de K más adecuado optimizando alguna métrica de desempeño. En esta investigación se utilizó la métrica exactitud (accuracy)= , la cual de acuerdo con Fenner (2020, p. 163) “es la métrica que tenemos para evaluar que tan bien nuestra conjetura o predicción coincide con la realida= d”. Los resultados obtenidos para obtener el K óptimo se presentan en la Figura 10, de la cual se puede observar que el valor óptimo de K es 3, pues es el valor para el cual se alcanza el valor máximo posible de la exactitud, cuyo valor es 99,73%.
Figura 10
Curva para obtener el número óptimo de vecinos K
Una vez obte=
nido
el K óptimo, se aplica el algoritmo K-NN para generar el modelo de predicci=
ón
del tipo de clientes de cada una de las instancias. El conjunto de datos se
divide en: el set de entrenamiento correspondiente al 75% de los datos, y el
set de prueba correspondiente al 25% restante de los datos. Con el set de
entrenamiento se genera el modelo, y con el set de prueba se evalúa el mode=
lo.
Como resultado de la evaluación, se obtiene la matriz de confusión, que es =
una
matriz cuadrada en la que las celdas tienen la siguiente información: los
verdaderos negativos y los verdaderos positivos en la diagonal principal, y=
los
falsos negativos y los falsos positivos en las otras celdas. Para nuestro c=
aso
se obtuvo una matriz de 2x2 ya que se tienen sólo dos categorías para
clasificar los datos. La matriz se presenta en la Figura 11.
Figura 11
Matriz de confusión
De la Figura 11 se puede decir que el conjunto de prueba estuvo
compuesto por 12.740 filas del conjunto de datos, el cuál es el 25% de los
datos originales. Adicionalmente, 11.668 filas eran de clientes no
residenciales y el modelo clasificó a todas estas filas de manera correcta.=
Por
otra parte, 1.037 filas eran de clientes residenciales y el modelo los
clasificó de esa manera, pero 35 filas de clientes residenciales fueron
clasificadas como no residenciales. Este modelo podría ser muy útil, por
ejemplo, para determinar el tipo de cliente, y por lo tanto el tipo de tari=
fa a
aplicar, cuando por alguna razón no se tiene esa información.
La energía eléctrica facturada por los clientes regula= dos, durante el período de estudio, se dividió en partes iguales entre los clien= tes residenciales y los clientes no residenciales. Los datos presentan una estacionalidad mensual, presentándose una mayor facturación durante los mes= es de la estación de invierno, en comparación con los otros meses del año. La estacionalidad fue impuesta por la facturación de los clientes residenciale= s.
El consumo unitario promedio de los clientes residenci= ales fue de 453 kWh durante el período de estudio, mientras que los clientes no residenciales tuvieron un consumo unitario promedio de 10.315 kWh. Los clie= ntes residenciales tuvieron un consumo unitario promedio anual alrededor de 225 = kWh durante la mayor parte del período de estudio, pero durante el año 2020 se disparó a 1.759,28 kWh, cayendo nuevamente para el año 2021.
La energía eléctrica facturada por los clientes regula= dos residenciales aumentó continuamente desde el año 2015 hasta el año 2020, cu= ando alcanzó su valor máximo durante el período de estudio, impulsado por las cuarentenas impuestas ese año debido a la pandemia de la Covid-19. Por el contrario, la energía facturada a los clientes regulados no residenciales ha disminuido constantemente desde el año 2017 al año 2021, coincidiendo con l= as estadísticas de traspaso de clientes regulados a libres, permitido por la normativa vigente a los clientes no residenciales.
Para la aplicación del algoritmo K-Means, se obtuvo el número óptimo de clústers igual a 15, maximizando la métrica Silhouette. El modelo obtenido a través del algoritmo agrupó perfectamente los datos de acuerdo con el tipo de cliente de cada uno de los registros. De igual maner= a, todos los datos dentro de un clúster particular pertenecen a una sola empre= sa de distribución de electricidad.
Para el desarrollo del modelo de predicción del tipo de clientes, los datos se dividieron en dos partes, 75% para entrenar el model= o y 25% para evaluar el modelo. Al aplicar el algoritmo K-NN se obtuvo un model= o que permite predecir, con una exactitud del 99,73%, el tipo de cliente regulado para los registros nuevos que requieran ser evaluados. Se obtuvo el valor óptimo del hiperparámetro K igual a 3, al maximizar la métrica exactitud. <= /p>
Referencias
Amat
Rodrigo, J. (s.f.). Ciencia de Datos, Estadística, Machine Learning y
Programación. (Joaquin Amat Rodrigo) Recuperado el 16 de Julio de 2022,=
de
https://www.cienciadedatos.net/documentos/pystats05-correlacion-lineal-pyth=
on.html
Argüello
Verbanaz, S., & García Bernal, N. (2020). Componentes y determinació=
n de
la tarifa eléctrica para los clientes regulados. Santiago de Chile:
Biblioteca del Congreso Nacional de Chile.
Azócar
Rojas, M. A. (2018). Estudio y análisis del Nuevo Decreto Tarifario 11 T.
Aplicable a los suministros sujetos a precios. Valparaíso: Tesis de
Pregrado, Pontificia Universidad Católica de Valparaíso.
Bernal,
C. A. (2010). Metodología de la Investigación - administración, economía,
humanidades y ciencias sociales. Bogotá: Pearson Educación.=
Cielen,
D., Meysman, A., & Ali, M. (2016). Introducing Data Science. She=
lter
Island, NY: Manning Publications Co.
Comisión
Nacional de Energía. (16 de Julio de 2022). Estadísticas. Obtenido de
Energía Abierta: http://energiaabierta.cl/categorias-estadistica/electricid=
ad/
Fenner,
M. E. (2020). Machine Learning with Python for Everyone. Boston: Pearson Education.
García
Bernal, N. (2019). Traspaso de clientes regulados a libres. Valapara=
íso:
Biblioteca del Congreso Nacional de Chile.
Igual,
L., & Seguí, S. (2017). Introduction to Data Science - A
Python Approach to Concepts, Techniques and Applications.
Switzerland: Springer International Publishing.
Kong,
W., Wang, Y., Dai, H., Zhao, L., & Wang, C. (2021). Analysis of energy
consumption structure based on K-means clustering algorithm. E3S Web of
Conferences 267, 01054 (2021). Beijing: E3S. https://doi.org/10.1051/e3=
sconf/202126701054
Lee,
W.-M. (2019). Python Machine Learning. Indianapolis: John Wiley &
Sons, Inc.
M.
Shapi, M. K., Ramli, N. A., & Awalin, L. J. (2021). Energy consumption
prediction by using machine learning for smart building: Case study in
Malaysia. Developments in the Built Environment. https://doi.org/10.=
1016/j.dibe.2020.100037.
McKinney,
W. (2018). Python for Data Analysis. Sebastopol, CA: O’Reilly Media, Inc.
Mellado
Leal, B. M. (2021). Aplicaciones de Data Science para la mejora de la
medición y cobro de la distribución de la energía eléctrica en contextos de=
pandemia
mundial. Santiago de Chile: Tesis de Pregrado, Universidad de Chile.
Mercados
Energéticos Consultores. (2014). Análisis de consumo eléctrico en el cor=
to,
mediano y largo plazo. Santiago de Chile: Mercados Energéticos Consulto=
res.
Moreno,
R., Sánchez, M., Suazo, C., Negrete, M., Olivares, D., Alvarado, D., . . .
Basso, L. (2020). Impactos del COVID-19 en el Consumo Eléctrico Chileno. Revista
Ingeniería de Sistemas.
Pizarro
Herrera, G. N. (2017). Reconocimiento de patrones y pronóstico de consumo
eléctrico. Valparaíso: Tesis de Pregrado, Pontificia Universidad Católi=
ca
de Valparaiso.
Rajabi, A., Eskandari, M., Jabb=
ari
Ghadi, M., Li, L., & Zhang, J. (2020). A compa=
rative
study of clustering techniques for electrical load pattern segmentation. Renewable
and Sustainable Energy Reviews. https://doi.org/10.1016/j.rser.2019.109=
628.
Raschka,
S., & Mirjalili, V. (2017). Python Machine Learning - Machine Learni=
ng
and Deep Learning with Python, Scikit-Learn, and TensorFlow. Birmingham:
Packt Publishing Ltd.
Russano,
E., & Ferreira Avelino, E. (2020). Fundamentals of Machine Learning
Using Python. Oakville, Canadá: Arcler Press.
Salazar
Córdova, M. A. (2018). Impactos de la emigración de clientes regulados al
mercado libre. Catastro, evolución y efectos en los clientes y en las empre=
sas
proveedoras (generación y distribución). Santiago de Chile: Tesis de
Maestría, Universidad Técnica Federico Santa María.
Sociedad
Alemana de Cooperación Internacional. (2020). Las Energías No Renovables=
en
el Mercado Eléctrico Chileno. Santiago de Chile: Deutsche
Gesellschaft für Internationale Zusammenarbeit (GIZ) GmbH.
Umargono, E., Suseno, J. E., &a=
mp;
S.K, V. G. (2020). K-Means Clustering Optimization Using the Elbow Met=
hod
and Early Centroid Determination Based on Mean and Median Formula. Advan=
ces
in Social Science, Education and Humanities Research, volume 474. DOI:1=
0.2991/assehr.k.201010.019.
Valgaev,
O., Kupzog, F., & Schme, H. (2017). Building power demand forecasting u=
sing
K-nearest neighbours model – practical application in Smart City Demo Aspern
project. CIRED, Open Access Proc. Journal (págs. 1601–1604). IET. DO=
I:10.1049/oap-cired.2017.0419.
Yilmaz,
S., Chambers, J., Li, X., & Patel, M. K. (2021). A comparative analysis=
of
patterns of electricity use and flexibility potential of domestic and
non-domestic building archetypes through data mining techniques. =
Journal of Physics: Conference =
Series. DOI:10.1088/1742-6596/2042/1/=
012021.
Uso de algoritmos de
aprendizaje automático para analizar los datos de energía eléctrica
facturada en la Región Metropolitana de Chile durante el período 2015-2=
021 5