SciELO - Scientific Electronic Library Online

 
vol.1 número24DETERMINACIÓN DE PUNTOS DE OPTIMIZACIÓN A TRAVÉS DE BALANCE DE EXERGÍA EN LA PLANTA DE PASTEURIZACIÓN DE LECHE “ESTACIÓN EXPERIMENTAL TUNSHI (RIOBAMBA - ECUADOR)”DIAGNÓSTICO SOCIOECONÓMICO DE LA PARROQUIA PUNGALÁ índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Serviços Personalizados

Journal

Artigo

Indicadores

Links relacionados

  • Não possue artigos similaresSimilares em SciELO

Compartilhar


Perfiles

versão On-line ISSN 2477-9105

Resumo

MORALES-ONATE, Víctor; MORETA, Luis  e  MORALES-ONATE, Bolívar. SMOTEMD: UN ALGORITMO DE BALANCEO DE DATOS MIXTOS PARA BIG DATA EN R. Perfiles [online]. 2020, vol.1, n.24, pp.20-26. ISSN 2477-9105.  https://doi.org/10.47187/perf.v1i24.75.

Analizar muestras con datos desbalanceados es un desafío para quien debe utilizarlos en términos de modelización. Un contexto en el que esto sucede es cuando la variable de respuesta es binaria y una de sus clases es muy pequeña en proporción respecto al total. Para la modelización de variables binarias se suele usar modelos de probabilidad como logit o probit. No obstante, estos modelos presentan problemas cuando la muestra no es balanceada y se desea elaborar la matriz de confusión de donde se evalúa el poder predictivo del modelo. Una técnica que permite balancear los datos observados es el algoritmo SMOTE, el cual trabaja con datos numéricos exclusivamente. Este trabajo es una extensión de SMOTE tal que permite el uso de datos mixtos (numéricos y categóricos). Al usar datos mixtos, la presente propuesta también permite superar la barrera de 65536 observaciones que tiene el software R cuando trabaja con distancias de datos categóricos. Mediante un estudio de simulación, se logra verificar las bondades del algoritmo propuesto: SMOTEMD para datos mixtos.

Palavras-chave : SMOTE; Clasificación; Muestras desbalanceadas.

        · resumo em Inglês     · texto em Espanhol     · Espanhol ( pdf )