Análisis estadístico de tablas de contingencia y chi-cuadrado
para medir el flujo migratorio de origen y destino en el Ecuador año 2018
Statistical analysis of contingency and
chi-square tables to measure the migratory flow of origin and destination in
Ecuador year 2018
David Lastre Baquerizo1, Melanie Páez Santana2, y Olga López Tumbaco3
RESUMEN
En este estudio se propone la mejora de un sistema de inventarios, con el objetivo de reducir el costo y maximizar las ventas en la farmacia "La Voluntad de Dios", debido a que existe manejo empírico del inventario por parte de los bodegueros, a consecuencia de esto, no se logra satisfacer correctamente a los clientes y en ocasiones se generan pérdidas por falta de espacio en la bodega o expiración de productos. Por este motivo se decidió optimizar la gestión inventario aplicando el algoritmo de búsqueda tabú obteniendo una función objetivo basada en distribuciones de probabilidad normal de 3 productos, para esto se toma muestra del histórico de inventario del año 2017 al 2019, se realizó una proyección de ventas para el año 2020; el dando como resultado un 14% más de ganancia con respecto al año 2019 y un sistema de inventario que proyecta el uso aproximado del 95% de los productos en stock, obteniendo valores óptimos para satisfacer la alta demanda y mantener control del inventario.
Palabras clave: Tablas de contingencia,
Chi-cuadrado, Flujo migratorio, Ecuador.
ABSTRACT
This study proposes the improvement of an
inventory system, with the objective of reducing the cost and maximizing sales
in the pharmacy "The Will of God", because there is empirical
management of the inventory by the winemakers, as a result -sequence of this,
it is not possible to satisfy customers correctly and sometimes losses are
generated due to lack of space in the warehouse or expiration of products. For
this reason it was decided to optimize the inventory management by applying the
taboo search algorithm obtaining an objective function based on normal
probability distributions of 3 products, for this sample of the inventory
history from 2017 to 2019 is taken, a sales projection was made for the year
2020; The result is a 14% increase in profit compared to the year 2019 and an
inventory system that projects the approximate use of 95% of the products in
stock, obtaining optimal values to meet
the high demand and maintain inventory control.
Keywords: Contingency
tables, Chi-square, Migratory flow, Ecuador.
Fecha de recepción: Noviembre 20, 2018.
Fecha de aceptación: Marzo 5, 2019.
La migración, para la mayoría de las personas es un medio de ayuda para mejorar su vida y la de sus seres queridos ya que encuentra la posibilidad de un mejor empleo, seguridad, estabilidad. Sin embargo, La falta de soluciones hacia la migración ha causado que la misma no sea inspeccionada y se convierta en un fenómeno en constante crecimiento abriendo paso a la sobrepoblación de los países destino y el decrecimiento en el de origen.
Los autores en [1] basan su investigación en los diversos motivos por los que los trabajadores mexicanos deciden migrar internamente. Cabe precisar que el énfasis se enfoca en los flujos migratorios que se dan entre un estado y otro, esta dimensión representa una parte importante de la delimitación del objeto de estudio. Se implementó el uso de histogramas para registrar de forma gráfica la asociación entre cada variable las cuales son los motivos por los que se decide migrar. El estudio obtiene como resultado, que el individuo puede tener un rango medio de posibilidades de emigrar, dependiendo del comportamiento del mercado de trabajo y cómo evolucione su formación profesional. A pesar de ello este trabajo si logra comprobar la relación entre las variables, sin embargo, el trabajo realizado en este artículo utiliza tablas de contingencia, lo que permite el manejo de mucha más información ya que incluye el uso de variables cualitativas.
La mayor parte de los ingresos de Ecuador provienen de la actividad primaria exportadora y no de las actividades industriales urbanas como se refleja en [2] donde realizaron un estudio sobre los graves problemas socioeconómicos que ha experimentado Ecuador dentro de sus dos grandes ciudades, Guayaquil y Quito, generando un amplio interés en el ámbito académico y político. Esta investigación se realiza mediante el uso de análisis de regresión, el estudio obtiene como resultado que, para frenar el acelerado proceso de urbanización, los responsables de la política pueden fomentar una mayor inversión en capital humano en las ciudades periféricas y promover la generación de fuentes de empleo en el área rural. A pesar de que en el trabajo de José Rafael Alvarado López examina la relación entre las variables que causan la urbanización, este paper aplica el estadístico de chi cuadrado para demostrar si existe una relación entre las variables antes mencionadas.
La Migración se puede clasificar de dos grandes maneras: Migración Interna y Migración Externa. Dentro de [3] se aborda la problemática de las características diferenciales de la migración interna, tanto de la migración de toda la vida y también de la reciente que muestran las personas de 60 años en adelante, residentes en la mayoría de los países de América latina. El fin de esta investigación fue determinar diferencias y semejanzas de características específicas que muestra la población migrante interna con 60 años y más en Cuba, en comparación con diferentes países de América Latina. Para poder desarrollar estos resultados se usan definiciones de Migración reciente, tasas de mortalidad y fecundidad además de indicadores de estadística demográfica y tablas de contingencia. Todo este proceso dio como resultado que, en Cuba, los índices de masculinidad de migrantes y no migrantes revelan el predominio de la población femenina entre los migrantes recientes totales y los que tienen 60 y más años. Sin embargo, el trabajo realizado por Cristina Lopez si analiza las relaciones que existen entre sus variables por tablas de contingencia, pero las resuelve de manera gráfica, dentro de este trabajo las fórmulas y los modelos matemáticos del Chi cuadrado serán prioridad para determinar los resultados finales
En [4] se realiza un estudio sobre la relación causa-efecto entre migración y trabajo infantil, bien sea por desplazamiento interno o movilidad internacional, en este estudio se emplean técnicas estadísticas como tablas de contingencia e histogramas para demostrar la evolución de este en Colombia y también para observar el grado de asociación que poseen las variables que influyen al trabajo infantil. El estudio obtiene como resultado que el trabajo infantil se ha convertido en una opción para muchos niños y jóvenes y esto a su vez en la mayoría de los casos, se convierte en explotación laboral y sexual, trata de menores y, en el peor de los casos, de esclavitud. A pesar de que el trabajo de David Khoudour-Castéras muestra de forma gráfica la relación que tienen las causas de que los padres o tutores de los niños migren, en este paper mediante el uso de RStudio se mostrará una mayor cantidad de datos a relacionar ya que cuenta con una gran variedad de funcionalidades para el tratamiento y el análisis de datos.
Materiales y
métodos
Dentro
de esta sección se conceptualizará los materiales y métodos que serán usados
para el desarrollo de resultados de este trabajo, para ello se describe un
estudio sobre el uso y manejo de tablas de contingencia mediante la prueba de chi-cuadrado el cual se realizará en RStudio
para un mejor desempeño y rapidez al momento de realizar las distintas
operaciones estadísticas.
Tabla de contingencia
Para
poder aplicar tablas de contingencia debemos saber que como indica [5] una
tabla de contingencia es una tabla de distribución de frecuencias absolutas
conjuntas muestrales de dos variables aleatorias
clasificadas en categorías, en este caso definimos estas variables como:
Tabla
1. Variables para las tablas de contingencia.
A
partir de ello [6] Se pretende demostrar que la utilidad metodológica de las
tablas de contingencia facilita la comprensión de la relación que guardan dos
variables, lo que se aplicara con las variables establecidas en la Tabla 1.
Las
tablas de contingencia [7], [8] están compuestas por filas (horizontales), para
la información de una variable y columnas (verticales) para la información de
otra variable. Estas filas y columnas delimitan celdas donde se vuelcan las
frecuencias de cada combinación de las variables analizadas. Por medio de esto
se interesa estudiar si existe alguna asociación dentro de la variable que se
denomina fila y la variable denominada columna y se calcula la intensidad de
dicha asociación. Las tablas de contingencia pueden ser bidimensionales o
tridimensionales, existe un método que se encarga de estudiar este tipo de
tablas llamado Modelo de Efectos de Columna. Para poder aplicar este método se
debe cumplir una restricción: de carácter ordinal en la variable de fila (X) y
nominal en la variable de columna (Y). Dichas tablas de contingencia cumplen
con el siguiente formato.
Tabla
2. Formato de una tabla de contingencia.
La misma tabla
puede expresarse en frecuencias relativas o proporciones sin más que dividir
cada casilla nij por el total N.
Una
vez definida la fórmula matemática para la Distribución. Exponencial,
utilizaremos el lenguaje de programación, Python, para realizar la simulación
de la gráfica que posee dicha distribución.
Chi Cuadrado
La
prueba del Chi Cuadrado se usa para analizar la relación de dependencia entre
dos variables cualitativas. [9] Es
necesario resaltar que esta prueba indica si existe o no una relación entre las
variables, pero no señala el grado o el tipo de relación; es decir, no indica
el porcentaje de influencia de una variable sobre la otra o la variable que
causa la influencia.
Para
lograr asociar estos conceptos planteamos que: Sean X e Y dos características,
cualitativas o cuantitativas, con i=1, ..., p y j=1, ...q modalidades o
categorías, respectivamente, son presentadas en una tabla pxq.
La prueba del Chi Cuadrado es una medida-resumen que compara los valores (nij) observados en la tabla, con los que teóricamente se
obtendría (tij), en el supuesto de que las variables
X e Y fuesen independientes.
Los valores
teóricos tij se obtienen mediante:
Este
estadístico toma valores comprendidos entre 0 y N·mín{p-1, q-1}, el valor 0
indica que el numerador de la expresión anterior es nulo, por tanto las
frecuencias observadas coinciden con las que habría si las variables fuesen
independientes; de donde se admite la independencia de X e Y. El hecho de que
sus valores dependan tanto del número de elementos de la tabla (N), como del nº
de filas y columnas, hace difícil su interpretación e impracticable la
comparación entre tablas. El estadístico Chi-cuadrado permite contrastar la
hipótesis de independencia de X e Y, basándose en el conocimiento del
comportamiento de Chi-cuadrado bajo la hipótesis de independencia: Modelo
Chi-cuadrado con (p-1) (q-1) grados de libertad.
Contraste de Independencia para chi-cuadrado
Una
vez que calculado el valor experimental y el valor del estadístico teórico.
Se
aceptará
Se
rechaza
Hipótesis independientes Nulas y de
trabajo
Una
hipótesis nula suele ser una afirmación inicial que se basa en análisis previos
o el conocimiento especializado [10], De acuerdo con la hipótesis nula las variaciones en la variable independiente
no tienen correspondencia con las variaciones que pudiere haber de la variable
dependiente. Es decir que existe “independencia estadística”. Las variaciones
que pudiese encontrarse se deberían a factores aleatorios, ajenos a la variable
independiente.
La
prueba de hipótesis es una regla que se debe seguir para poder elegir entre una
hipótesis nula y una hipótesis alternativa. [11] La evidencia de los datos
obtenidos puede conducir a no rechazar la hipótesis nula, lo cual no implica
que ésta sea cierta se considera que la principal diferencia entre estas dos
teorías no radica en los cálculos, sino en las concepciones y el razonamiento
subyacente
Grados de libertad
Dentro
de la investigación de [[12], [13]] indica que la suma de los valores de las
desviaciones individuales con respecto a su media es igual a cero, hecho que
puede demostrarse. Si se conocen los n-1 de los valores a partir de la media,
entonces se conoce el n-ésimo valor, ya que queda
determinado automáticamente debido a la restricción de 3 de que todos los
valores de n sumen cero. El grado de libertad es un estadístico calculado sobre
un conjunto de datos que se refiere al número de cantidades independientes que
se necesitan en su cálculo, menos el número de restricciones que ligan a las
observaciones y el estadístico. El número de grados de libertad del estadístico
Chi-cuadrado se calcula de la siguiente forma:
·
Se calcula, en
primer lugar, el número de sumandos, es decir m x n, siendo n y m el número de
filas y número de columnas en la tabla.
·
A esta cantidad
se debe restar el número de restricciones impuestas a las frecuencias
observadas. Observamos que podemos cambiar todas las frecuencias de la tabla
sin cambiar los totales por filas y columnas, excepto los datos en la última
fila y columna de la tabla, pues una vez que fijemos todos los valores excepto
estos, quedan automáticamente fijados. Por tanto, si la tabla tiene m filas y n
columnas, el número de grados de libertad es:
Cálculo de las frecuencias esperadas
Para
el cálculo de las frecuencias esperadas
Tabla
3. Tabla de contingencia de la cual saldra la tabla de frecuencias esperadas.
Se
debe aplicar la siguiente fórmula para obtener los valores esperados.
Tabla
4. Tabla general de frecuencias esperadas obtenida una ves ya aplicada la
formula a cada celda.
Estadístico Teórico
El
estadístico teórico se calcula teniendo en cuenta [15] el grado de libertad y
el nivel de significación, el cual se fija de antemano (usualmente entre 0.01 y
0.10, siendo el más usado el de 0.05) luego en la tabla de chi-cuadrado
se procede a elegir el número de grado de libertad y el nivel de significancia
de 0.05 y el valor será el número que se encuentre en la intersección de ambas,
para ello se implementa la formula 10].
Tabla
5. Ejemplo de tabla de chi-cuadrado.
Programa RStudio
RStudio es una
interfaz de programación basada en el lenguaje estadístico R [9] que es un
lenguaje de programación orientado a objetos para calculo estadístico y generar
gráficos a partir de ellos. Cabe recalcar que RStudio
es un software libre en donde se encuentran diferentes funciones para el
análisis de datos, las cuales se implementaron en esta investigación. La
consola de RStudio se clasifica de la siguiente
manera.
Figura
1. Consola de RStudio.
Para la interpretación de las herramientas
en Rstudio:
Tabla
6. Cuadro de herramientas de Rstudio.
La
primera pantalla que se muestra, son las líneas de código en donde se va a
programar las funciones que contiene R. Como se ve en (Fig. 1) Se encuentra un
código escrito y a su izquierda la numeración correspondiente a cada línea. En
la parte superior de la pantalla se encuentra la opción Run que es la que
ejecutara línea por línea el código fuente. La segunda pantalla que se muestra
en la parte de abajo corresponde a la compilación de esas líneas de código. En
la parte superior derecha se encuentra las variables definidas en el código
actual y las de códigos anteriores. Debajo de ella la ejecución del código
completo
Caso de
estudio
El
interés por los estudios sobre migración al extranjero en el país es reciente,
a pesar de que el fenómeno como tal ha sido parte de las experiencias de muchas
familias ecuatorianas desde muchos años atrás. Es innegable que la crisis
financiera y la falta de oportunidades adecuadas de empleo fueron detonantes
importantes para la decisión de migrar, pero eso no parece explicar en su
totalidad ni la decisión de migrar ni la forma de inserción en los lugares de
destino. Muchas de las hipótesis que surgen alrededor de la migración coinciden
en señalar que la migración no surge a partir de una decisión racional,
economía y estabilidad únicamente, sino que también influyen factores sociales
y culturales que no necesariamente responden a la economía que es la
responsabilizada por la migración.
Resultados
Variable motivo de viaje vs tipo de
movimiento.
Tabla
7. Tabla de contingencia de las variables motivo de viaje y tipo de
movimiento.
En
la presente tabla se muestran los datos recabados y tabulados de la población
viajera registrada en relación con el motivo de viaje y el tipo de movimiento
es decir si entran o salen del Ecuador, siendo el motivo residencia el más
frecuente en las salidas presenta 304086, por el contrario, el motivo de
turismo en entradas presenta 277057.
Tabla
8. Tabla de frecuencia esperada obtenida una vez aplicada la formula a cada
celda.
A
partir de la tabla anterior una vez aplicado el cálculo correspondiente tal
como la tabla nos muestra, los nuevos valores serán las frecuencias esperadas y
su suma de valores marginales será igual al total de nuestra tabla de
contingencia original los cual nos indica que el cálculo fue concretado con
éxito.
A
continuación, se plantean las hipótesis a contrastar mediante el chi-cuadrado.
·
La variable
motivo de viaje es independiente al tipo de movimiento.
·
La variable
motivo de viaje si depende al tipo de movimiento.
Luego se aplicó el estadístico de contraste de la
formula () donde nos indica que es la suma de los valores de.
Calculamos
el valor Teórico de la fórmula (5) pero antes resolvemos la formula (1)
Para
hallar el valor de los grados de libertad.
chisq.test(Datos1$mot_viam,
Datos1$tip_movi)
Pearsons Chi-squared test
data: Datos1$tip_movi
and
Datos1$mot_viam
X-squared= 1123816, df= 5, p-values < 2.2 e-16
En
la Fig2.Test de chi-cuadrado realizado en Rstudio se puede constatar que si coinciden con el cálculo
matemático.
La
decisión es:
Variable
subcontinente procedencia-destino vs tipo de movimiento
Tabla
9. Tabla de contingencia de las variables subcontinente destino-procedencia
y tipo de movimiento.
En la presente tabla, se presentan los datos tabulados de
la población en base al subcontinente de procedencia-destino y el tipo de movimiento
siendo el mayor movimiento de salida del Ecuador a países de América del sur.
Tabla
10. Tabla de frecuencias esperadas obtenida una vez ya aplicada la formula a
cada celda.
Tomando en
cuenta la tabla anterior, una vez aplicada la fórmula de frecuencia esperada a
cada uno de los datos podemos determinar que los resultados son los mismos lo
cual nos indica que las frecuencias esperadas son iguales al total que se había
planteado.
Aplicamos las
componentes del chi-cuadrado de la formula (6).
Luego se aplicó el estadístico de contraste de la
formula (7).
Calculamos
el valor Teórico de la fórmula (5) pero antes resolvemos la formula (1)
Para
hallar el valor de los grados de libertad.
chisq.test(Datos1$subcont_prod,
Datos1$tip_movi)
Pearsons
Chi-squared test
data:
Datos1$tip_movi and Datos1$subcont_prod
X-squared=
1002797, df= 22, p-values < 2.2 e-16
En la Fig2.Test de chi-cuadrado
realizado en RStudio se puede constatar que si coinciden
con el cálculo matemático.
La decisión es: