Análisis estadístico de tablas de contingencia y chi-cuadrado para medir el flujo migratorio de origen y destino en el Ecuador año 2018

 

 Statistical analysis of contingency and chi-square tables to measure the migratory flow of origin and destination in Ecuador year 2018

 

David Lastre Baquerizo1, Melanie Páez Santana2, y Olga López Tumbaco3

 

RESUMEN

En este estudio se propone la mejora de un sistema de inventarios, con el objetivo de reducir el costo y maximizar las ventas en la farmacia "La Voluntad de Dios", debido a que existe manejo empírico del inventario por parte de los bodegueros, a consecuencia de esto, no se logra satisfacer correctamente a los clientes y en ocasiones se generan pérdidas por falta de espacio en la bodega o expiración de productos. Por este motivo se decidió optimizar la gestión inventario aplicando el algoritmo de búsqueda tabú obteniendo una función objetivo basada en distribuciones de probabilidad normal de 3 productos, para esto se toma muestra del histórico de inventario del año 2017 al 2019, se realizó una proyección de ventas para el año 2020; el dando como resultado un 14% más de ganancia con respecto al año 2019 y un sistema de inventario que proyecta el uso aproximado del 95% de los productos en stock, obteniendo valores óptimos para satisfacer la alta demanda y mantener control del inventario.

Palabras clave: Tablas de contingencia, Chi-cuadrado, Flujo migratorio, Ecuador.

 

ABSTRACT

This study proposes the improvement of an inventory system, with the objective of reducing the cost and maximizing sales in the pharmacy "The Will of God", because there is empirical management of the inventory by the winemakers, as a result -sequence of this, it is not possible to satisfy customers correctly and sometimes losses are generated due to lack of space in the warehouse or expiration of products. For this reason it was decided to optimize the inventory management by applying the taboo search algorithm obtaining an objective function based on normal probability distributions of 3 products, for this sample of the inventory history from 2017 to 2019 is taken, a sales projection was made for the year 2020; The result is a 14% increase in profit compared to the year 2019 and an inventory system that projects the approximate use of 95% of the products in stock, obtaining optimal values ​​to meet the high demand and maintain inventory control.

Keywords:  Contingency tables, Chi-square, Migratory flow, Ecuador.

 

Fecha de recepción: Noviembre 20, 2018.

Fecha de aceptación: Marzo 5, 2019.

 


Introducción[1] [2]

La migración, para la mayoría de las personas es un medio de ayuda para mejorar su vida y la de sus seres queridos ya que encuentra la posibilidad de un mejor empleo, seguridad, estabilidad. Sin embargo, La falta de soluciones hacia la migración ha causado que la misma no sea inspeccionada y se convierta en un fenómeno en constante crecimiento abriendo paso a la sobrepoblación de los países destino y el decrecimiento en el de origen.

Los autores en [1] basan su investigación en los diversos motivos por los que los trabajadores mexicanos deciden migrar internamente. Cabe precisar que el énfasis se enfoca en los flujos migratorios que se dan entre un estado y otro, esta dimensión representa una parte importante de la delimitación del objeto de estudio. Se implementó el uso de histogramas para registrar de forma gráfica la asociación entre cada variable las cuales son los motivos por los que se decide migrar. El estudio obtiene como resultado, que el individuo puede tener un rango medio de posibilidades de emigrar, dependiendo del comportamiento del mercado de trabajo y cómo evolucione su formación profesional. A pesar de ello este trabajo si logra comprobar la relación entre las variables, sin embargo, el trabajo realizado en este artículo utiliza tablas de contingencia, lo que permite el manejo de mucha más información ya que incluye el uso de variables cualitativas.

La mayor parte de los ingresos de Ecuador provienen de la actividad primaria exportadora y no de las actividades industriales urbanas como se refleja en [2] donde realizaron un estudio sobre los graves problemas socioeconómicos que ha experimentado Ecuador dentro de sus dos grandes ciudades, Guayaquil y Quito, generando un amplio interés en el ámbito académico y político. Esta investigación se realiza mediante el uso de análisis de regresión, el estudio obtiene como resultado que, para frenar el acelerado proceso de urbanización, los responsables de la política pueden fomentar una mayor inversión en capital humano en las ciudades periféricas y promover la generación de fuentes de empleo en el área rural. A pesar de que en el trabajo de José Rafael Alvarado López examina la relación entre las variables que causan la urbanización, este paper aplica el estadístico de chi cuadrado para demostrar si existe una relación entre las variables antes mencionadas.

La Migración se puede clasificar de dos grandes maneras: Migración Interna y Migración Externa. Dentro de [3] se aborda la problemática de las características diferenciales de la migración interna, tanto de la migración de toda la vida y también de la reciente que muestran las personas de 60 años en adelante, residentes en la mayoría de los países de América latina. El fin de esta investigación fue determinar diferencias y semejanzas de características específicas que muestra la población migrante interna con 60 años y más en Cuba, en comparación con diferentes países de América Latina. Para poder desarrollar estos resultados se usan definiciones de Migración reciente, tasas de mortalidad y fecundidad además de indicadores de estadística demográfica y tablas de contingencia. Todo este proceso dio como resultado que, en Cuba, los índices de masculinidad de migrantes y no migrantes revelan el predominio de la población femenina entre los migrantes recientes totales y los que tienen 60 y más años. Sin embargo, el trabajo realizado por Cristina Lopez si analiza las relaciones que existen entre sus variables por tablas de contingencia, pero las resuelve de manera gráfica, dentro de este trabajo las fórmulas y los modelos matemáticos del Chi cuadrado serán prioridad para determinar los resultados finales

En [4] se realiza un estudio sobre la relación causa-efecto entre migración y trabajo infantil, bien sea por desplazamiento interno o movilidad internacional, en este estudio se emplean técnicas estadísticas como tablas de contingencia e histogramas para demostrar la evolución de este en Colombia y también para observar el grado de asociación que poseen las variables que influyen al trabajo infantil. El estudio obtiene como resultado que el trabajo infantil se ha convertido en una opción para muchos niños y jóvenes y esto a su vez en la mayoría de los casos, se convierte en explotación laboral y sexual, trata de menores y, en el peor de los casos, de esclavitud. A pesar de que el trabajo de David Khoudour-Castéras muestra de forma gráfica la relación que tienen las causas de que los padres o tutores de los niños migren, en este paper mediante el uso de RStudio se mostrará una mayor cantidad de datos a relacionar ya que cuenta con una gran variedad de funcionalidades para el tratamiento y el análisis de datos.

Materiales y métodos

Dentro de esta sección se conceptualizará los materiales y métodos que serán usados para el desarrollo de resultados de este trabajo, para ello se describe un estudio sobre el uso y manejo de tablas de contingencia mediante la prueba de chi-cuadrado el cual se realizará en RStudio para un mejor desempeño y rapidez al momento de realizar las distintas operaciones estadísticas.

Tabla de contingencia

Para poder aplicar tablas de contingencia debemos saber que como indica [5] una tabla de contingencia es una tabla de distribución de frecuencias absolutas conjuntas muestrales de dos variables aleatorias clasificadas en categorías, en este caso definimos estas variables como:

Tabla 1. Variables para las tablas de contingencia.

 

A partir de ello [6] Se pretende demostrar que la utilidad metodológica de las tablas de contingencia facilita la comprensión de la relación que guardan dos variables, lo que se aplicara con las variables establecidas en la Tabla 1.

 

Las tablas de contingencia [7], [8] están compuestas por filas (horizontales), para la información de una variable y columnas (verticales) para la información de otra variable. Estas filas y columnas delimitan celdas donde se vuelcan las frecuencias de cada combinación de las variables analizadas. Por medio de esto se interesa estudiar si existe alguna asociación dentro de la variable que se denomina fila y la variable denominada columna y se calcula la intensidad de dicha asociación. Las tablas de contingencia pueden ser bidimensionales o tridimensionales, existe un método que se encarga de estudiar este tipo de tablas llamado Modelo de Efectos de Columna. Para poder aplicar este método se debe cumplir una restricción: de carácter ordinal en la variable de fila (X) y nominal en la variable de columna (Y). Dichas tablas de contingencia cumplen con el siguiente formato.

 

Tabla 2. Formato de una tabla de contingencia.

La misma tabla puede expresarse en frecuencias relativas o proporciones sin más que dividir cada casilla nij por el total N.

 

Una vez definida la fórmula matemática para la Distribución. Exponencial, utilizaremos el lenguaje de programación, Python, para realizar la simulación de la gráfica que posee dicha distribución.

Chi Cuadrado

La prueba del Chi Cuadrado se usa para analizar la relación de dependencia entre dos variables cualitativas.   [9] Es necesario resaltar que esta prueba indica si existe o no una relación entre las variables, pero no señala el grado o el tipo de relación; es decir, no indica el porcentaje de influencia de una variable sobre la otra o la variable que causa la influencia.

 

Para lograr asociar estos conceptos planteamos que: Sean X e Y dos características, cualitativas o cuantitativas, con i=1, ..., p y j=1, ...q modalidades o categorías, respectivamente, son presentadas en una tabla pxq. La prueba del Chi Cuadrado es una medida-resumen que compara los valores (nij) observados en la tabla, con los que teóricamente se obtendría (tij), en el supuesto de que las variables X e Y fuesen independientes.

 

 

 

Los valores teóricos tij se obtienen mediante:

Este estadístico toma valores comprendidos entre 0 y mín{p-1, q-1}, el valor 0 indica que el numerador de la expresión anterior es nulo, por tanto las frecuencias observadas coinciden con las que habría si las variables fuesen independientes; de donde se admite la independencia de X e Y. El hecho de que sus valores dependan tanto del número de elementos de la tabla (N), como del nº de filas y columnas, hace difícil su interpretación e impracticable la comparación entre tablas. El estadístico Chi-cuadrado permite contrastar la hipótesis de independencia de X e Y, basándose en el conocimiento del comportamiento de Chi-cuadrado bajo la hipótesis de independencia: Modelo Chi-cuadrado con (p-1) (q-1) grados de libertad.

 

Contraste de Independencia para chi-cuadrado

Una vez que calculado el valor experimental y el valor del estadístico teórico.

Se aceptará  si:

(4)

Se rechaza   si:

(5)

 

Hipótesis independientes Nulas y de trabajo

Una hipótesis nula suele ser una afirmación inicial que se basa en análisis previos o el conocimiento especializado [10], De acuerdo con la hipótesis nula   las variaciones en la variable independiente no tienen correspondencia con las variaciones que pudiere haber de la variable dependiente. Es decir que existe “independencia estadística”. Las variaciones que pudiese encontrarse se deberían a factores aleatorios, ajenos a la variable independiente.

La prueba de hipótesis es una regla que se debe seguir para poder elegir entre una hipótesis nula y una hipótesis alternativa. [11] La evidencia de los datos obtenidos puede conducir a no rechazar la hipótesis nula, lo cual no implica que ésta sea cierta se considera que la principal diferencia entre estas dos teorías no radica en los cálculos, sino en las concepciones y el razonamiento subyacente

 

: Las variables en filas y columnas no están asociadas

: Las variables en filas y columnas están asociadas.

 

Grados de libertad

Dentro de la investigación de [[12], [13]] indica que la suma de los valores de las desviaciones individuales con respecto a su media es igual a cero, hecho que puede demostrarse. Si se conocen los n-1 de los valores a partir de la media, entonces se conoce el n-ésimo valor, ya que queda determinado automáticamente debido a la restricción de 3 de que todos los valores de n sumen cero. El grado de libertad es un estadístico calculado sobre un conjunto de datos que se refiere al número de cantidades independientes que se necesitan en su cálculo, menos el número de restricciones que ligan a las observaciones y el estadístico. El número de grados de libertad del estadístico Chi-cuadrado se calcula de la siguiente forma:

 

·       Se calcula, en primer lugar, el número de sumandos, es decir m x n, siendo n y m el número de filas y número de columnas en la tabla.

·       A esta cantidad se debe restar el número de restricciones impuestas a las frecuencias observadas. Observamos que podemos cambiar todas las frecuencias de la tabla sin cambiar los totales por filas y columnas, excepto los datos en la última fila y columna de la tabla, pues una vez que fijemos todos los valores excepto estos, quedan automáticamente fijados. Por tanto, si la tabla tiene m filas y n columnas, el número de grados de libertad es:

 

Cálculo de las frecuencias esperadas

Para el cálculo de las frecuencias esperadas   [14], nos vuelve a colaborar diciendo  que, vienen dadas por la hipótesis nula , pero no siempre se puede establecer de manera inmediata. Esto solo es posible cuando trabajamos con una variable, pero cuando tenemos cuadros de doble entrada la forma de establecer el valor de la frecuencia esperada de cada celda es el siguiente:

 

Tabla 3. Tabla de contingencia de la cual saldra la tabla de frecuencias esperadas.

 

Se debe aplicar la siguiente fórmula para obtener los valores esperados.

 

Tabla 4. Tabla general de frecuencias esperadas obtenida una ves ya aplicada la formula a cada celda.

Estadístico Teórico

El estadístico teórico se calcula teniendo en cuenta [15] el grado de libertad y el nivel de significación, el cual se fija de antemano (usualmente entre 0.01 y 0.10, siendo el más usado el de 0.05) luego en la tabla de chi-cuadrado se procede a elegir el número de grado de libertad y el nivel de significancia de 0.05 y el valor será el número que se encuentre en la intersección de ambas, para ello se implementa la formula 10].

 

 

 

Tabla 5. Ejemplo de tabla de chi-cuadrado.

Programa RStudio

RStudio es una interfaz de programación basada en el lenguaje estadístico R [9] que es un lenguaje de programación orientado a objetos para calculo estadístico y generar gráficos a partir de ellos. Cabe recalcar que RStudio es un software libre en donde se encuentran diferentes funciones para el análisis de datos, las cuales se implementaron en esta investigación. La consola de RStudio se clasifica de la siguiente manera.

 

Figura 1. Consola de RStudio.

 

Para la interpretación de las herramientas en Rstudio:

 

Tabla 6. Cuadro de herramientas de Rstudio.

La primera pantalla que se muestra, son las líneas de código en donde se va a programar las funciones que contiene R. Como se ve en (Fig. 1) Se encuentra un código escrito y a su izquierda la numeración correspondiente a cada línea. En la parte superior de la pantalla se encuentra la opción Run que es la que ejecutara línea por línea el código fuente. La segunda pantalla que se muestra en la parte de abajo corresponde a la compilación de esas líneas de código. En la parte superior derecha se encuentra las variables definidas en el código actual y las de códigos anteriores. Debajo de ella la ejecución del código completo

Caso de estudio

El interés por los estudios sobre migración al extranjero en el país es reciente, a pesar de que el fenómeno como tal ha sido parte de las experiencias de muchas familias ecuatorianas desde muchos años atrás. Es innegable que la crisis financiera y la falta de oportunidades adecuadas de empleo fueron detonantes importantes para la decisión de migrar, pero eso no parece explicar en su totalidad ni la decisión de migrar ni la forma de inserción en los lugares de destino. Muchas de las hipótesis que surgen alrededor de la migración coinciden en señalar que la migración no surge a partir de una decisión racional, economía y estabilidad únicamente, sino que también influyen factores sociales y culturales que no necesariamente responden a la economía que es la responsabilizada por la migración.

Resultados

Variable motivo de viaje vs tipo de movimiento.

Tabla 7. Tabla de contingencia de las variables motivo de viaje y tipo de movimiento.

En la presente tabla se muestran los datos recabados y tabulados de la población viajera registrada en relación con el motivo de viaje y el tipo de movimiento es decir si entran o salen del Ecuador, siendo el motivo residencia el más frecuente en las salidas presenta 304086, por el contrario, el motivo de turismo en entradas presenta 277057.

Tabla 8. Tabla de frecuencia esperada obtenida una vez aplicada la formula a cada celda.

A partir de la tabla anterior una vez aplicado el cálculo correspondiente tal como la tabla nos muestra, los nuevos valores serán las frecuencias esperadas y su suma de valores marginales será igual al total de nuestra tabla de contingencia original los cual nos indica que el cálculo fue concretado con éxito.

A continuación, se plantean las hipótesis a contrastar mediante el chi-cuadrado.

·       La variable motivo de viaje es independiente al tipo de movimiento.

·       La variable motivo de viaje si depende al tipo de movimiento.

 =  = 2313,049

Luego se aplicó el estadístico de contraste de la formula () donde nos indica que es la suma de los valores de.

 exp=  =2313,049+…=1123816

Calculamos el valor Teórico de la fórmula (5) pero antes resolvemos la formula (1)

Para hallar el valor de los grados de libertad.

chisq.test(Datos1$mot_viam, Datos1$tip_movi)

Pearsons Chi-squared test

            data: Datos1$tip_movi and

Datos1$mot_viam               

X-squared= 1123816, df= 5, p-values < 2.2 e-16

En la Fig2.Test de chi-cuadrado realizado en Rstudio se puede constatar que si coinciden con el cálculo matemático.

La decisión es:  0.05,5= 1123816 >11.0705 se rechaza   mediante el contraste de chi -cuadrado, por ende, la variable motivo de viaje si depende del tipo de movimiento y si se verá afecta por la entrada y la salida

Variable subcontinente procedencia-destino vs tipo de movimiento

Tabla 9. Tabla de contingencia de las variables subcontinente destino-procedencia y tipo de movimiento.

 

En la presente tabla, se presentan los datos tabulados de la población en base al subcontinente de procedencia-destino y el tipo de movimiento siendo el mayor movimiento de salida del Ecuador a países de América del sur.

Tabla 10. Tabla de frecuencias esperadas obtenida una vez ya aplicada la formula a cada celda.

Tomando en cuenta la tabla anterior, una vez aplicada la fórmula de frecuencia esperada a cada uno de los datos podemos determinar que los resultados son los mismos lo cual nos indica que las frecuencias esperadas son iguales al total que se había planteado.

: La variable subcontinente procedencia-destino es independiente al tipo de movimiento.

: La variable subcontinente procedencia-destino si depende al tipo de movimiento.

Aplicamos las componentes del chi-cuadrado de la formula (6).

=  = 5.65

 

Luego se aplicó el estadístico de contraste de la formula (7).

 

 =  = 5.65…+=1002797

Calculamos el valor Teórico de la fórmula (5) pero antes resolvemos la formula (1)

Para hallar el valor de los grados de libertad.

 

chisq.test(Datos1$subcont_prod, Datos1$tip_movi)

 

Pearsons Chi-squared test

 

            data: Datos1$tip_movi and Datos1$subcont_prod            

X-squared= 1002797, df= 22, p-values < 2.2 e-16

 

En la Fig2.Test de chi-cuadrado realizado en RStudio se puede constatar que si coinciden con el cálculo matemático.

.

 

La decisión es:   >  =1002797>21.337se rechaza    mediante el contraste de chi-cuadrado, por ende, la variable de subcontinente de procedencia si depende del tipo de movimiento y si se verán influenciados dependiendo del subcontinente y el tipo de movimiento donde de los pasajeros.

Variable tipo de nacionalidad vs tipo de movimiento

Tabla 11