Proceso de enseñanza para el aprendizaje de análisis de probabilidad en base a su aplicación en casos de la vida real con el lenguaje de programación R y RStudio

 

 Teaching process for learning probability analysis based on its application in real life cases with the programming language R and RStudio

 

Joshue Laborde1, Dayana Salvatierra2, Rommel Borbor3, y Christopher Salazar4.

 

RESUMEN

El presente trabajo persigue facilitar la enseñanza y comprensión de la probabilidad en base a ejercicios aplicados a la vida real. Los estudiantes que cursan la asignatura de probabilidad y estadística no comprenden la utilidad de la aplicabilidad de la estadística en la vida real, por lo que este trabajo de investigación permitirá determinar a través de problemas de casos reales la utilidad que esta puede conllevar. Se hará uso de una base de datos proporcionado por la INEC con 400 registros de donde se buscará la probabilidad en diferentes casos en relación con estos datos reales, junto con la implementación de RStudio como herramienta de resolución. Los ejercicios que componer esta investigación demuestran lo importante que puede llegar a ser aplicar la probabilidad. Se prevé que en base a lo desarrollado a continuación pueda existir una mejor comprensión respecto al tema.

Palabras clave: Método de Enseñanza, probabilidad, RStudio.

 

ABSTRACT

This paper aims to facilitate the teaching and understanding of probability based on exercises applied to real life. Students who study the subject of probability and statistics do not understand the usefulness of the applicability of statistics in real life, so this research work will determine through real case problems the usefulness that this can entail. The use will be made of a database provided by INEC with 400 records from which the probability will be sought in different cases about this real data, together with the implementation of RStudio as a resolution tool. The exercises that compose this research demonstrate how important it can be to apply probability. It is expected that based on what has been developed below, there may be a better understanding of the subject.

Keywords:  Teaching Method, Probability, RStudio.

 

Fecha de recepción: Noviembre 20, 2019.

Fecha de aceptación: Marzo 5, 2019.

 


Introducción[1] [2]

La información para desarrollar es un aporte educativo que puede llegar a ser implementado por las futuras generaciones que necesiten consolidar los conocimientos dados en clase y comprender la importancia de la teoría de probabilidad en el día a día, podría tratarse de un precedente para desarrollar futuros trabajos investigativos que utilicen las probabilidades para dar solución a algún problema social.

Según el autor en su trabajo [1] plantea un problema sobre las dificultades en la enseñanza y resolución de problemas en las asignaturas de física y química en la Universidad de Alcalá de Henares, Madrid. Utilizando el método de análisis factorial para la clasificación de los sujetos y así identificar los diferentes factores que influyen en el aprendizaje del estudiante donde el programa que se apoyaron fue el software estadístico BMDP. No obstante, el método usado en su investigación podría ser mejorado con el uso de un modelo estadístico probabilístico el cual se empleará en este trabajo investigativo en donde servirá para una mejor apreciación en los análisis y resultados. Dentro de ello se usará espacio muestral y eventos para determinar y desarrollar problemas de la vida cotidiana donde se usará el software RStudio para la realización de los ejercicios.

En el trabajo investigativo de [2] plantea crear estrategias para el aprendizaje de la química debido a la dificultad de enseñanza de conceptos y aplicación de la nomenclatura química en un curso de noveno grado del colegio “Armando Castillo Plaza”. Usando una metodología de aprendizaje de Acción Participativa (IAP) en donde un grupo de estudiantes realizaron solución colectiva de tareas, intercambio y confrontación de ideas, opiniones y experiencias entre estudiantes y profesores. Sin embargo, el método que se utilizó no es muy eficiente a la hora de una enseñanza completa y eficiente por eso, en este trabajo se hizo uso del método de aprendizaje por casos el cual es un modo de enseñanza en el que los alumnos aprenden sobre la base de experiencias y situaciones de la vida real, permitiéndoles así, construir su propio aprendizaje en un contexto que los aproxima a su entorno.

Según [3] La enseñanza de la Probabilidad en muchas universidades generalmente se limita a seguir los temas que se encuentran en varios textos de Estadística, los cuales son impuestos por el profesor desde el inicio del semestre. Por tanto, esta estrategia tradicional a veces no es la mejor y los estudiantes se pueden ver frustrados en su aprendizaje a la hora de entender la aplicabilidad de la Probabilidad en diferentes situaciones reales. Mediante la revisión bibliográfica lograron determinar que el uso de las herramientas tecnológicas como los softwares educativos (en este caso el uso de Excel) o simuladores ayudan a mejorar el aprendizaje de la probabilidad, ya que los estudiantes se familiarizan más con estas herramientas. Sin embargo, en este trabajo no se realiza una introducción a profundidad de los softwares que los estudiantes pueden utilizar y los beneficios que estos proporcionan. En el trabajo a desarrollar se hace uso del software RStudio y de datos proporcionados por el INEC, con el cual se ha formulado diferentes problemas de la vida real orientados hacia la migración, aplicando las diferentes fórmulas de probabilidad para eventos, para así introducir al aprendizaje de la probabilidad, como también reflejar las ventajas que ofrece este software.

Se puede observar que en el trabajo investigativo de [4], hace uso del software SPSS con el cual se trabajó con estudiantes de la Maestría en Gerencia Educacional donde hicieron uso de comandos que le permitieran generar en el visor de resultados las medidas de tendencia central, dispersión, posición, asimetría, curtosis e histogramas de las variables que se estaban estudiando, a pesar de no ser una carrera orientada al manejo de programas informáticos, obtuvieron buenos resultados con esta herramienta el cual es de los más empleados por su fácil manejo y la generación de tablas y gráficos. No obstante, cabe resaltar que SPSS, a pesar de su utilidad, no es el software estadístico más completo que existe en el mercado, puesto que en el trabajo a desarrollarse a continuación se dará bajo la gestión de RStudio. Al contrastar ambas herramientas estadísticas se pueden diferenciar a RStudio por su cualidad para la programabilidad de variables, pese a que puede resultar en desventaja para las personas que desconocen del mundo de la programación lo cual terminarán teniendo dificultades en su manejo; sin embargo, por contener la posibilidad de acceso a múltiples paquetes de librerías con comandos que posibilitan cualquier proceso estadístico tanto simple como complejo, es mayormente personas con intereses científicos que buscan una herramienta capaz de ser modelada acorde a sus necesidades.

Materiales y métodos

En este apartado se detalla los principales conceptos que se aplicaran en este artículo, conceptos tales como: Estadística, espacio muestral y eventos, probabilidad de eventos, ley aditiva de probabilidades, probabilidad condicional, independencia de eventos, teorema de probabilidad total, tabla de contingencia, teorema de Bayes y el programa a usar en este caso es RStudio.

Estadística

Según [5], la aplicación de la estadística en nuestro trabajo es fundamental a la hora de analizar e interpretar mejor los datos la cual nos ayudará a ver en forma clara nuestros resultados. También otra definición como [6] y en una segunda definición del mismo autor [6]. Estas dos últimas definiciones subyacen la idea de que la estadística es una herramienta que permite recolectar, organizar y analizar los hechos numéricos u observaciones.

Espacio muestral y eventos

Según [7] el espacio muestral es el conjunto de todos los resultados posibles de un experimento aleatorio. Se designa por las letras S o Ω. Y el evento [7] Es un subconjunto de interés del espacio muestral. Los eventos son los resultados de un experimento aleatorio que cumplen unas determinadas condiciones.

Probabilidad de eventos

Según [8] la probabilidad de eventos se refiere a que un evento ocurra, se representa con un número entre 0 y 1. Donde 0 indica que dicho evento no ocurrirá nunca, y 1 significa que ocurrirá siempre. Entonces por lógica si el resultado obtenido se acerca a uno u otro valor se conocerá si dicho evento puede ocurrir con mayor o menor posibilidad.

 

La fórmula para hallar la probabilidad de un evento es:

Donde:

P(E1) = Probabilidad del evento uno

N(E1) = Número de elementos del evento uno

N(Ω) = Número de elementos del espacio muestral

Ley aditiva de probabilidades

La ley aditiva de probabilidad [7] también llamado regla de la suma para eventos mutuamente excluyentes o desarticulados, es decir, que no pueden suceder al mismo tiempo y que no tienen puntos en común, se aplica sumando las probabilidades de los eventos considerados.

La cual la fórmula es la siguiente:

 

En donde:

   = Es la unión del conjunto A y B (En probabilidades significa la sumatoria de ambos sucesos)

P(A) + P(B) = La suma de las probabilidades de los conjuntos A y B

   = Intersección de los conjuntos A y B (En probabilidades significa el producto de ambos sucesos).

 

Probabilidad condicional

Dado el autor [9] podemos concluir que la probabilidad condicional es la probabilidad de algún evento A, dada la ocurrencia de algún otro evento B.  Esto está denotado por P (A | B) y se lee “la probabilidad de A, dado B”. En otras palabras, estamos calculando probabilidades condicionales al conocer información adicional parcialmente a través del experimento.

 

La fórmula es la siguiente:

 

Independencia de eventos

Basado en el trabajo de [10] podemos decir que los eventos A y B son independientes si la ocurrencia de A no afecta la ocurrencia de B.

 

Para que los eventos sean independientes se debe cumplir la siguiente condición:

 

 

Y cuando A y B son independientes respectivamente se aplica la fórmula:

 

 

Teorema de probabilidad total

Según [10] donde sea A1, A2,..., An, un sistema completo de eventos tales que la probabilidad de cada uno de ellos es distinto de cero, y sea B un evento cualquiera del que se conocen las probabilidades condicionales P(B⁄Ai).

 

Entonces, la probabilidad del evento B, llamada probabilidad total, se calcula empleando la siguiente fórmula:

 

P(B) = P(A1) . P(B/A1) + P(A2) . P(B/A2)+…. P(An) . P(B/An)

 

Teorema de Bayes

Según [10] El teorema de Bayes es utilizado para calcular la probabilidad de un suceso, teniendo información de antemano sobre ese suceso. Podemos calcular la probabilidad de un suceso A, sabiendo además que ese A cumple cierta característica que condiciona su probabilidad.

 

La fórmula para calcular el teorema de Bayes es la siguiente:

 

Donde:

P(A) = Probabilidad a priori

P(B/A) = Probabilidad condicional

P(B) = Probabilidad total

P(A/B) = Probabilidad a posteriori

 

Tabla de contingencia

Según [11] podemos decir que una tabla de contingencia está formada por dos variables y está basada en el cálculo de porcentajes. El objetivo de esta técnica estadística es averiguar si las dos variables están relacionadas y la manera de averiguarlo es mediante la distribución de porcentajes.

 

Tabla 1. Sintaxis de tabla de contingencia N (I, J).

      X

  Y

1

2

j

J

Total

1

2

:

:

:

 

:

 

:

:

i

:

:

:

 

:

 

:

:

I

Total

 

Programa RStudio

Es un software libre es un conjunto de herramientas que en la actualidad goza de un uso muy amplio, debido a la expansión de Internet y a la necesidad de contar con una solución que no esté regida por intereses comerciales. Este tipo de software posee mucho potencial, porque es respaldado por una comunidad desarrolladora y por usuarios que robustecen esas herramientas. [12], entonces R es un entorno de programación para el análisis estadístico y grafico de datos, y un lenguaje de programación de uso libre, de distribución gratuito y código abierto, desarrollado de un proyecto laboratorio voluntario de investigadores.

Caso de Estudio

El trabajo que se desarrollará a continuación utiliza una base de datos proporcionada por INEC, de la cual se tomarán 400 datos compuestos de 6 variables que son: edad, movimiento migratorio, ocupación, motivo de viaje, nacionalidad y género; para la creación de ejercicios que apliquen la teoría de probabilidad a la vida real y de esta forma atribuir este trabajo como una ayuda pedagógica en la enseñanza de la relevancia de la probabilidad para la vida. [13,14,15,16,17,18]

 

Los temas de probabilidad que se abordarán serán:

        Espacio muestral y Eventos

        Probabilidad de eventos

        Ley aditiva de probabilidades

        Probabilidad Condicional

        Independencia de eventos

        Tabla de contingencia

        Teorema de probabilidad total

        Teorema de Bayes.

 

Resultados

Los resultados mostrados a continuación son los desarrollos de ejercicios aplicados a casos de la vida real donde se presenta una corta explicación del por qué se desarrolló el ejercicio de esa forma, para que puede ser implementados el resultado en la vida real y el algoritmo para aplicar en RStudio donde se pueden validar las respuestas que se muestran).

 

Espacio muestral y Eventos

Caso 1: Calcular el espacio muestral de que en un mes entren personas al país

Un evento es todo caso donde se persiga una característica o un hecho posible que se desee analizar, siendo de esta forma un subconjunto del espacio muestral.

 

En primer lugar, al considerar el espacio muestral la colección de hechos posibles, se debe considerar todos los posibles casos o eventualidades que se puedan dar en las variables que influyen en el tema: el movimiento migratorio y el motivo de viaje. Como se conoce a partir del análisis de las variables, las opciones entre las que puede optarse en un proceso migratorio de movimiento están entrada y salida; por lo que de tratarse de sólo este el caso, lo que se desea encontrar son las personas que ingresen al país que es uno de los dos casos posibles (1/2). Pero dentro del problema existe otra variable a considerar, en este caso es que el motivo de viaje que pude ser: Estudios, eventos, residencia, turismo, trabajo y otros. Aplicando esta información al ejercicio antes descrito, los casos aumentan, por lo que el espacio muestral termina siendo.

 

S = {entrada/estudios, entrada/eventos, entrada/residencia, entrada/turismo, entrada/trabajo, entrada/otros, salida/estudios, salida/eventos, salida/residencia, salida/turismo, salida/trabajo, salida/otros}

 

Por ende, se ve claramente que los casos posibles a darse son 12, y considerando el evento que nos interesa, la probabilidad de darse este es 1/12 (0,083), siendo esta la probabilidad del evento propuesto.

 

Probabilidad de eventos

Caso 2: ¿Cuál es la probabilidad de que entre al país un migrante mayor de edad?

A partir de lo explicado anteriormente, se comprende la necesidad de encontrar el espacio muestral a considerar para de esta forma hallar la probabilidad del evento, en este caso aplica con respecto a la muestra total porque se encuentra la frecuencia relativa del conteo de todos los casos de migrantes mayores de edad que ingresan al país para todos los registros que contiene la muestra.

 

P(A) = Probabilidad que entre un migrante mayor de edad.

P(A) = (185/400)

P(A) = 0.46

 

Algoritmo 1

> cf<-185
> tc<-400
> PA<-cf/tc
> PA
[1] 0.4625

 

La respuesta a este cuestionamiento puede ser útil porque las opciones turísticas y laborales que tienen un mayor de edad que entre al país son mayores a las de un menor de edad, al tratarse de personas independientes podría desarrollarse un estudio basados en esta probabilidad de la afectación positiva o negativa de la economía del país según los motivos de entrada de la persona mayor de edad.

Caso 3: ¿Cuál es la probabilidad de que salga del país un médico?

P(A) = Probabilidad que salga un médico del país

P(A) = (8/400)

P(A) = 0.02

 

Algoritmo 2

> cb<-8
> tc<-400
> PB<-cb/tc
> PB

 [1] 0.02

Este nuevo cuestionamiento podría ayudar a comprender la frecuencia con la que las personas que sigan esta profesión podrían llegar a viajar de ser este su objetivo.

 

Caso 4: En una base de datos de migrantes, se sabe que de los 400 datos 223 son mujeres, ¿cuál es la probabilidad de que solamente salgan hombres del país?

P(A)=Probabilidad que solamente salgan hombres del país

P(A)= (177/400)

P(A)=0.44

 

Algoritmo 3

> cc<-177
> tc<-400
> PC<-cc/tc
> PC
[1] 0.4425

 

Esta información podría de servir de ayuda para análisis filosóficos con posturas de género en la que se desee conocer cuál es el que posee mayor poder adquisitivo o dominio propio.

Probabilidad de eventos

Caso 5: En la base de datos antes mencionados: Calcule la probabilidad de que    las personas salgan del país por   turismo o por   residencia.

P(A)=Probabilidad que salgan por turismo

P(B)=Probabilidad que salgan por residencia

P(AUB)=Probabilidad que salgan por turismo o por residencia