(Va de la semana 8, 9 y parte de la 10)
En esta semana se empezó a utilizar la herramienta de R.
Antes
de entrar al programa R se revisaron de manera general la definición de algunos
conceptos estadísticos tales como:
Población.- Es definida
como el conjunto de cosas, personas, animales o situaciones que tiene una o
varias características o atributos comunes.
- Población Finita: es el conjunto compuesto por una cantidad limitada de elementos, como el número de alumnos de un instituto.
- Población Infinita: es la que tiene un número extremadamente grande de componentes, como si se realizase un estudio sobre los productos que hay en el mercado. Existe una gran variedad y de tantas calidades que esta población podría considerarse infinita.
- Población Real: es todo el grupo de elementos concretos.
- Población Hipotética: es el conjunto de situaciones posibles imaginables en que puede presentarse un suceso.
- Población estable: es aquella en que sus valores o cualidades no presentan variaciones, o éstas, por pequeñas que sean, son despreciables, como la rotación de la tierra o la velocidad de la luz.
- Población inestable: es la que contienen los valores en constante cambio. Prácticamente la totalidad de las poblaciones corresponden a este tipo.
- Población aleatoria: es la que presenta cambios en sus calores debidos al azar, sin que exista una causa aparente.
- Población dependiente: es la que cambia sus valores debido a una causa determinada y medida. Como hemos visto, los caracteres de un elemento pueden ser de muy diversos tipos, por lo que se suele clasificar en dos clases:
a)Variables Cuantitativas: Son las que se describen por
medio de números, como por ejemplo el peso, Altura, Edad. A su vez este tipo de
variables se puede dividir en dos subclases:
· Cuantitativas discretas. Aquellas a las que se les puede asociar un número entero, es decir,
aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo
número de hermanos, páginas de un libro, etc.
· Cuantitativas continuas: Aquellas que no se pueden expresar mediante un número entero, es
decir, aquellas que por su naturaleza admiten que entre dos valores
cualesquiera la variable pueda tomar cualquier valor intermedio, por ejemplo
peso, tiempo. etc.
b) Variables Cualitativas: Las variables
cualitativas son aquellos caracteres que para su definición precisan de palabras,
es decir, no le podemos asignar un número. Por ejemplo Sexo Profesión, Estado
Civil, etc.
Tipos de variables
La variable es una medida en un
experimento, representada por una (x) o por una (y) que puede tomar un valor de
un conjunto de valores.
-
Variable aleatoria: es la que toma al azar los probables resultados
de un experimento.
-
Variable dependiente: es la que toma los valores correspondientes de
un modelo matemático o que los toma debido a la influencia de otra variable
independiente.
-
Variable continua: es la que puede tomar cualquier valor decimal,
del intervalo de una recta, como consecuencia de una medición.
-
Variable discreta: es la que puede tomar, por conteo, cualquier valor.
-
Variable cuantitativa: es la que se expresa en cantidades.
-
Variable cualitativa: es la que se manifiesta en atributos, como
pueden ser, bueno, malo, feo, bonito, etc.
R es un conjunto de programas para análisis estadísticos y gráficos creado por Ross Ihaka y Robert Gentleman. R tiene una naturaleza doble de programa y lenguaje de programación y es considerado como un dialecto del lenguaje S creado por los Laboratorios AT&T Bell.
Como ya se menciono R posee muchas funciones
para análisis estadísticos y gráficos; estos últimos pueden ser visualizados de
manera inmediata en su propia ventana y ser guardados en varios formatos (jpg,
png, bmp, ps, pdf, emf, pictex, xfig; cabe destacar que los formatos
disponibles dependen del sistema operativo).
Los resultados de análisis estadísticos se
muestran en la pantalla del ordenador, y algunos resultados intermedios (como
valores P-, coeficientes de regresión, residuales, etc.) estos pueden
ser guardados, exportar a un archivo, o ser utilizados en análisis posteriores.
Cómo funciona R
R es un lenguaje Orientado a Objetos, esto significa que las variables,
datos, funciones, resultados, etc., se guardan en la memoria activa del
computador en forma de objetos con un nombre específico. También
el usuario puede modificar o manipular estos objetos con operadores (aritméticos,
lógicos, y comparativos) y funciones (que a su vez son objetos). Muchas autores concluyen que no se necesita
ser programador para poder utilizar r.
Todas las acciones en R se realizan con objetos
que son guardados en la memoria activa del ordenador, sin usar archivos temporales.
La lectura y escritura de archivos solo se realiza para la entrada y salida de
datos y resultados. El usuario ejecuta las funciones con la ayuda de comandos
definidos. Los resultados se pueden visualizar directamente en la pantalla,
guardar en un objeto o escribir directamente en el disco.
Cuando R espera la entrada de órdenes, presenta un símbolo para indicarlo. El símbolo predeterminado es “>”, que en UNIX puede coincidir con el símbolo del sistema, por lo que puede parecer que no sucede nada. Si ese es su caso, sepa que es posible modificar este símbolo en R.
Pasos:
Al abrir R aparece la siguiente pantalla de entrada:
El menú principal contiene entradas típicas de otras aplicaciones: Archivo, Editar, Visualizar, Ventanas y Ayuda, más otras dos Misc y Paquetes. El menú de Ayuda será importante en esta fase inicial. Para obtener esta ayuda podemos
también optar por introducir instrucciones directamente por teclado.
Figura 1. Pantalla del programa R
Representación
gráfica
En muchas ocasiones un gráfico es muy eficiente para caracterizar y comunicar mejor a un conjunto de datos.
Algunas de las
funciones gráficas más utilizadas en R son: histograma, diagrama de caja,
diagrama de barras, etc.
1)
Histograma
Un diagrama usado preferentemente cuando la variable en estudio es continua o cuando es discreta con muchas observaciones
Es un conjunto
de rectángulos contiguos con base la amplitud de cada intervalo o clase y
altura el número de observaciones o datos que allí pertenecen, la función es hist(x).
2) Grafico de caja
El gráfico de caja (box-plot) es la forma gráfica de los cinco números (fivenum). Dicho gráfico adopta la siguiente forma:
Figura 2. Detalles de un diagrama de caja.
Otra
opción gráfica es el gráfico de rama y hoja (stem and leaf plot), en lenguaje R
es: > stem(x)
Al ejecutarse una función gráfica, R abre una ventana para
mostrar el gráfico si no hay ningún dispositivo abierto. Un dispositivo gráfico
se puede abrir con la función apropiada. El tipo de dispositivos gráficos
disponibles depende del sistema operativo.
Datos categóricos
Los
datos con los que trabajamos pueden ser, en general, clasificados en:
categóricos, discretos y continuos.
Para el caso de los datos categóricos, la variable tiene respuestas que no son numéricas y naturalmente no podemos calcular medidas de tendencia central y de dispersión; lo que corresponde es resumir los datos en tablas y en gráficos.
Funciones gráficas
La tabla a continuación resume algunas de las funciones
gráficas en R.
R en estadística
En R, un análisis estadístico se realiza en una serie de pasos, con unos
resultados intermedios que se van almacenando en objetos, para ser observados o
analizados posteriormente, produciendo unas salidas mínimas.
Al final de estas secciones se realizo una serie
de ejercicios con ejemplos prácticos para practicar con R. los cuales fueron
anexados en la plataforma.
Medidas
de tendencia central
Necesitamos caracterizar la muestra con algunas medidas de tendencia central, las cuales sintetizan, en si mismo, la característica “central” de la muestra.
Medidas
de dispersión
Una
vez declaradas algunas medidas de tendencia central debemos caracterizar la
muestra de vasos con medidas de dispersión
La más básica es la amplitud de la variable o rango de la variable, R nos entrega dos números que son los extremos del rango
Otra medida de dispersión es el recorrido intercuartílico, se define como IQR = Q3 –Q1, en el lenguaje de R seria IQR.
La varianza y la desviación estándar son medidas de dispersión muy usadas.
En el lenguaje
R conseguimos la varianza y la desviación estándar muestral, respectivamente
por var y sd.
Una buena medida de dispersión es el coeficiente de variabilidad; es el cuociente entre la desviación estándar y la media, expresada en porcentaje; denotada CV
En palabras es el cociente de la desviación estándar y la media expresada en %, esta medida es fácil de interpretar, y en la mayoría de los casos es adecuada para comparar dos conjuntos de datos.
RESUMEN DE OPERDORES Y FUNCIONES PREDEFINIDAS EN
R
Tabla 1. Operadores
matemáticos
Nombre
|
Operador
|
Suma
|
+
|
Resta
|
-
|
Multiplicación
|
*
|
División
|
/
|
Exponente
|
^
|
Indicar modelo
|
Ej. y~x (y depende de x)
|
Secuencia de números
|
Ej. 1:10 (del 1 al 10)
|
Tabla 2. Operadores lógicos
Nombre
|
Operador
|
Asignación
|
<-
|
Mayor que
|
>
|
Menor que
|
<
|
Mayor o igual
|
>=
|
Menor o igual
|
<=
|
Igual
|
==
|
Diferente
|
!=
|
Tabla 3. Funciones matemáticas
Nombre
|
Función
|
Raíz cuadrada
|
Sqrt(x)
|
Valor absoluto
|
Abs(x)
|
Logaritmo en base e
|
Log(x)
|
Antilogaritmo base e
|
Exp(x)
|
Logaritmo en base 10
|
Log10(x)
|
Nombre
|
Función
|
Seno
|
Sin(x)
|
Coseno
|
Cos(x)
|
Tangente
|
Tan(x)
|
Arco seno
|
Asin(x)
|
Arco coseno
|
Acos(x)
|
Arco tangente
|
Atan(x)
|
Seno hiperbólico
|
Sinh(x)
|
Coseno hiperbólico
|
Cosh(x)
|
Tangente hiperbólico
|
Tanh(x)
|
Arco tangente hip.
|
Atanh(x)
|
Nombre
|
Función
|
Media
|
Mean (x)
|
Mediana
|
Median (x)
|
Suma
|
Sum(x)
|
Producto
|
Prod(x)
|
n
|
Length(x)
|
Nombre
|
Función
|
Mínimo
|
Min(x)
|
Máximo
|
Max(x)
|
Amplitud
|
Range(x)
|
Desv. Stand
|
Sd(x)
|
Varianza
|
Var(x)
|
CV
|
Sd(x)mean(x)*100
|
Gráficas
R tiene una serie de funciones que permiten
realizar diferentes tipos de gráficos:
Nombre
|
Función
|
Graficas de puntos XY
|
Plot(var1, var2)
|
Histogramas
|
Hist(var)
|
Pie o circulares
|
Pie(x)
|
Barras
|
Barplot(x)
|
Cajas
|
Boxplot(var1),
boxplot(var1, var2)
|
Tallo, hoja
|
Stem(var1)
|
Líneas
|
Líneas(var1,var2)
|
Puntos
|
Point(var1,var2)
|
Título
|
Title(principal, parte
inferior, Eje X, Eje Y)
|
Distribución
de frecuencias
R hace tablas de distribución de frecuencias de
una sola variable utilizando la función:
table(var)
También, realiza tablas de frecuencia indicando
intervalos de clase con la función:
cut(valores,breaks=n)
Correlación
y Covarianza
Para el cálculo de la correlación y la
covarianza entre dos variables R utiliza las funciones:
Correlación corr(x,y)
Covarianza cov(x,y)
Test de correlación cos.test(x,y)
NOTA:
En cada una de las sesiones el profesor pidió
que practicáramos con una serie de ejercicios para familiarizarnos y algunos
fueron entregados vía plataforma.
Bibliografía
Paradis Emmanuel. 2003. R para pricipiantes.
Francia. Universit Montpellier II. Pp 61.
(En http://cran.r-project.org/doc/contrib/rdebuts_es.pdf el 5 de marzo 2012)
García
Cué J. L. Manual introducción al programa R. Colegio de Postgraduados. Pp 44.
(En http://www.cm.colpos.mx/moodle/file.php/25/Manual_de_R-A4.pdf
el 5 de marzo 2012)