Introducción al R

(Va de la semana 8, 9 y parte de la 10)

En esta semana se empezó a utilizar la herramienta de R.

Antes de entrar al programa R se revisaron de manera general la definición de algunos conceptos estadísticos tales como:

Población.- Es definida como el conjunto de cosas, personas, animales o situaciones que tiene una o varias características o atributos comunes.

Población Finita: es el conjunto compuesto por una cantidad limitada de elementos, como el número de alumnos de un instituto.
Población Infinita: es la que tiene un número extremadamente grande de componentes, como si se realizase un estudio sobre los productos que hay en el mercado. Existe una gran variedad y de tantas calidades que esta población podría considerarse infinita.
Población Real: es todo el grupo de elementos concretos.
Población Hipotética: es el conjunto de situaciones posibles imaginables en que puede presentarse un suceso.
Población estable: es aquella en que sus valores o cualidades no presentan variaciones, o éstas, por pequeñas que sean, son despreciables, como la rotación de la tierra o la velocidad de la luz.
Población inestable: es la que contienen los valores en constante cambio. Prácticamente la totalidad de las poblaciones corresponden a este tipo.
Población aleatoria: es la que presenta cambios en sus calores debidos al azar, sin que exista una causa aparente.
Población dependiente: es la que cambia sus valores debido a una causa determinada y medida. Como hemos visto, los caracteres de un elemento pueden ser de muy diversos tipos, por lo que se suele clasificar en dos clases:

a)Variables Cuantitativas: Son las que se describen por medio de números, como por ejemplo el peso, Altura, Edad. A su vez este tipo de variables se puede dividir en dos subclases:

· Cuantitativas discretas. Aquellas a las que se les puede asociar un número entero, es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo número de hermanos, páginas de un libro, etc.

· Cuantitativas continuas: Aquellas que no se pueden expresar mediante un número entero, es decir, aquellas que por su naturaleza admiten que entre dos valores cualesquiera la variable pueda tomar cualquier valor intermedio, por ejemplo peso, tiempo. etc.

b) Variables Cualitativas: Las variables cualitativas son aquellos caracteres que para su definición precisan de palabras, es decir, no le podemos asignar un número. Por ejemplo Sexo Profesión, Estado Civil, etc.

Tipos de variables

La variable es una medida en un experimento, representada por una (x) o por una (y) que puede tomar un valor de un conjunto de valores.

Variable aleatoria: es la que toma al azar los probables resultados de un experimento.
Variable dependiente: es la que toma los valores correspondientes de un modelo matemático o que los toma debido a la influencia de otra variable independiente.
Variable continua: es la que puede tomar cualquier valor decimal, del intervalo de una recta, como consecuencia de una medición.
Variable discreta: es la que puede tomar, por conteo, cualquier valor.
Variable cuantitativa: es la que se expresa en cantidades.
Variable cualitativa: es la que se manifiesta en atributos, como pueden ser, bueno, malo, feo, bonito, etc.

Entrando a R

R es un conjunto de programas para análisis estadísticos y gráficos creado por Ross Ihaka y Robert Gentleman. R tiene una naturaleza doble de programa y lenguaje de programación y es considerado como un dialecto del lenguaje S creado por los Laboratorios AT&T Bell.

Como ya se menciono R posee muchas funciones para análisis estadísticos y gráficos; estos últimos pueden ser visualizados de manera inmediata en su propia ventana y ser guardados en varios formatos (jpg, png, bmp, ps, pdf, emf, pictex, xfig; cabe destacar que los formatos disponibles dependen del sistema operativo).

Los resultados de análisis estadísticos se muestran en la pantalla del ordenador, y algunos resultados intermedios (como valores P-, coeficientes de regresión, residuales, etc.) estos pueden ser guardados, exportar a un archivo, o ser utilizados en análisis posteriores.

Cómo funciona R

R es un lenguaje Orientado a Objetos, esto significa que las variables, datos, funciones, resultados, etc., se guardan en la memoria activa del computador en forma de objetos con un nombre específico. También el usuario puede modificar o manipular estos objetos con operadores (aritméticos, lógicos, y comparativos) y funciones (que a su vez son objetos). Muchas autores concluyen que no se necesita ser programador para poder utilizar r.

Todas las acciones en R se realizan con objetos que son guardados en la memoria activa del ordenador, sin usar archivos temporales. La lectura y escritura de archivos solo se realiza para la entrada y salida de datos y resultados. El usuario ejecuta las funciones con la ayuda de comandos definidos. Los resultados se pueden visualizar directamente en la pantalla, guardar en un objeto o escribir directamente en el disco.

Cuando R espera la entrada de órdenes, presenta un símbolo para indicarlo. El símbolo predeterminado es “>”, que en UNIX puede coincidir con el símbolo del sistema, por lo que puede parecer que no sucede nada. Si ese es su caso, sepa que es posible modificar este símbolo en R.

Pasos:

Al abrir R aparece la siguiente pantalla de entrada:

El menú principal contiene entradas típicas de otras aplicaciones: Archivo, Editar, Visualizar, Ventanas y Ayuda, más otras dos Misc y Paquetes. El menú de Ayuda será importante en esta fase inicial. Para obtener esta ayuda podemos también optar por introducir instrucciones directamente por teclado.

Figura 1. Pantalla del programa R

Representación gráfica

En muchas ocasiones un gráfico es muy eficiente para caracterizar y comunicar mejor a un conjunto de datos.

Algunas de las funciones gráficas más utilizadas en R son: histograma, diagrama de caja, diagrama de barras, etc.

1) Histograma

Un diagrama usado preferentemente cuando la variable en estudio es continua o cuando es discreta con muchas observaciones

Es un conjunto de rectángulos contiguos con base la amplitud de cada intervalo o clase y altura el número de observaciones o datos que allí pertenecen, la función es hist(x).

2) Grafico de caja

El gráfico de caja (box-plot) es la forma gráfica de los cinco números (fivenum). Dicho gráfico adopta la siguiente forma:

Figura 2. Detalles de un diagrama de caja.

3) Grafico de rama y hoja

Otra opción gráfica es el gráfico de rama y hoja (stem and leaf plot), en lenguaje R es: > stem(x)

Al ejecutarse una función gráfica, R abre una ventana para mostrar el gráfico si no hay ningún dispositivo abierto. Un dispositivo gráfico se puede abrir con la función apropiada. El tipo de dispositivos gráficos disponibles depende del sistema operativo.

Datos categóricos

Los datos con los que trabajamos pueden ser, en general, clasificados en: categóricos, discretos y continuos.

Para el caso de los datos categóricos, la variable tiene respuestas que no son numéricas y naturalmente no podemos calcular medidas de tendencia central y de dispersión; lo que corresponde es resumir los datos en tablas y en gráficos.

Funciones gráficas

La tabla a continuación resume algunas de las funciones gráficas en R.

R en estadística

En R, un análisis estadístico se realiza en una serie de pasos, con unos resultados intermedios que se van almacenando en objetos, para ser observados o analizados posteriormente, produciendo unas salidas mínimas.

Al final de estas secciones se realizo una serie de ejercicios con ejemplos prácticos para practicar con R. los cuales fueron anexados en la plataforma.

Medidas de tendencia central

Necesitamos caracterizar la muestra con algunas medidas de tendencia central, las cuales sintetizan, en si mismo, la característica “central” de la muestra.

Medidas de dispersión

Una vez declaradas algunas medidas de tendencia central debemos caracterizar la muestra de vasos con medidas de dispersión

La más básica es la amplitud de la variable o rango de la variable, R nos entrega dos números que son los extremos del rango

Otra medida de dispersión es el recorrido intercuartílico, se define como IQR = Q3 –Q1, en el lenguaje de R seria IQR.

La varianza y la desviación estándar son medidas de dispersión muy usadas.

En el lenguaje R conseguimos la varianza y la desviación estándar muestral, respectivamente por var y sd.

Una buena medida de dispersión es el coeficiente de variabilidad; es el cuociente entre la desviación estándar y la media, expresada en porcentaje; denotada CV

En palabras es el cociente de la desviación estándar y la media expresada en %, esta medida es fácil de interpretar, y en la mayoría de los casos es adecuada para comparar dos conjuntos de datos.

RESUMEN DE OPERDORES Y FUNCIONES PREDEFINIDAS EN R

Tabla 1. Operadores matemáticos

Nombre	Operador
Suma	+
Resta	-
Multiplicación	*
División	/
Exponente	^
Indicar modelo	Ej. y~x (y depende de x)
Secuencia de números	Ej. 1:10 (del 1 al 10)

Tabla 2. Operadores lógicos

Nombre	Operador
Asignación	<-
Mayor que	>
Menor que	<
Mayor o igual	>=
Menor o igual	<=
Igual	==
Diferente	!=

Tabla 3. Funciones matemáticas

Nombre	Función
Raíz cuadrada	Sqrt(x)
Valor absoluto	Abs(x)
Logaritmo en base e	Log(x)
Antilogaritmo base e	Exp(x)
Logaritmo en base 10	Log10(x)

Tabla 4. Funciones trigonométricas (en radianes)

Nombre	Función
Seno	Sin(x)
Coseno	Cos(x)
Tangente	Tan(x)
Arco seno	Asin(x)
Arco coseno	Acos(x)
Arco tangente	Atan(x)
Seno hiperbólico	Sinh(x)
Coseno hiperbólico	Cosh(x)
Tangente hiperbólico	Tanh(x)
Arco tangente hip.	Atanh(x)

Tabla 5. Medidas de tendencia central

Nombre	Función
Media	Mean (x)
Mediana	Median (x)
Suma	Sum(x)
Producto	Prod(x)
n	Length(x)

Tabla 6. Medidas de dispersión

Nombre	Función
Mínimo	Min(x)
Máximo	Max(x)
Amplitud	Range(x)
Desv. Stand	Sd(x)
Varianza	Var(x)
CV	Sd(x)mean(x)*100

Donde x es un vector de datos

Gráficas

R tiene una serie de funciones que permiten realizar diferentes tipos de gráficos:

Nombre	Función
Graficas de puntos XY	Plot(var1, var2)
Histogramas	Hist(var)
Pie o circulares	Pie(x)
Barras	Barplot(x)
Cajas	Boxplot(var1), boxplot(var1, var2)
Tallo, hoja	Stem(var1)
Líneas	Líneas(var1,var2)
Puntos	Point(var1,var2)
Título	Title(principal, parte inferior, Eje X, Eje Y)

Distribución de frecuencias

R hace tablas de distribución de frecuencias de una sola variable utilizando la función:

table(var)

También, realiza tablas de frecuencia indicando intervalos de clase con la función:

cut(valores,breaks=n)

Correlación y Covarianza

Para el cálculo de la correlación y la covarianza entre dos variables R utiliza las funciones:

Correlación corr(x,y)

Covarianza cov(x,y)

Test de correlación cos.test(x,y)

NOTA:

En cada una de las sesiones el profesor pidió que practicáramos con una serie de ejercicios para familiarizarnos y algunos fueron entregados vía plataforma.

Bibliografía

Paradis Emmanuel. 2003. R para pricipiantes. Francia. Universit Montpellier II. Pp 61.

(En http://cran.r-project.org/doc/contrib/rdebuts_es.pdf el 5 de marzo 2012)

García Cué J. L. Manual introducción al programa R. Colegio de Postgraduados. Pp 44.

(En http://www.cm.colpos.mx/moodle/file.php/25/Manual_de_R-A4.pdf el 5 de marzo 2012)

Introducción al R

miércoles, 28 de marzo de 2012

Datos personales