Manual1 Sas

(1)

Jessica Paola Vargas Castro

1

Luis Felipe Patiño Oquendo

2

Cindy Carolina Lugo Rozo

3

Viviana Oquendo

julio de 2013

Resumen:

El uso de los software econométricos en la última década han trascendido para

los profesionales como una herramienta útil para el análisis estadístico y

económico, así, tareas que tomaban horas se trabajan en segundos y el

profesional en su disciplina puede emitir un análisis más rápidamente y con

una clara visión de lo que ocurre con los datos que trabaja. Este documento

pretende guiar en el manejo del software SAS (Statistical Analysis Software)

tanto en la parte técnica como en la parte aplicativa.

Palabras Clave:

Software, econometría, series de tiempo, análisis gráfico, pronóstico, datos panel,

regresión.

JEL:

Statistical Analysis Software SAS

Abstract:

The use of econometric software in the last decade have transcended for

professionals as a useful tool for statistical analysis and economic, as well,

tasks that took hours are worked in seconds and the professional in their

1_{Estudiante de economía de la Facultad de Ciencias Económicas de la Universidad} Nacional de Colombia, y monitor junior del grupo capacitaciones de la Unidad de Informática y Comunicaciones de la Facultad de Ciencias Económicas durante. Correo Electrónico: [email protected]

2_{Estudiante de ingeniería eléctrica de la Facultad de Ingeniería de la Universidad} Nacional de Colombia, y monitor junior del grupo capacitaciones de la unidad de informática y comunicaciones de la Facultad de Ciencias Económicas durante. Correo Electrónico: [email protected]

3 _{Estudiante de economía de la Facultad de Ciencias Económicas de la Universidad} Nacional de Colombia, y monitor junior del grupo mejor gestión de la Unidad de Informática y Comunicaciones de la Facultad de Ciencias Económicas durante. Correo Electrónico: [email protected]

(2)

2 discipline can issue further analysis quickly and a clear vision of what happens

to the data that works. This document is intended to guide the management of

SAS software (Statistic Analysis Software) in both the technical and on the

applicative.

Keywords:

(3)

3 Director Unidad Informática:

Henry Martínez Sarmiento

Tutor Investigación:

Viviana María Patiño Oquendo

Coordinadores:

Jasmin Guerra Cárdenas

Juan Carlos Tarapuez Roa

Coordinador Servicios Web:

John Jairo Vargas

Analista de Infraestructura y

Comunicaciones:

Diego Alejandro Jiménez Arévalo

Analista de Sistemas de Información:

Víctor Hugo Ramos Ramos

Estudiantes Auxiliares:

Ahumada Avendaño Fredy Esteban

Alvarado Castillo Paola Alejandra

Alzate Gaitán Paola Andrea

Andrade Martínez David Ricardo

Calderón Espitia Walter Helberth

Cano Díaz Alberto

Ávila Ibáñez Diego Fernando

Enciso Castaño Julián David

González Mayorga Cesar Felipe

Güisa Díaz Carlos Eduardo

Hernández Carvajal Miguel Ángel

Hurtado Casas Andrés Felipe

Leyva Díaz Daniel Felipe

Lugo Rozo Cindy Carolina

Malangón Carvajal Laura Juliana

Martínez Cortes Nicolás

Miranda Hernández Nícolas

Montes Parra Mayerli Andrea

Moreno Urián Germán Yesid

Oquendo Patiño Viviana María

Patiño Oquendo Luis Felipe

Pineda Estupiñan Andrés Javier

Rojas Martín Daniel Francisco

Rubiano Rojas Mario Andrés

Vargas Castro Jessica Paola

Este documento es resultado de un trabajo

conjunto y coordinado de los integrantes de

la Unidad de Informática y Comunicaciones

de la Facultad de Ciencias Económicas de la

Universidad Nacional de Colombia.

Esta obra está bajo una licencia reconocimiento no comercial 2.5

Colombia de CreativeCommons. Para ver una copia de esta licencia,

visite

http://creativecommons.org/licenses/by/2.5/co/ o envíe una carta a

CreativeCommons, 171second street, suite 30 San Francisco, California

94105, USA.

(4)

4 Software de Análisis Estadístico SAS

1. Contenido

2. Introducción ... 6

2.1. Características generales del software ... 6

2.1.1. Requerimientos del sistema para Linux(Official Page, Statistical Analysis

Software SAS, 2013) ... 6

2.1.2. Requerimientos del sistema para Windows(Official Page, Statistical

Analysis Software SAS, 2013) ... 6

2.1.3. Comparación del software con otros software estadísticos ... 7

2.1.4. Listado de funciones del programa SAS(Universidad Complutense de

Madrid, 2013) ... 7

2.1.5. Aplicabilidad de SAS ... 8

2.2. Lenguaje de programación ... 8

2.2.1. Acerca del lenguaje de programación(N/A, 2013) ... 8

2.2.2. Uso del software según la página oficial de SAS(Official Page, Statistical

Analysis Software, 2013) ... 8

2.3. Manual SAS ... 9

2.3.1. Crear una librería ... 9

2.3.2. Leer data sets de SAS ... 13

2.3.3. Leer archivos de bases de datos para pc ... 15

2.3.4. Presentar programas de sas para hosts remotos... 18

2.3.5. Crear y definir variables ... 21

2.3.6.

Usar declaraciones condicionales ... 21

2.3.7. Subconjunto de datos ... 22

2.3.8. Trabajo con Fechas y Horas de SAS ... 23

2.3.9. Impresión de Datos ... 24

2.3.10. Conteo de datos ... 24

2.3.11. Tabular datos ... 25

2.3.12. Consulta de datos ... 26

2.3.13. Unir tablas ... 27

2.3.14. Crear gráficos... 28

2.3.15. Crear gráficos (2) ... 29

(5)

5

2.3.16. Regresión simple y múltiple ... 31

2.3.17. ARIMA ... 36

2.3.18. Datos Panel ... 44

2.3.19. ODS Graphics Designer... 65

2.4. Clases ... 71

2.4.1. Primera Clase ... 71

2.4.2. Segunda clase – Definiciones básicas para la inserción de variables ... 72

2.4.3. Tercera Clase – Lógica condicional, fechas y horas, subconjuntos ... 77

2.4.3.1. Lógica condicional ... 77

2.4.3.2. Subconjuntos de datos ... 81

2.4.3.3. Fechas y horas con SAS ... 83

2.4.3.6. SAS DATATIME VALUE ... 84

2.4.4. Cuarta clase – Regresión simple ... 86

2.4.5. Quinta Clase – Regresión multiple ... 90

2.4.6. Sexta clase - Modelos ARIMA ... 103

2.4.7. Séptima clase – Datos Panel ... 119

2.4.8. Octava clase – ODS Graphics Designer ... 140

3. Conclusiones ... 155

(6)

6

2. Introducción

La empresa SAS® crea el Statistical Analysis Software (SAS) principalmente como un método para la organización y control de grandes bases de datos. SAS fue diseñado de manera tal que respondiera a una recolección, transformación, análisis y reporte de datos; de manera adecuada y eficiente para la organización que disponga del software. Sin embargo, pronto el software comenzó a formarse como uno de los paquetes econométricos más poderosos del mercado. Además, el software puede generar muchas soluciones de negocio que permiten soluciones de software a gran escala para áreas como administración, gestión de recursos humanos, gestión financiera, inteligencia de negocios y más. La última versión de SAS fue SAS 9.3 y salió al mercado en diciembre de 2011.

2.1. Características generales del software

2.1.1. Requerimientos del sistema para Linux(Official Page, Statistical

Analysis Software SAS, 2013)

Sistemas operativos de LINUX: Red Hat Enterprise Linux 4 y 5 SuSE Linux Enterprise Server 9 y 10

Linux x 64 (siempre y cuando sea por la vía de compatibilidad de 32 bits. Para esta versión de SAS, los requerimientos del hardware son:

Intel Pentium 4 o superior o Procesadores XeonClass 64 Mb de memoria

Soporte de pantalla de mínimo 256 colores

2.1.2. Requerimientos del sistema para Windows(Official Page, Statistical

Analysis Software SAS, 2013)

SAS 9.1 se puede instalar en prácticamente cualquier sistema operativo de Windows:

Windows 7, Windows Vista, Windows XP, Windows 2000, Windows NT Family. Requerimientos mínimos del Hardware

(7)

7

Intel Pentium II

Memoria de 256 Mb

Resolución de pantalla de 800 * 600 o superior Acceso a internet

2.1.3. Comparación del software con otros software estadísticos

En la siguiente página se muestra unas amplias tablas de comparación de gran cantidad de Software de análisis estadístico:

http://en.wikipedia.org/wiki/Comparison_of_statistical_packages

Las características de SAS muestran que el software no es Libre y es de licencia propietaria, además de usar una interfaz gráfica CLI/GUI. El software como ya se mencionó trabaja en los sistemas operativos de Linux y Windows, además de UNIX. No trabaja en BSD y en Mac OS fue terminado.

En las diferentes tablas también aparecen los programas que utilizan varios métodos ANOVA (ANOVA son los diferentes modelos estadísticos que existen) en el cual SAS maneja todos los métodos:

One way, Two Way, MANOVA, GLM, Mixed Model, Post-host, Latin squares. También muestra los diferentes modelos de regresión que existen y los software que los manejan. De nuevo SAS es capaz de aplicar todos los métodos:

OLS, WLS, 2SLS, NLLS, Logistic, GLM, LAD, Stepwise, Quantitle, Probit, Cox, Poisson, MLR.

La siguiente tabla en la página muestra los software que utilizan diferentes análisis de series temporales. SAS maneja todos:

ARIMA, GARCH, Unit root test, Cointegration test, VAR, Multivariable GARCH

SAS emplea todos los gráficos y diagramas que manejan los software estadísticos. En estas diferentes tablas se puede concluir que SAS es uno de los programas más completos en el mercado.

2.1.4. Listado de funciones del programa SAS(Universidad Complutense de

Madrid, 2013)

SAS®_{Analytics es la marca registrada que maneja la empresa para integrar} todo lo que involucra el modelado predictivo y analítico. Entre las funciones del programa SAS encontramos:

Las utilidades de entorno gráfico:

 Creación y manipulación de librerías de datos SAS (llamados SAS-FILES)  Importación/exportación de datos externos en ficheros ASCII

 Importación/exportación de datos externos en ficheros en otros formatos, por ejemplo, EXCEL.

(8)

8

 Exportación de gráficos a otros formatos. Para estadística y econometría encontramos:  Estadística descriptiva simple

 Regresión y análisis de varianza y covarianza  Análisis de datos cualitativos

 Análisis discriminante  Análisis cluster

 Análisis de supervivencia

 Scoring (estandarización y construcción de variables)  Imputación de datos perdidos

 Análisis de potencia

 Cálculo de medidas de distancia

2.1.5. Aplicabilidad de SAS

El programa SAS está pensado como un software para el análisis y manejo de datos que busca mejorar la gestión empresarial, por su capacidad de organización y análisis. SAS® desea que los usuarios del software puedan facilitar su proceso de toma de decisiones utilizando modelos predictivos, descriptivos, de simulación y optimización. Con ello se busca llegar a la solución de los problemas cotidianos del entorno económico y fomentar el desarrollo interno de los agentes que usen el software. En esa medida, en la Universidad Nacional, son las carreras afines al entorno económico y en general carreras que trabajan con bases de datos, las que pueden aprovechar las opciones que ofrece SAS; especialmente las carreras de la Facultad de Ciencias Económicas.

2.2. Lenguaje de programación

2.2.1. Acerca del lenguaje de programación(N/A, 2013)

El lenguaje de programación que utiliza SAS fue diseñado por el mismo SAS. Su sintaxis está inspirada en la de PL/I (lenguaje propuesto por IBM en 1970), este opera en primera instancia sobre tablas de datos. Estas tablas de datos las puede leer, transformarlas, combinarlas, resumirlas, crear informes, entre otras cosas. El núcleo del lenguaje incluye Pasos data que permiten realizar operaciones sobre las filas de un conjunto de datos, procedimientos de manipulación de datos que permiten ordenar tablas, enlazarlas, etc., un intérprete de SQL, un superlenguaje de macros.

2.2.2. Uso del software según la página oficial de SAS(Official Page, Statistical

Analysis Software, 2013)

(9)

9

Cualquier software informático que pueda descargarse o que de cualquier otra forma esté disponible en esta página Web se encuentra sujeto a una licencia que puede ser la del contrato escrito de licencia suscrito entre usted y SAS o la licencia “click-on” que usted acepta en el momento de descarga o uso. El software al que cualquiera de estas dos licencias le sea de aplicación se encuentra, salvo pacto en contrario, sujeto únicamente a los términos de su contrato de licencia asociado. En cualquier caso, si ni una licencia escrita o una “click-on” están disponibles, el uso que usted haga del software se encontrará sujeto a las siguientes condiciones: 1) No podrá usar, reproducir, grabar, modificar, publicar, comunicar públicamente o distribuir ningún software disponible a través de esta página Web sin el previo consentimiento expreso y por escrito de SAS

2) Se le reconoce una licencia personal, no exclusiva, para usar dicho software sujeto a las restricciones indicadas más arriba

3) Dicho software se encuentra sujeto a todas las Garantías y Limitaciones de responsabilidad que se establecen a continuación

4) Salvo expresamente garantizado en otro lugar, SAS Institute Inc. y sus otorgantes de licencias se reservan todos los derechos, títulos e intereses en relación a dicho software.

2.3. Manual SAS

Como método de autoexploración del software SAS se estableció que a partir del software y su respectivo manual, se irían encontrando las diferentes funciones del programa y con base en estas se realizaría la estructura del curso de acuerdo a los diferentes ítems encontrados y a la experiencia en la unidad sobre estos tipos de software y el mejor procedimiento para dictar un curso libre. A continuación se presenta la primera parte del manual de SAS con los siguientes ítems:

o Crear una Librería o Leer data sets de SAS

o Leer archives de bases de datos para PC

o Presentar programas de SAS para host remotos.

2.3.1. Crear una librería

Antes de iniciar con SAS file, generalmente se debe definir primero una librería de SAS, esto con el fin de mostrarle a SAS donde se encuentra el archivo. Usted ha creado ya una biblioteca SAS interactivamente mediante la ventana de la nueva biblioteca. Otra forma de definir una biblioteca SAS es utilizando una instrucción LIBNAME. Esta declaración LIBNAME permite 4 cosas:

(10)

10

Identifica una Librería SAS a SAS. Asocia un ‘motor’ con la librería

Permite asociar especificaciones con la librería

Asigna un libref (nombre de referencia de la librería) a ella misma.

A gran ventaja del comando LIBNAME es que puede almacenarla en un programa de SAS, así, se puede referenciar la librería automáticamente cuando se envíe el programa. Una vez que se asigna a la libref, usted puede leer, crear o actualizar archivos en una biblioteca SAS:

libref.filename

En el nombre de dos niveles, libref es el nombre de la biblioteca SAS que contiene el archivo y nombre_de_archivo es el nombre del mismo archivo. Un período separa la libref y el nombre de archivo. En el nombre de dos niveles, libref es el nombre de la biblioteca SAS que contiene el archivo y filename es el nombre del mismo archivo. Un período separa la libref y el filename.

Si se tienen las licencias de 1 o más productos de SAS diferentes, es posible crear una librería SAS que referencie relaciones de DBMS database, schema, server, o grupos de tablas y vistas.

Método de Point and Click

Se puede crear una librería mediante: 1. Clic en View > Explorer. 2. Clic en File > New.

(11)

11

3. En la ventana de New Library, especifique la información para la nueva librería. Si usted quiere sea creada en el comienzo de cualquier sesión de SAS, haga clic en Enable at startup.

4. Clic OK.

EJEMPLO 1

Asignación de un libref a archivos de referencia SAS

Suponga que usted quiere definir una librería SAS para referenciar una carpeta en el entorno operativo de Windows que contiene algunos SAS data sets. Luego usted quiere crear un nuevo data set, imprimirlo e imprimir un data set existente en la misma librería. El siguiente programa define la librería Sales y referencia los archivos SAS con esta librería.

 Usted puede copiar y enviar este programa en SAS. Sin embargo, es necesario editar el directorio en el estado LIBNAME (está en rojo) para referenciar un directorio existente en su entorno operativo.

/*************************************/ /* define SAS library */

/*************************************/ libname sales 'c:\salesdata\sas\2002'; /*************************************/ /* create new data set from raw data */ /*************************************/ data sales.quarter1;

length Department $ 7 Site $ 8; input Department Site Quarter Sales; datalines; Parts Sydney 1 4043.97 Parts Atlanta 1 6225.26 Parts Paris 1 3543.97 Repairs Sydney 1 5592.82 Repairs Atlanta 1 9210.21 Repairs Paris 1 8591.98 Tools Sydney 1 1775.74 Tools Atlanta 1 2424.19 Tools Paris 1 5914.25 ; run; /*************************************/ /* print new data set */

/*************************************/ proc print data=sales.quarter1;

run;

/*************************************/ /* print existing data set */

/*************************************/ proc print data=mylib.productsales;

(12)

12

EJEMPLO 2

Ahora suponga que usted quiere imprimir también una tabla Oracle y una tabla DB2. El siguiente programa muestra cómo puede especificar declaraciones LIBNAME con los motores de SAS/ACESS y opciones apropiadas. Después de asignar un libref a DBMS, es posible referenciar estas tablas y vistas como SAS data sets, usando los nombres estándar two-level SAS.

Mientras usted pueda definir cualquier número de librefs in SAS, usted puede procesar datos desde múltiples recursos DBMS en el mismo programa de SAS.

Debido a que esta es una guía rápida para principiantes, no es posible copiar y correr este programa como se muestra. Sin embargo es posible modificarlo para trabajar con tablas DBMS que usted pueda acceder.

/*************************************/ /* define SAS library for Oracle */ /*************************************/

libname myorlib oracle user=scott password=tiger path="blunzer:v7" schema=hrdept;

/*************************************/ /* define SAS library for DB2 */ /*************************************/ libname mydblib db2

noprompt="user=testuser;

password=testpass;database=testdb"; /*************************************/ /* print Oracle table */

/*************************************/ proc print data=myorlib.all_employees; where state='CA';

run;

/*************************************/ /* print DB2 table */

/*************************************/ proc print data=mydblib.customers;

where state='CA'; run;

/*************************************/ /* clear librefs */

/*************************************/ libname myorlib clear;

(13)

13

REFERENCIAS

Acá puede encontrar más información acerca de crear librerías. Documentación en Help SAS:

1. En SAS, click Help SAS Help and Documentation. 2. Expanda SAS Products Base SAS.

3. Expanda SAS Language Concepts SAS Files Concepts SAS Data Libraries y mire los tópicos de interés

4. Expand SAS Language Dictionary Dictionary of Language Elements Statements y click LIBNAME statement y LIBNAME Statement,

SAS/ACCESS.

5. Expanda Using SAS Software in Your Operating Environment, luego en la sección de su entorno operativo. Expanda Using SAS Files y vea los tópicos relacionados con las librerías de SAS

Preguntas en el soporte técnico Frequently Asked Questions Programas in SAS help:

1. En SAS, click Help SAS Help and Documentation.

2. Expand Learning to Use SAS y click Sample SAS Programs. 3. Clic Base SAS y mire los programas de interés

2.3.2. Leer data sets de SAS

Tal vez quiera crear un nuevo data set desde un data set existente. En Create an run SAS programas, haya visto ejemplos de DATA step que lee existiendo data sets usando una declaración SET. Leyendo un data set en un DATA step es más simple que leyendo los datos en bruto debido a que el trabajo de describir y convertir los datos ya se han hecho.

Ahora, cuando usted usa un data sets existente o subsets creados desde SAS data sets, usted puede hacer más eficiente el uso de los recursos del computador que si usara los datos en bruto (raw data) o si está trabajando con data sets largos. Leer menos variables significa que SAS crea un program data vector más pequeño, y leyendo menos observaciones significa que existen menos iteraciones para el DATA step que se crean. Usted puede leer desde uno o más data set, combinar y modificar datos en diferentes maneras, por ejemplo usted puede:

 Combinar 2 o más input data sets para crear un output data ser  Fusionar datos desde 2 o más data sets para crear un output data set  Actualizar un archivo master basado en las grabaciones de transacción. En el caso más simple usted lee datos desde un solo SAS data set:

(14)

14

Como las principales herramientas para leer, combinar y modificar data sets, usted puede usar cuatro declaraciones: SET, MERGE, MODIFICY y UPDATE. Para procesar los datos y crear un data set de salida, puede usar una programación adicional de declaraciones SAS en el paso DATA.

Esta tarea se centra en la lectura de un único conjunto de datos SAS utilizando la sentencia SET.

EJEMPLO

Cuando usted lee data sets de SAS, el gran poder del paso de programación DATA está disponible para usted. Los siguientes ejemplos muestran algunos caminos fáciles para usar la declaración SET para leer una existente data set.

 Usted puede copiar y enviar estos programas en SAS. En los datos de Mylib.ProductSales fue creado por Work with SAS data sets. Si no se creó, vuelva a la tarea definir la librería y crear un data set antes de cargar estos programas que aparecen a continuación

/*************************************/ /* read a data set and subset */ /*************************************/ data canada; set mylib.productsales; if country='CANADA'; run; /*************************************/ /* read a data set, subset, and */ /* create new variables */

(15)

15

data canada2; set mylib.productsales; if country='CANADA'; Total_Variance=actual-predict; Forecast=actual*1.15; run; /*************************************/ /* read a subset using direct access */ /*************************************/ data product_sample;

do obsnum=1 to 100 by 2;

set mylib.productsales point=obsnum; if _error_ then abort;

output; end; stop; run;

REFERENCIAS

Documentation, publications, and FAQs

 Documentación en SAS help:

1. En SAS, click Help< SAS Help and Documentation.

2. Expanda SAS Products< Base SAS< SAS Language Concepts.

3. Expand DATA Step Concepts< Reading, Combining, and Modifying SAS Data Sets y mire los tópicos de interes

4. Expand SAS System Concepts< Rules for Words and Names in the SAS Language y mire los tópicos de interes.

5. Expand SAS Products< Base SAS< SAS Language Dictionary< Dictionary of Language Elements< SAS Data Set Options y mire los topicos de interes

 Preguntas en working with SAS data sets en SAS Technical Support's Frequently Asked Questions

Ejemplos de programas

 programs in SAS help:

2. Expand Learning to Use SAS y click Sample SAS Programs. 3. Click Base SAS y vea Starting with SAS Data Sets, Chapter 4.

2.3.3. Leer archivos de bases de datos para pc

(16)

16

Si usted tiene un archivo de base de datos ya sea en hojas de cálculo de Microsoft Excel, Lotus o archivos de Microsoft Access, puede usar SAS para importar estos archivos y crear data sets de SAS. Una vez haya obtenido el archivo en SAS, es posible procesarlos como usted lo necesite en SAS. También es posible exportar archivos de SAS a un número de formatos diferentes para PC.

Para leer bases de datos de PC, puede usar el procedimiento IMPORT. PROC IMPORT lee el archivo de entrada y los convierte a un data set de SAS, con las variables SAS definidas en base a los registros de entrada. Usted puede controlar los resultados con opciones y declaraciones que están especificadas en el recurso de entrada de datos (input data).

 PROC IMPORT sólo está disponible en Windows, OS/2, OpenVMS, and UNIX

 Usted debe tener la interfaz SAS/ACCESS para archivos de PC licenciados para leer archivos de datos de la PC. Sin embargo, aún sin la interfaz SAS/ACCESS para archivos de PC puede importar y exportar archivos externos limitados (archivos que contienen columnas de valores de datos que están separados por un delimitador como un espacio en blanco o una coma).

Método de Click and Point

Si usted tiene la interfaz SAS/ACCESS para archives de PC licensiados, puede importar bases de datos usando Import Wizard:

1. En SAS, click File< Import Data.

2. Cuando el Import Wizard se abre, siga las instrucciones para importar datos. Usted puede ver y salvar el código PROC IMPORT que el Import Wizard genera

EJEMPLO

Suponga que usted quiere importar 2 archivos, a ua hoja de cálculo de Microsoft Excel y a una tabla de Access. El siguiente programa le muestra cómo leer datos usando opciones específicas para el archivo dado, crea data sets e imprime el nuevo data sets.  Debido a que esta es una guía rápida para principiantes, no es posible copiar y correr este programa como se muestra. Sin embargo usted puede modificarlo para trabajar con bases de datos de PC a las que pueda acceder.

/*************************************/ /* import the Excel file */

/*************************************/ proc import datafile="c:\myfiles\Accounts.xls" out=sasuser.accounts sheet="Prices"; getnames=no;

run;

(17)

17

/* print part of the new data set */ /*************************************/ proc print data=sasuser.accounts(obs=10); run;

/*************************************/ /* import the Access file */

/*************************************/ proc import table="customers"

out=sasuser.cust dbms=access; uid="userid"; pwd="mypassword"; database="c:\myfiles\east.mdb"; wgdb="c:\winnt\system32\security.mdb"; run; /*************************************/ /* print part of the new data set */ /*************************************/ proc print data=sasuser.cust(obs=5); run;

REFERENCIAS

Mire estos recursos online para aprender más a cerca de como leer bases de datos de PC.

Documentación, publicaciones y FAQs

 Documentación en SAS help

2. ExpandA SAS Products< Base SAS< SAS Procedures< Procedures. 3. Click The IMPORT Procedure y vea los tópicos de interes

4. Si usted está interesado en exporter datos a bases de datos de PC, click The EXPORT Procedure.

PROC IMPORT documents desde SAS Technical Support Documents

 product-specific documentación para PC File Formats en SAS Online Product Documentation

 Otras publicaciones en SAS Documentation, incluyendo Your SAS Technology Report  Preguntas sobre on PROC IMPORT en SAS Technical Support's Frequently Asked Questions

(18)

18

 programs in SAS help:

1. En SAS, click Help< SAS Help and Documentation. 2. Expanda SAS Products< Base SAS< SAS Procedures. 3. Clic The IMPORT Procedure.

4. Clic Examples: IMPORT Procedure.

2.3.4. Presentar programas de sas para hosts remotos

El servicio de cómputo de SAS le da un fácil acceso a muchas de los recursos remotos en su red desde una sola sesión local de SAS. SAS/CONNECT ofrece acceso a recursos remotos en 2 formas, sincrónicos y asincrónicos. Con el proceso sincrónico, usted espera los resultados del proceso remoto antes de estar disponibles para continuar el proceso local. Con el proceso asincrónico, usted inmediatamente recupera el control para continuar el proceso local mientras el trabajo remoto se ejecuta, y usted puede obtener los resultados después.

El acceso remoto le ayuda eficazmente usando todos los recursos informáticos de la organización. Los servicios informáticos también le permiten tener ventaja en el Output Delivery System (ODS) en SAS para cambiar el formato y la apariencia en la salida de SAS que es generada en un host remoto.

Las declaraciones de SAS/CONNECT GIGNON, SIGNOGG, RSUBMIT, y ENDRSUBMIT lo conectan para presentar declaraciones a un host remoto desde una sesión en un host local. Usted puede incluir estas declaraciones en un programa de SAS y hacer al mismo tiempo los procesos locales y remotos en un solo programa de SAS.  Usted debe tener la licencia de SAS/CONNECT para presentar programas de SAS en host remotos.

(19)

19

EJEMPLO

Suponga que usted quiere llevar a cabo algún tipo de procesamiento en un host remoto, descargue lo resultante del data set, cree un data set permanente en el host local, e imprima un reporte sobre el host local. El siguiente ejemplo ilustra cómo poner todas estas características en un solo programa.

 Debido a que esta es una guía rápida para principiantes, no es posible copiar y correr este programa como se muestra. Sin embargo usted puede modificarlo para trabajar con archivos remotos a los cuales pueda acceder

 /*************************************/  /* prepare to sign on */

 /*************************************/ options comamid=netbios remote=netpc; libname lhost 'c:\sales\reg1';

 /*************************************/  /* sign on and download data set */  /*************************************/  signon;

rsubmit;

libname rhost 'd:\dept12';  proc sort data=rhost.master  out=rhost.sales;

 where gross > 5000;  by lastname dept;  run;

 proc download data=rhost.sales  out=lhost.sales;

 run;

endrsubmit;

 /*************************************/  /* print data set in local session */  /*************************************/  proc print data=lhost.sales;

 run;

REFERENCIAS

Vea estor recursos online para aprender más acerca de cómo presentar programas remotos de SAS

Documentación, publicaciones y FAQs

 Documentación en SAS help:

2. Expand SAS Products< SAS/CONNECT< Communications Access Methods. 3. Expanda los tópicos de interes en SAS/CONNECT.

(20)

20

SAS/CONNECT and SAS/SHARE documents desde SAS Technical Support Documents

 product-specific documentation SAS/CONNECT in SAS Online Product Documentation

 Otras publicaciones en SAS para Documentation, incluyendo Your SAS Technology Report

 Preguntas sobre SAS/CONNECT wn SAS Technical Support's Frequently Asked Questions

Ejemplos de programas



 programas en SAS help:

1. En SAS, click Help< SAS Help and Documentation. 2. Expand Learning to Use SAS< Sample SAS Programs. 3. Click SAS/CONNECT y mire los programas de interes

 Programas en SAS Online Samples:

SAS/CONNECT Software: Usage and Reference, Version 6, Second Edition

Siguiendo lo estipulado, se continuó con el método de autoexploración del software SAS. Se estableció que a partir del software y su respectivo manual, se irían encontrando las diferentes funciones del programa y con base en estas se realizaría la estructura del curso de acuerdo a los diferentes ítems encontrados y a la experiencia en la unidad sobre estos tipos de software y el mejor procedimiento para dictar un curso libre. A continuación se encuentra la última parte de este manual introductorio de SAS.

o Crear y Definir variables

o Usar declaraciones condicionales o Subconjunto de Datos

o Trabajo con Fechas y Horas de SAS o Impresión de datos o Conteo de Datos o Tabular Datos o Consulta de Datos o Unir Tablas o Crear Gráficos o Crear Gráficos (2)

Adjunto a este informe se encuentra el manual completo. No se archiva acá debido a que es muy extenso, simplemente se pondrá la explicación de cada tema omitiendo los ejemplos y sus respectivas referencias

(21)

21 2.3.5. Crear y definir variables

A menudo, cuando usted trabaja con data sets, es muy útil crear nuevas variables o variables que están basadas en los valores de otras variables existentes. Estas nuevas variables pueden contener los resultados de las funciones de SAS, valores condicionalmente asignados, o valores totales de valores de otra variable.

Usted puede crear variables en un paso DATA mediante las siguientes maneras:  Usando una declaración asignada

 Leyendo datos con la declaración INPUT en un paso DATA

 Especificando una nueva variable en una declaración FORMAT o ONFORMAT

 Especificando una nueva variable en una declaración LENGHT  Especificando una nueva variable en una declaración ATTRIB

Cuando usted crea variables usando declaraciones asignada, usted puede tomar ventaja de SAS functions y SAS expressions.

2.3.6. Usar declaraciones condicionales

En los pasos DATA de los programas, usted probablemente querrá usar lógica condicional para procesar algunas observaciones pero otras no.

(22)

22

Para ejecutar una declaración SAS para observaciones que cumplan condiciones especificas, usted puede usar:

 Declaraciones IF-THEN/ELSE para programas con algunas declaraciones condicionales

 Un grupo SELECT cuando usted tiene una serie larga de condiciones que son mutuamente exclusivas

 Subconjuntos de declaraciones IF, sin una clausula THEN, para continuar el procesamiento solo de las observaciones o registros que cumplan la condición que es especificada en la clausula IF.

Para construir expresiones en declaraciones, usted puede utilizar los siguientes operadores comparativos:

También puede utilizar estos operadores lógicos

2.3.7. Subconjunto de datos

A menudo usted necesita trabajar sólo con subconjuntos de un data set de SAS. Por lo que necesita seleccionar observaciones, variables o inclusive ambas.

En el paso DATA, usted tiene un número de herramientas para subconjuntos de datos. Usted puede usar:

(23)

23

 Subconjuntos de declaraciones IF para seleccionar sólo aquellas observaciones que cumplan una condición específica

 Construcciones IF-THEN/ELSE con declaraciones DELETE y OUTPUT para borrar o seleccionar observaciones que permitan una condición, respectivamente

 DROP= y KEEP= opciones de data set y DROP y KEEp declaraciones para bajar o mantener determinadas variables

 Declaraciones WHERE para seleccionar sólo las observaciones que cumplan una condición específica (en determinadas condiciones).

EN los pasos PROC, las declaraciones WHERE son la herramienta más común para seleccionar observaciones que cumplan una condición específica.

Ésta tarea se enfoca en la escritura de los pasos DATA usando subconjuntos de declaraciones IF, las opciones DROP= y KEEP= de data set y las declaraciones DROP y KEEP.

2.3.8. Trabajo con Fechas y Horas de SAS

SAS almacena las fechas y horas como números únicos, exclusivos para que pueda utilizarlas en programas como cualquier otra variable numérica:

Un SAS date value es un valor que representa el número de días entre enero 1 de 1960 y una fecha especificada. SAS puede realizar cálculos con fechas que van desde el año 1582 a 19.900 AD. Fechas antes de Enero 1 de 1960, son números negativos, después de las fechas son números positivos.

Un SAS time value es un valor que representa el número de segundos transcurridos desde la medianoche del día actual. Los valores SAS time value son entre 0 y 86400.

Un SAS datetime value es un valor que representa el número de segundos entre enero 1 de 1960 y una hora / minuto / segundo dentro de un plazo determinado.

(24)

24

Para trabajar con valores date, time y datetime usted puede utilizar las siguientes herramientas:

 Informats lee un valor, tal como un reloj de tiempo o un calendaro, el cual puede ser de varias longitudes, y luego convierte los datos o un valor data, time ó datetime.

 Formats presenta un valor reconocido por SAS, tal como un valor time o date, como un dato del calendario o un tiempo de reloj de varias longitudes.

 Functions realize operaciones sobre valores date, time, y datetime de SAS.

2.3.9. Impresión de Datos

Para listar la información en un data set, usted puede crear un reporte usando el procedimiento PRINT. Luego, usted puede mejorar el reporte con declaraciones adicionales y opciones para crear reportes como se muestra más abajo. Usted puede crear una variedad de reportes que van desde una simple lista a un gran reporte de datos completamente personalizado además de cálculos totales y subtotales de una variable numérica.

Metodo Point-and-Click

Si usted tiene licensia de SAS/STAT, usted puede crear listas de reportes usando una interfaz point-and-click.

Usted puede ver y guardar el código PROC PRINT que genera Analyst.

2.3.10. Conteo de datos

Cuando usted analiza sus datos, es posible que usted necesite determinar qué valores de una variable están distribuidos a través de los datos. Para ello, usted puede crear tablas de frecuencia, la cual muestra la distribución de los valores de la variable, tanto con los porcentajes de un total como el conteo de data.

(25)

25

El procedimiento FREQ en Base SAS crea un solo sentido de la tabla de frecuencias, dos sentidos y n sentidos de tablas de contingencia. También puede calcular medidas de asociación y de acuerdo, organiza la salida por variables de estratificación.

Esta tarea estará enfocada en usar PROC FREQ para realizar análisis básicos de datos.

Método de Point-and-Click

Si usted tiene licencia de SAS/STAT, usted puede crear tablas de frecuencias usando una interfaz point-and-click.

1. En SAS, click Solutions< Analysis< Analyst.

2. Cuando Analyst se abra, click File< Open by SAS Name para agregar al proyecto

3. Luego click Statistics< Descriptive< Frequency Counts para crear tablas de frecuencias.

Usted puede ver y salvar el código PROC FREQ que genera Analyst.

2.3.11. Tabular datos

El procedimiento TABULATE le da el poder y la flexibilidad para resumir los datos en forma de tabla. Usted puede crear una variedad de tablas que van desde simples a muy personalizados, incluyendo tablas de una, dos, y tres dimensiones que muestran cualquier de los números de una estadística descriptiva. Usted puede:

(26)

26

 Modificar virtualmente cualquier característica de una tabla  Calcular porcentajes

 Producir reportes integrados sin clasificar datos  Resumir datos y producir un reporte en un paso  Generar tablas múltiples en un paso

PROC TABULATE calcula muchas de las mismas estadísticas que son calculadas por otros procedimientos estadísticos descriptivos tales como MEANS, FREQ, y REPORT

Método de Click-and-Point

Si usted tiene licencia de SAS/STAT, usted puede crear reportes tabulares usando una interfaz point-and-click.

2. Cuando Analyst se abre, click File< Open by SAS Name para agregar datos al proyecto.

3. Luego click Reports< Tables para crear un reporte tabular

Usted puede ver y salvar el código PROC TABULATE que genera Analyst.

2.3.12. Consulta de datos

Structured Query Language (SQL) o Lenguaje de Consulta Estructurado es un lenguaje estandarizado, ampliamente utilizado que recupera y actaliza datos en tablas y gráficas basadas en estas tablas. Si usted está familiarizado con SQL, usted puede crear rápidamente consultas en SAS usando el procedimiento SQL en Base SAS.

PROC SQL es la implementación SAS de SQL. Cuando usted quiere examinar relaciones entre valores de datos, un subconjunto de datos o calcular valores el procedimiento SQL provee un camino fácil flexible para analizar sus datos. Usando PROC SQL, usted puede:

 Recuperar y manipular datos que están almacenados en tablas o gráficas.  Crear tablas, vistas e índices en las columnas de las tablas.

 Crear variables macro de SAS que contienen valores de las filas de los resultados de una consulta

(27)

27

 Agregar o modificar los valores de datos en la columna de una tabla o instertas y borrar filas. Usted también puede modificar la tabla misma añadiendo, modificando o degradando columnas.

 Mandar declaraciones DBMS-SQL a un sistema de administración de base de datos (DBMS) y recuperar datos DBMS

Usted puede usar elementos del lenguaje SAS como declaraciones globales, opciones del data set, funciones, y formatos con PROC SQL sólo si usted puede con otros procedimientos SAS. De todas maneras, ya que PROC AQL implementa Lenguaje de consulta estructurado, funciona de forma diferente a otros procedimientos BASE SAS. Esta tarea se enfoca en recuperar datos desde una sola tabla (data set).

Usted puede unir tablas usando una interfaz point-and-click. 1. En SAS, click Tools< Query.

2. Use la ventana SQL Query para realizar uniones.

Usted puede ver y salvar el código PROC SQL que la ventana de Consulta SQL genera

Método Point-and-Click

Usted puede crear consultas SQL usando una interfaz point-and-click 1. En SAS, click Tools< Query.

2. Use la ventana SQL Query para crear consultas.

Usted puede ver y salvar el código PROC SQL que la ventana SQL Query genera

2.3.13. Unir tablas

Si usted leyó CONSULTA DE DATOS, usted observó maneras para consultar una sola tabla usando PROC SQL. Sin embargo, usted necesita datos a menudo desde tablas separadas. Cuando usted especifica múltiples tablas, vistas, o expresiones de consulta en la clausula FROM, PROC SQL, las procesa para formar una tabla. La tabla resultante contiene datos de cada una de las tablas contribuyentes. Estas consultas se les llaman como JOINS.

Conceptualmente, cuando usted especifica dos tablas, PROC SQL compara cada fila de la tabla A con todas las filas de la tabla B para producir una tabla interna o intermedia conocida como el CARTESIAN PRODUCT. El producto cartesiano (CARTESIAN PRODUCT) de tablas largas puede ser enrome, por lo que usted quiere enviar datos declarando el tipo de unión. A continuación se muestran dos tipos de uniones.

(28)

28

 Inner joins retorna una tabla resultante por todas las filas en una tabla que tiene una o mas filas que coincidan en la otra tabla o las otras tablas.

 Outer Joins son inner joins que son aumentadas con filas que no coinciden con cualquier fila de la otra tabla en la unión. ExistenEst 3 tipos de outer joins: left, right, and full.

Esta tarea se enfoca principalmente en unir tablas.

2.3.14. Crear gráficos

Una manera efectiva para examinar las relaciones entre variables es graficando sus valores. Para producir gráficos únicos o superpuestos, usted puede usar:

 El procedimiento PLOT en Base SAS para visualizar datos rápidamente  El procedimiento GPLOT en el software SAS/GRAPH para producir con

calidad gráficos de presentación que incluyen colores y varias fuentes.

En adición, usted puede crear una salida PROC GPLOT usando el SAS/GRAPH Control for ActiveX, el cual que le permite incrustar gráficos interactivos en páginas web y documentos OLE.

La sintaxis para los dos procedimientos es muy similar, aunque PROC GPLOT ofrece un número adicional de funciones de formato. Esta tarea le muestra ambos caminos para crear varios tipos de gráficos.

 Usted debe tener la licencia de SAS/GRAPH para crear gráficos usando PROC GPLOT.

(29)

29

a) Si usted tiene licenciado SAS/GRAPH, puede crear gráficos con calidad de presentación usando una interfaz point-and-click

1. En SAS, click Solutions< Reporting< Graph-N-Go.

2. Click en el icono New SAS Data Set y seleccione datos para el gráfico

3. Haga clic en el ícono para escoger el gráfico que desee y colóquelo en el área de trabajo. Luego haga docle clic en el objeto del gráfico, seleccione los datos y especifique las variables y las opciones del gráfico.

Usted puede ver y salvar el código de PROC GPLOT que genera Graph-N-Go

b) Si usted tiene licenciado SAS/GRAPH y SAS/GRAPH, también puede crear gráficos usando Analyst Application

2. Cuando Analyst se abra, click File< Open by SAS Name para agregar los datos al proyecto.

3. Luego haga clic en Graphs y escoja el tipo de gráfico que quiere crear Usted puede ver y salvar el código PROC GPLOT que Analyst genera

2.3.15. Crear gráficos (2)

Usted puede usar el procedimiento CHART en Base SAS para producir  Barras gráficas horizontales y verticales

 Gráficos de bloques  Gráficos circulares  Mapas estelares

Estos tipos de graficos muestran valores de una variable ó estadística asociada con sus valores. La variable graficada puede ser numerada o caracterizada.

(30)

30

PROC CHART es una buena herramienta para visualizar datos rápidamente, pero si usted necesita producir gráficos de presentación con calidad que incluyan varios colores y fuentes, usted puede usar el software SAS/GRAPH. El procedimiento GCHART en SAS/GRAPH produce los mismos tipos de gráficos que PROC CHART hace, Así como un gráfico de dona. En adición, usted puede crear salidas PROC GCHART usando el SAS/GRAPH Control for ActiveX, el cual lo conecta con gráficos interactivos en páginas web y documentos OLE.

Como usted puede ver, la sintaxis para PROC CHART y PROC GCHART es muy similar. Esta tarea le muestra ambos caminos para crear varios tipos de gráficos.

 Usted debe tener la licencia de SAS/GRAPH para crear gráficos usando PROC GCHART.

Método de Click-and-Point

Si usted tiene licenciado SAS/GRAPH, usted puede crear gráficos de presentación con calidad usando una interfaz point-and-click.

1. En SAS, click Solutions< Reporting< Graph-N-Go.

2. Click en el ícono New SAS Data Set o en New MDDB y seleccione los datos para el gráfico.

3. Haga clic en el ícono del gráfico que desee y colóquelo en el área de trabajo. Luego haga clic en el objeto del gráfico, seleccione los datos y especifique las variables y las opciones del gráfico..

Usted puede ver y salvar el código PROC GCHART que genera Graph-N-Gos.

Si usted tiene licenciado SAS/GRAPH y SAS/STAT, tambien puede crear gráficos ustando Analys Application

(31)

31

2. Cuando Analyst se abra, click File< Open by SAS Name para agregar datos al proyecto

3. Luego haga clic en Graphs< Bar Chart o Graphs< Pie Chart para crear un gráfico

Usted puede ver y salvar el código PROC GCHART que genera Analyst.

Siguiendo lo estipulado, se continuó con el método de autoexploración del software SAS. Ya que en este punto ya no era muy útil seguir el manual de SAS (que es bastante extenso) se decidió proseguir con regresiones simples, múltiples y series de tiempo. Con respecto a series de tiempo, aun no se ha completado la revisión de literatura puesto que es muy extensa e inclusive posee más de un capítulo dedicado a esto. A continuación se encuentra lo referente a Regresión (Declaración REG) y lo encontrado de series de tiempo (Declaración ARIMA

2.3.16. Regresión simple y múltiple

Considere una variable respuesta Y que puede ser predicha por una función polinomial de una variable regresiva X. Usted puede estimarB0, el intercepto B1, la pendiente debida a X y X2, la pendiente debida a X2 en:

Esto para las observaciones

Considere el siguiente ejemplo de las tendencias de crecimiento de la población. La población de USA desde 1970 a 2000 se ajusta a funciones de tiempo lineales y cuadráticas. Debe tener en cuenta que el término cuadrático YearSq es creado en el paso DATA, esto se debe hacer ya que los efectos polinómicos como Year*Year no pueden ser especificados en la declaración MODEL en PROC REG. Los datos son los siguientes: dataUSPopulation; inputPopulation @@; retainYear 1780; Year = Year+10; YearSq = Year*Year; Population = Population/1000; datalines; 3929 5308 7239 9638 12866 17069 23191 31443 39818 50155 62947 75994 91972 105710 122775 131669 151325 179323 203211 226542 248710 281422 ;

ods graphics on;

procreg data=USPopulation plots=ResidualByPredicted; varYearSq;

model Population=Year / r clm cli; run;

(32)

32

La opción de datos garantiza que el procedimiento utiliza el conjunto de datos deseado. Cualquier variable que se puede agregar al modelo pero que no está incluido en el primer modelo de declaración debe aparecer en la declaración VAR.

A continuación se muestra el análisis de varianza y los parámetros estimados:

El modelo estadístico F es significante (F=228.92, p<0.0001), indicando que el modelo da cuenta de una porción significativa de variación en los datos. El R cuadrado indica que el modelo representa el 92% de la variación en el crecimiento de la población. La ecuación que se ajusta al modelo es:

En la declaración MODEL, 3 opciones son específicas: R solicita un análisis residual para ser completado, CLI solicita límites de confianza del 95% para un valor individual, y CLM requiere estos límites para el valor esperado de la variable dependiente. Usted puede solicitar límites de 100(1-α) % con la opción ALPHA= en PROC REG o en la declaración MODEL.

La siguiente tabla muestra las “Estadísticas de salida”. El residuo, el valor estándar, y los ‘residuos estudentizados’ se muestran para cada observación. El residuo estudentizado es el residual dividido por su valor estándar. La magnitud de cada

(33)

33

residuo se muestra en un gráfico impreso. Los residuos estudentizados siguen una distribución T y pueden ser usados para identificar observaciones de salida o extremas. Los asteriscos (*) que se extienden más allá de las líneas de trazos indican que el residuo es más de 3 errores estándar desde 0. Muchas observaciones tienen residuos estudentizados que son absolutos y son más que 2, podrían indicar un modelo inadecuado. Cook’s D es una medida del cambio en los valores predichos a la supresión de esa observación desde el data set, por lo que se mide la influencia de la observación de los coeficientes de regresión estimados.

(34)

34

La siguiente tabla muestra las estadísticas residuales. Un acuerdo bastante estrecho entre la estadística PRESS y la Suma de Cuadrados Residuales indica que el MSE es una medida razonable de la exactitud predictiva del modelo ajustable (Neter, Wasserman, and Kutner 1990).

Las representaciones gráficas son de gran ayuda en la interpolar la información en la tabla de Estadística de Salida. Cuando usted habilita los gráficos ODS, el procedimiento REG produce un set por defecto de los gráficos de diagnóstico que son apropiados para el análisis solicitado.

(35)

35

Estos son los gráficos que se muestran:

 Las graficas residual y studentized residual versus el valor predicho muestra un patrón cuadrático.

 La grafica studentized versus leverage parece indicar que existen 2 puntos de datos alejados. Sin embargo, el gráfico de la distancia Cook’s D versus el numero de observaciones revela que estos 2 puntos están en los puntos finales de los años 1790 y 2000. Estos puntos se muestran con una aparente lejanía porque la salida del modelo lineal desde la línea por debajo del comportamiento cuadrático en los datos se muestran más fuertes en esos puntos finales.

 El gráfico del cuantil normal de los residuos y el histograma residual nos son consistentes con la asunción de los errores Gaussianos. Esto ocurre ya que como los propios residuos todavía contienen el comportamiento cuadrático, este no es capturado por el modelo lineal.

 El gráfico de la variable dependiente contra el valor predicho exhibe una forma cuadrática alrededor del grado 45 en la línea que representa un ajuste perfecto  El gráfico “Residual-Fit” (RF) consiste en un gráfico de cuantiles lado-a-lado de

los ajustes centrales y los residuos muestran que la dispersión en los residuales no es mejor que la dispersión de los ajustes centrado. Para modelos

(36)

36

inapropiados, la dispersión de los residuos es a menudo mejor que la dispersión del ajuste centrado. En este caso, el gráfico RF muestra que el modelo linear en efecto, captura la tendencia creciente de los datos, y por lo tanto cuenta con gran parte de la variación en la respuesta.

2.3.17. ARIMA

Introducción

ARIMA es referenciado normalmente como modelos BOX and Jenkins

La declaración ARIMA provee un set de herramientas para la identificación de modelos de series de tiempo univariadas, estimación de variables, pronósticos, por ultimo ofrece una gran flexibilidad en los tipos de modelos ARIMA y ARIMAX que pueden ser analizados.

El diseño de PROC ARIMA sigue muy de cerca la estrategia de Box-Jenkins para el modelamiento de series de tiempo con características para la identificación, estimación y chequeo de diagnósticos, y pasos de pronosticación del método Box-Jenkins

LAS 3 ETAPAS DEL MODELAMIENTO ARIMA

El análisis realizado por PROC ARIMA está dividido en 3 etapas, que corresponden a las etapas descritas en Box y Jenkins

1) En la etapa de Identificación, se utiliza la declaración IDENTIFY para especificar la serie respuesta e identificar el modelo candidato ARIMA para ello. La declaración IDENTIFY lee series de tiempo que son usadas en declaraciones después, posiblemente diferenciándolas y computando auto correlaciones, auto correlaciones inversas, auto correlaciones parciales y correlaciones cruzadas. Los test estacionarios pueden ser realizados para determinar si es necesario diferenciar es necesario. El análisis de la declaración de salida IDENTIFY usualmente sugiere uno o más modelos ARIMA que pueden ser ajustados. Las opciones le permiten activar test para la identificación estacionaria y tentativa de los ordenes ARIMA.

2) En la etapa de estimación y chequeo de diagnósticos, se usa la declaración ESTIMATE para el modelo ARIMA para ajustar la variable especificada en la declaración IDENTIFY y estima los parámetros de ese modelo. La declaración ESTIMATE también produce estadísticas de diagnóstico para ayudar a juzgar el modelo adecuado. Los test de significancia para parámetros estimados estima indica si algunos términos en el modelo pueden ser innecesarios. ayudaen la comparación deeste modelo paralos demás. Estadísticas de Goodness-of-fit ayuda en la comparando estos modelos con otros. Los tests de residuos de ruido blanco indican si las series de residuos contiene información adicional que puede ser usada por un modelo más complejo. La declaración OUTLIER provee otra herramienta muy útil para chequear si el modelo actualmente estimado tiene en cuenta todas las variaciones en las series. Si los tests de diagnóstico indica problemas con el modelo, puede tratar de implementar otro modelo y luego repetir las etapas de estimación y de chequeo de diagnósticos.

(37)

37

3) En la etapa de pronóstico, se usa la declaración FORECAST para pronosticar valores futuros de las series de tiempo y también para generar intervalos de confianza para estos pronósticos desde el modelo ARIMA producido por la declaración ESTIMATE.

Estas tres etapas son explicadas e ilustradas a través de un ejemplo extendido en las siguientes secciones.

ETAPA DE IDENTIFICACIÓN

Suponga que usted tiene una variable llamada SALES que quiere pronosticar. El siguiente ejemplo ilustra el modelamiento ARIMA y su pronosticación utilizando un data set simulado TEST que contiene una serie de tiempo SALES generada por el modelo ARIMA (1,1,1). La salida produce este ejemplo que está explicado en las próximas secciones. A continuación se muestra las series de SALES en la figura.

procsgplot data=test; scatter y=sales x=date; run;

USANDO LA DECLARACIÓN IDENTIFY

Primero debe especificar el data set de entrada en la declaración PROC ARIMA. Luego debe usar una declaración IDENTIFY para leer y analizar en las series SALES las propiedades de correlación. Para hacer esto se utilizan las siguientes declaraciones.

(38)

38

procarima data=test ;

identifyvar=sales nlag=24; run;

Estadística Descriptiva

La declaración IDENTIFY primero imprime estadísticas descriptivas para las series SALES. Esta parte de la declaración IDENTIFY muestra lo siguiente:

The ARIMA Procedure Name of Variable = sales Mean of Working Series 137.3662

Standard Deviation 17.36385 Number of Observations 100 Gráficos de funciones de Autocorrelación

La declaración IDENTIFY después produce un panel de gráficos usados para el análisis de auto-correlación y de tendencia. El panel contiene los siguientes gráficos:

 El gráfico de series de tiempo de las series de SALES

 El gráfico de muestra de la función de auto-correlación (ACF)

 El gráfico de muestra de la función inversa de autocorrelación (IACF)  El gráfico de la muestra de la función parcial de auto-correlación (PACF) Este análisis de correlación se muestra a continuación.

Estos gráficos de funciones de auto-correlación muestra el grado de correlación con los valores pasados de las series como una función de números de periodos en el pasado (que es el lag) en el que se calcula la correlación.

(39)

39

La opción NLAG= controla el numero de lags para los que se muestran las auto-correlaciones. Por defecto, las funciones de auto-correlación son graficadas para lag 24. Existe otra sección que habla de la función inversa de correlación: “TheInverseAutocorrelationFunction” en la página 234.

Para examinar estos gráficos, usted puede determinar si las series son estacionarias o no estacionarias. En este caso una inspección visual del gráfico de la función de auto-correlación indica que las series SALES no es estacionaria, desde que ACF decae muy despacio. Para un test más formal, use la opción STATIONARITY= (página 207). Test White Noise (Ruido Blanco)

La última parte de la declaración de salida IDENTIFY es el chequeo del ruido blanco. Esto es un test estadístico aproximado de las hipótesis que no son auto-correlacionadas en las series hasta un desfase dado y que son significativamente diferentes a 0. Si esto es verdad para todos los lags, entonces no hay información en las series para el modelo, y ningún modelo ARIMA se necesita para las series.

Las auto-correlaciones son chequeadas en grupos de 6, y el número de lagas chequeados dependen de la opción NLAG=. Esto se muestra en lo siguiente:

En este caso, la hipótesis de ruido blanco es rechazada de manera fuerte, donde se espera que las series no sean estacionarias. El valor p para el test de las primeras seis auto-correlaciones es impreso como <0.0001m, lo que quiere decir que el valor p es menor a 0.0001.

Desde que las series no son estacionarias, el siguiente paso es transformarlas a unas series estacionarias por diferenciación. Esto quiere decir que en lugar de modelar la serie SALES a sí mismo, se modela el cambio en SALES desde un periodo al siguiente. Para diferenciar las series SALES, use otra declaración IDENTIFY y especifique que la primera diferencia de SALES sea analizada, como se muestra en las siguientes declaraciones:

procarima data=test; identifyvar=sales(1); run;

(40)

40

La segunda declaración produce la misma información que la primera, pero con el cambio que en SALES va desde un periodo al otro, en lugar del total de SALES en cada periodo. Las estadísticas sumatorias de salida de esta declaración IDENTIFY se muestra a continuación. Note que el periodo de diferenciación se da como 1. Y una observación se pierde a través de la operación de diferenciación:

Los gráficos de auto-correlación se muestran a continuación.

El grado de auto-correlación decae rápidamente en este gráfico, indicando que el cambio en SALES es una serie de tiempo estacionaria.

(41)

41

EJEMPLOS DE ARIMA

PRIMER EJEMPLO: Modelo IMA simulado

Este ejemplo ilustra los resultados de un procedimiento ARIMA para un caso donde los modelos reales son conocidos. UN modelo de promedio móvil integrado se utiliza para esta ilustración.

Los siguientes DATA step generan una muestra pseudo-aleatoria de 100 periodos del procedimiento ARIMA(0.1.1); :

title1 'Simulated IMA (1, 1) Series'; data a; u1 = 0.9; a1 = 0; do i = -50 to 100; a = rannor( 32565 ); u = u1 + a - .8 * a1; if i > 0 then output; a1 = a; u1 = u; end; run;

El siguiente procedimiento de declaraciones ARIMA identifica y estima el modelo: /*-- Simulated IMA Model --*/

procarima data=a; identifyvar=u; run; identifyvar=u(1); run; estimate q=1 ; run; quit;

El gráfico de análisis de correlación de series de salida en la primera declaración se muestra a continuación. La salida muestra el comportamiento de la muestra de la función de auto-correlación cuando el proceso no es estacionario. Note que en este caso las auto-correlaciones estimadas no son muy altas, incluso en pequeños lags. La no estacionalidad es reflejada en un patrón de auto-correlaciones significativas que no declinan rápidamente con el lag creciente, no en el tamaño de las auto-correlaciones.

(42)

42

La segunda declaración de IDENTIFY diferencia las series. Los resultados se muestran a continuación. Esta salida muestra la auto correlación, su inversa y la funciones parciales de auto-correlación típicas del proceso MA(1)

(43)

43

La declaración ESTIMATE ajusta un modelo ARIMA (0,1,1) a los datos simulados. Note que en este caso, el parámetro estimado es razonablemente cercano a los valores usados para generar la base de datos simulada. ̂ ̂ ̂ . El gráfico de análisis de los residuos no muestra un modelo inadecuado (son los correspondientes a lo seguido de lo que aparece a continuación).

Los resultados de la declaración ESTIMATE son:

(44)

44

2.3.18. Datos Panel

El procedimiento PANEL analiza una clase de modelos lineales econométricos que comúnmente surgen cuando se combinan series de tiempo y datos transversales. Este tipo de datos agrupados en series de tiempo con datos transversales son normalmente referidos como DATOS PANEL. Ejemplos típicos de datos panel incluyen observaciones a través del tiempo en hogares, países, empresas comercio entre otras. Por ejemplo, en el caso del caso de los datos de las encuestas sobre los ingresos familiares, el panel se crea mediante una encuesta en varias ocasiones a los mismos hogares en diferentes períodos de tiempo (años).

Los modelos de datos panel pueden ser agrupados en diferentes categorías dependiendo de la estructura del término de error. El procedimiento PANEL utiliza las siguientes estructuras de error y los métodos correspondientes para analizar datos:

 Modelos de un camino y de dos caminos (one-way y two-way)  Modelos de Efectos Fijos y Efectos Aleatorios

 Modelos auto-regresivos  Modelos de media móvil

Un modelo de un-camino depende sólo de la sección transversal a la que pertenece la observación. El modelo de dos-caminos depende tanto de la sección transversal como del periodo de tiempo a la que pertenece la observación.

Los modelos son referidos como Modelos de efectos fijos si los efectos no son aleatorios o modelos de efectos aleatorios si son lo contrario.

Si los efectos son fijos, los modelos son esencialmente modelos de regresiones con variables Dummy que corresponden a los efectos específicos. Para modelos de efectos aleatorios, la estimación por mínimos cuadrados ordinarios es el mejor estimador lineal (OLS). Los modelos EA (efectos aleatorios) usan un enfoque de dos etapas. En la primera etapa, los componentes de varianza son calculados usando métodos descritos por Fuller y Batteste (1974), Wansbeek and Kapteyn (1984), Wallace and Hussain (1969), or Nerlove (1971). En la segunda etapa los componentes de varianza son usados para estandarizar los datos, y se realiza una regresión de mínimos cuadrados ordinarios (OLS).

Dos tipos de modelos en el procedimiento PANEL se acomodan en una estructura auto-regresiva: El método Parks estima un modelo auto-regresivo de primer orden con correlaciones contemporáneas, y el estimador panel dinámico estima un modelo auto-regresivo con variables dependientes retrasadas.

El método Da Silva estima un proceso de error de media móvil de la varianza del componente mixto. Los parámetros de regresión son estimados usando un estimador de últimos cuadrados de dos pasos genralizados (GLS)

PRIMER EJEMPLO: Analizano la demanda para bienes liquidos

En este ejemplo, las ecuaciones para bienes líquidos son estimadas. La función de demanda para los depósitos de demanda es estimada bajo tres estructuras de error