Estudia
- Grados
- Másteres universitarios
- Doctorado
- Títulos propios y formación continua
- Idiomas
- Extensión universitaria
- Programa para mayores PUMUO
- Movilidad
- Campus Virtual y OCW
- Calendario Académico
Análisis de Datos
- Clases Expositivas (37 Hours)
- Prácticas de Laboratorio (14 Hours)
- Prácticas de Aula/Semina (7 Hours)
- Tutorías Grupales (2 Hours)
Identificación de la asignatura
NOMBRE | Análisis de Datos | CÓDIGO | GMATEM01-4-006 | ||
TITULACIÓN | Grado en Matemáticas | CENTRO | Facultad de Ciencias | ||
TIPO | Optativa | Nº TOTAL DE CRÉDITOS | 6 ECTS | ||
PERIODO | Segundo Semestre | IDIOMA | Español | ||
COORDINADOR | TELÉFONO /EMAIL | UBICACIÓN | |||
Beatriz Sinova Fernández | sinovabeatriz@uniovi.es | Facultad de Ciencias | |||
PROFESORADO | TELÉFONO /EMAIL | UBICACIÓN | |||
Norberto Corral Blanco | 985 10 33 63 norbert@uniovi.es | Facultad de Ciencias | |||
Beatriz Sinova Fernández | sinovabeatriz@uniovi.es | Facultad de Ciencias |
El Análisis de Datos es una asignatura Optativa de 6 créditos ECTS que se imparte en el Grado de Matemáticas y forma parte del módulo Probabilidades y Estadística de dicho Grado. En ella se desarrollan algunas técnicas indispensables para el análisis multivariante de datos. La asignatura se desarrollada en torno a tres grandes clases de procedimientos: técnicas de reducción de datos, métodos de predicción y métodos de clasificación.
En cada tema se plantean los objetivos del método estadístico que se va a estudiar, se demuestran los resultados teóricos más importantes, que justifican la solución obtenida y se explica la utilidad práctica de estos resultados. Con estas demostraciones se pretende, así mismo, que los estudiantes se familiaricen con los conceptos abstractos y adquieran el hábito del razonamiento crítico, además de servirles cuando tengan que estudiar nuevos métodos o modelos, de manera autónoma.
Otro de los objetivos importantes de la asignatura es conseguir que los alumnos sepan plantear problemas reales en función de parámetros o hipótesis estadísticas y los resuelvan empleando los métodos estadísticos más adecuados y con la ayuda de algún programa informático como, por ejemplo, R.
En el primer bloque se presentan los métodos de reducción de la dimensión: Análisis de Componentes Principales, Análisis de Correspondencias y Análisis Factorial, que tienen como objetivo fundamental representar los datos originales multidimensionales en un espacio de dimensión reducida de manera que se conserve en la medida de lo posible la estructura inicial de los datos.
El segundo bloque se dedica a los métodos de predicción o clasificación supervisada, Análisis Discriminante, Árboles de Regresión, Árboles de Clasificación y Redes Neuronales. El objetivo de estos procedimientos es definir criterios o modelos para predecir el comportamiento de un individuo a partir de la información muestral recogida.
En el tercer bloque se estudian los métodos de clasificación o taxonomía numérica, cuyo objetivo es el de descubrir la existencia de subgrupos diferentes en una población global. Los procedimientos de clasificación que se van a estudiar son los algoritmos jerárquicos ascendentes y el método de las k-medias.
Se recomienda que el estudiante tenga aprobadas las asignaturas:
Cálculo Diferencial e Integral de primer curso
Álgebra Lineal y Geometría de primer curso
Probabilidades y Estadística de segundo curso
Inferencia Estadística de tercer curso
Las competencias que el alumno adquiere con este módulo son las siguientes:
CG1, CG2, CG3, CG4, CG5, CG6, CG7, CG8, CE1, CE2, CE3, CE4, CE5, CE6, CE7, CE8, CE9, CE10, CT1, CT2, CT3, CT4, CT5.
Estas competencias están asociadas a los siguientes resultados del aprendizaje:
Técnicas de Reducción de la dimensión.
Conocer los distintos tipos de Redes Neuronales.
Saber aplicar los métodos de reducción de la dimensión.
Conocer los criterios que permiten decidir cuántas dimensiones se deben elegir.
Saber interpretar el significado de las dimensiones.
Distinguir entre los objetivos del Análisis de Componentes Principales, Análisis de Correspondencias y Análisis Factorial.
Saber medir la calidad de la reconstrucción del espacio original en el subespacio de las nuevas variables.
Conocer cuándo se debe utilizar la matriz de covarianza o la matriz de correlaciones en el ACP.
2. Técnicas de Clasificación Supervisada.
Conocer el objetivo y planteamiento de los diferentes métodos de clasificación supervisada: Discriminante, Árboles de Regresión y Clasificación, Redes Neuronales.
Saber las diferencias entre los diferentes métodos de predicción, sus ventajas e inconvenientes.
Conocer cuándo se debe aplicar cada método
Conocer el problema del sobreajuste y cómo se puede resolver.
Conocer las diferentes técnicas de validación de los resultados.
Distinguir entre las alternativas paramétricas y no paramétricas del A. Discriminante.
Conocer los distintos tipos de Redes Neuronales.
3. Técnicas de Clasificación No Supervisada
Saber aplicar los métodos de análisis clúster.
Conocer las técnicas jerárquicas ascendentes.
Conocer las diferentes distancias entre individuos y entre grupos, sus ventajas e inconvenientes.
Saber abordar el problema de las unidades en el cálculo de las distancias.
4. Resultados del aprendizaje comunes
Saber combinar los diferentes métodos de análisis de datos.
Saber aplicar estos métodos para detectar las observaciones “anómalas” o “outliers”.
Saber expresar los objetivos de un problema real en términos estadísticos y que técnicas estadísticas son las más adecuadas para su resolución.
Manejar paquetes estadísticos para la resolución de problemas reales.
Elaboración de informes estadísticos.
Según la Memoria de verificación del Título de Grado, los contenidos de esta asignatura son los siguientes: Componentes principales, Análisis discriminante, Análisis de Correspondencias, Análisis Factorial, Análisis cluster, Árboles de clasificación y regresión, Redes neuronales, Utilización de paquetes estadísticos.
El desarrollo de estos contenidos se estructura en los siguientes temas:
Tema 1.- ANÁLISIS DE COMPONENTES PRINCIPALES
Introducción. Cálculo de las componentes principales. Elección del número de componentes. Correlaciones entre las variable originales y las componentes. Calidad de la reconstrucción de las variables iniciales. Interpretación del significado de las componentes.
Tema 2.- ANÁLISIS DE CORRESPONDENCIAS.
Introducción. Los puntos fila y los puntos columna. Elección de la distancia. Cálculo de las componentes. Reconstrucción de la tabla de contingencia. Interpretación de los resultados. El espacio conjunto de los puntos fila y los puntos columna.
Tema 3.- ANÁLISIS FACTORIAL
Introducción. El modelo factorial. El método del Factor Principal. El método de Máxima Verosimilitud. Elección del número de factores. Rotación de los factores. Cálculo de las puntuaciones factoriales.
Tema 4.- ANÁLISIS DISCRIMINANTE
Introducción. El método de máxima verosimilitud. El método Bayesiano. Factores discriminantes canónicos. Estimación de las probabilidades de error: Validación cruzada.
Tema 5.- ÁRBOLES DE DECISIÓN Y CLASIFICACIÓN
Introducción. Elementos de un árbol. Criterios de división o predicción: Chaid, Cart, métodos bayesianos. Criterios de parada. Criterios de poda. Criterios de validación.
Tema 6.- REDES NEURONALES
Introducción. Perceptrones monocapa y multicapa. Función de activación. Algoritmos de flujo de datos. Parámetros de entrenamiento para el aprendizaje supervisado. Validación. Comparación de redes.
Tema 7.- ANÁLISIS CLUSTER
Introducción. Distancias y similaridades. Métodos jerárquicos ascendentes. Criterios de agrupación: Centroide, Ward, K-vecinos más próximos, Salto mínimo; ventajas e inconvenientes.
Método de las k medias. Elección del número y centro de los grupos.
De acuerdo con las pautas que establece el EEES, la asignatura se desarrollará mediante actividades presenciales y trabajo autónomo del estudiante.
Las actividades presenciales son aquellas en las que estará presente el profesor. Se dividen en clases expositivas, prácticas de laboratorio, seminarios o prácticas de aula, tutorías grupales y sesiones de evaluación.
Clases expositivas (CE): En estas clases se presentan los contenidos teóricos de la materia junto con algunos ejemplos y ejercicios que aclaren los aspectos más importantes. Los alumnos dispondrán de los apuntes de cada tema. Se utiliza la pizarra y los diferentes medios audiovisuales.
Clases prácticas de laboratorio (PL): Se utilizarán los programas, de software libre, R de estadística y Octave de uso matemático general, para analizar datos, buscar modelos de predicción y clasificación
Prácticas de aula (PA): Dedicados la resolución de ejercicios teóricos y problemas relacionados con el análisis estadístico de datos experimentales. Se pretende que los estudiantes:
- refuercen las competencias relacionadas con el razonamiento abstracto.
- sepan expresar los objetivos de un problema en términos estadísticos, analizar los datos y obtener las conclusiones.
Tutorías grupales (TG): Están dirigidas a realizar un seguimiento individualizado del proceso de aprendizaje de los estudiantes, resolver sus dudas, afianzar sus conocimientos y comprobar su grado de adquisición de competencias y destrezas.
Sesiones de evaluación (SE): Se dedicarán exclusivamente a la realización de pruebas escritas con las que se pueda valorar de forma objetiva el nivel alcanzado por los estudiantes en la adquisición de las competencias previstas.
TRABAJO PRESENCIAL | TRABAJO NO PRESENCIAL | |||||||||
Horas | CE | PA | PL | TG | SE | Total | Total | |||
Tema 1 | 22 | 5 | 1 | 2 | 0 | 8 | 3 | 11 | 14 | |
Tema 2 | 20 | 4 | 1 | 2 | 0 | 7 | 3 | 10 | 13 | |
Tema 3 | 20 | 4 | 1 | 2 | 1 | 8 | 2 | 10 | 12 | |
Tema 4 | 21 | 5 | 1 | 2 | 0 | 8 | 3 | 10 | 13 | |
Tema 5 | 20 | 4 | 1 | 2 | 0 | 7 | 2 | 11 | 13 | |
Tema 6 | 20 | 4 | 1 | 2 | 0 | 7 | 3 | 10 | 13 | |
Tema 7 | 21 | 5 | 1 | 2 | 1 | 9 | 2 | 10 | 12 | |
Presentación Trabajo | 2 | 2 | 2 | |||||||
Examen Final | 4 | 4 | 4 | |||||||
Total | 150 | 33 | 7 | 14 | 2 | 4 | 60 | 18 | 72 | 90 |
MODALIDADES | Horas | % | Totales | ||
Presencial | Clases Expositivas | 33 | 55 | 60 | |
Práctica de aula / Seminarios / Talleres | 7 | 11,7 | |||
Prácticas de laboratorio / campo / aula de informática / aula de idiomas | 14 | 23 | |||
Tutorías grupales | 2 | 3,3 | |||
Sesiones de evaluación | 4 | 6,7 | |||
No presencial | Trabajo en Grupo | 20 | 22,2 | 90 | |
Trabajo Individual | 70 | 77,8 | |||
Total | 150 |
Las competencias asociadas a esta asignatura se evalúan de la siguiente manera:
Aspectos | % | Competencias |
Examen | 50% | CG1, CG2, CG3, CG4, CG6, CG7, CG8. CE1, CE2, CE3, CE4, CE5, CE6, CE7, CE8, CE9, CE10. CT1, CT2, CT5. |
Realización y exposición de trabajos | 35% | CG1, CG2, CG3, CG4, CG5, CG6, CG7, CG8. CE1, CE6, CE7, CE8, CE9, CE10. CT1, CT2, CT3, CT4, CT5. |
Participaciónen actividades presenciales | 15% | CG1, CG2, CG3, CG4, CG6, CG7, CG8. CT1, CT2, CT3, CT4,CT5 CE1, CE2, CE3, CE5, CE6, CE7, CE8, CE9, CE10. |
El sistema de evaluación se basará en los siguientes elementos:
La evaluación continua representa un 50 % de la puntuación final. Para su calificación se tendrán en cuenta los siguientes elementos:
Asistencia y participación en las clases (PL y TG) y resolución de los ejercicios propuestos (15 % de la puntuación final).
Trabajos individuales o en grupo y presentación en la clase (35 % de la puntuación final).
El restante 50 % de la puntuación final se obtendrá en el examen final escrito. Los exámenes serán pruebas escritas en la que se valorarán las competencias adquiridas por el estudiante analizando los resultados del aprendizaje a través de la resolución ejercicios de carácter teórico y práctico.
La puntuación final de la asignatura se calculará de la siguiente manera:
Puntuación Final= 0.5 * EC + 0.5 * F si F>= 2.5
Puntuación Final= min( 0.5 * EC + 0.5 * F ; 4.5) si F<2.5
donde F y EC se corresponden con la nota del examen final y evaluación continua, respectivamente. Todas ellas están calculadas sobre diez puntos.
En la convocatoria extraordinaria del segundo semestre, cada estudiante podrá optar por mantener la puntuación obtenida en la parte de evaluación continua o realizar las tareas de recuperación que se le propongan de manera individualizada. Estas tareas podrán ser de los siguientes tipos :
Acudir a dos tutorías en el periodo entre exámenes finales y extraordinarios de junio, en fechas que fijarán los profesores de la asignatura, y realizar las tareas que se le propongan.
Resolución de una lista de problemas que deberán entregarse en una fecha acordada con los profesores de la asignatura.
Un trabajo individual o en grupo, elaboración de un informe y presentación pública.
Los alumnos con dedicación a tiempo parcial, semipresencial o no presencial, asi como los estudiantes repetidores de la asignatura que se encuentren en estancias Erasmus, Séneca, etc. deberán decidir al inicio de curso si se acogen al sistema de evaluación continua o a una prueba única.
En el primer caso las entregas de ejercicios, tutorías grupales o prácticas de laboratorios se ajustarán a sus necesidades, pudiéndose sustituir por tutorías o actividades “on-line” y tutorías individualizadas. Para la elaboración del trabajo se buscará una distribución de tareas y plazos de entrega que les permita adquirir adecuadamente las competencias asociadas con este tipo de actividades. La puntuación final se calcula con la fórmula previamente descrita.
Cuando un estudiante opte por la evaluación diferenciada o la convocatoria extraordinaria de enero, deberá realizar un trabajo individual y el examen final. La puntuación final de la asignatura se calculará de la siguiente forma:
Puntuación Final= 0.8 * Nota Examen Final + 0.2 * Nota Trabajo
Todas ellas calculadas sobre diez puntos.
Recursos, bibliografía y documentación complementaria.
Bibliografía
Bibliografía básica | ||||
Título | Autor | Editorial | Edición | |
Análisis Multivariante | Peña, Daniel | Alianza | ||
Pattern Recognition and Neural Networks | Ripley B. D. | Cambridge University Press | ||
Bibliografía complementaria | ||||
Título | Autor | Editorial | Edición | |
Multivariate Analysis | Mardia, Kent, Bibby | Academic Press | ||
Multivariate Observations | Seber, G. | Wiley | ||
Tratamiento Estadístico de Datos | Lebart, Morineau, Fenelon | Marcombo | ||
Neural Networks for Pattern Recognition | Bishop, C. | Oxford University Press |