template-browser-not-supported

Grado en Matemáticas

Back Back

Análisis de Datos

Código asignatura
GMATEM01-4-006
Curso
Cuarto
Temporalidad
Anual
Carácter
Optativa
Créditos
6
Pertenece al itinerario Bilingüe
No
Actividades
  • Clases Expositivas (37 Hours)
  • Prácticas de Laboratorio (14 Hours)
  • Prácticas de Aula/Semina (7 Hours)
  • Tutorías Grupales (2 Hours)
Guía docente
  1. Identificación de la asignatura

NOMBRE

Análisis de Datos

CÓDIGO

GMATEM01-4-006

TITULACIÓN

Grado en Matemáticas

CENTRO

Facultad de Ciencias

TIPO

Optativa

Nº TOTAL DE CRÉDITOS

6 ECTS

PERIODO

Segundo Semestre

IDIOMA

Español

COORDINADOR

TELÉFONO /EMAIL

UBICACIÓN

Beatriz Sinova Fernández

sinovabeatriz@uniovi.es

Facultad de Ciencias

PROFESORADO

TELÉFONO /EMAIL

UBICACIÓN

Norberto Corral Blanco

985 10 33 63

norbert@uniovi.es

Facultad de Ciencias

Beatriz Sinova Fernández

sinovabeatriz@uniovi.es

Facultad de Ciencias

El Análisis de Datos es una asignatura Optativa de 6 créditos ECTS que se imparte en el Grado de Matemáticas y forma parte del módulo Probabilidades y Estadística de dicho Grado. En ella se desarrollan algunas técnicas indispensables para el análisis multivariante de datos. La asignatura se desarrollada en torno a tres grandes clases de procedimientos: técnicas de reducción de datos, métodos de predicción y métodos de clasificación.

En cada tema se plantean los objetivos del método estadístico que se va a estudiar, se demuestran los resultados teóricos más importantes, que justifican la solución obtenida y se explica la utilidad práctica de estos resultados. Con estas demostraciones se pretende, así mismo, que los estudiantes se familiaricen con los conceptos abstractos y adquieran el hábito del razonamiento crítico, además de servirles cuando tengan que estudiar nuevos métodos o modelos, de manera autónoma.

Otro de los objetivos importantes de la asignatura es conseguir que los alumnos sepan plantear problemas reales en función de parámetros o hipótesis estadísticas y los resuelvan empleando los métodos estadísticos más adecuados y con la ayuda de algún programa informático como, por ejemplo, R.

En el primer bloque se presentan los métodos de reducción de la dimensión: Análisis de Componentes Principales, Análisis de Correspondencias y Análisis Factorial, que tienen como objetivo fundamental representar los datos originales multidimensionales en un espacio de dimensión reducida de manera que se conserve en la medida de lo posible la estructura inicial de los datos.

El segundo bloque se dedica a los métodos de predicción o clasificación supervisada, Análisis Discriminante, Árboles de Regresión, Árboles de Clasificación y Redes Neuronales. El objetivo de estos procedimientos es definir criterios o modelos para predecir el comportamiento de un individuo a partir de la información muestral recogida.

En el tercer bloque se estudian los métodos de clasificación o taxonomía numérica, cuyo objetivo es el de descubrir la existencia de subgrupos diferentes en una población global. Los procedimientos de clasificación que se van a estudiar son los algoritmos jerárquicos ascendentes y el método de las k-medias.

Se recomienda que el estudiante tenga aprobadas las asignaturas:

Cálculo Diferencial e Integral de primer curso

Álgebra Lineal y Geometría de primer curso

Probabilidades y Estadística de segundo curso

Inferencia Estadística de tercer curso

Las competencias que el alumno adquiere con este módulo son las siguientes:

CG1, CG2, CG3, CG4, CG5, CG6, CG7, CG8, CE1, CE2, CE3, CE4, CE5, CE6, CE7, CE8, CE9, CE10, CT1, CT2, CT3, CT4, CT5.

Estas competencias están asociadas a los siguientes resultados del aprendizaje:

  1. Técnicas de Reducción de la dimensión.

  • Conocer los distintos tipos de Redes Neuronales.

  • Saber aplicar los métodos de reducción de la dimensión.

  • Conocer los criterios que permiten decidir cuántas dimensiones se deben elegir.

  • Saber interpretar el significado de las dimensiones.

  • Distinguir entre los objetivos del Análisis de Componentes Principales, Análisis de Correspondencias y Análisis Factorial.

  • Saber medir la calidad de la reconstrucción del espacio original en el subespacio de las nuevas variables.

  • Conocer cuándo se debe utilizar la matriz de covarianza o la matriz de correlaciones en el ACP.

2. Técnicas de Clasificación Supervisada.

  • Conocer el objetivo y planteamiento de los diferentes métodos de clasificación supervisada: Discriminante, Árboles de Regresión y Clasificación, Redes Neuronales.

  • Saber las diferencias entre los diferentes métodos de predicción, sus ventajas e inconvenientes.

  • Conocer cuándo se debe aplicar cada método

  • Conocer el problema del sobreajuste y cómo se puede resolver.

  • Conocer las diferentes técnicas de validación de los resultados.

  • Distinguir entre las alternativas paramétricas y no paramétricas del A. Discriminante.

  • Conocer los distintos tipos de Redes Neuronales.

3. Técnicas de Clasificación No Supervisada

  • Saber aplicar los métodos de análisis clúster.

  • Conocer las técnicas jerárquicas ascendentes.

  • Conocer las diferentes distancias entre individuos y entre grupos, sus ventajas e inconvenientes.

  • Saber abordar el problema de las unidades en el cálculo de las distancias.

4. Resultados del aprendizaje comunes

  • Saber combinar los diferentes métodos de análisis de datos.

  • Saber aplicar estos métodos para detectar las observaciones “anómalas” o “outliers”.

  • Saber expresar los objetivos de un problema real en términos estadísticos y que técnicas estadísticas son las más adecuadas para su resolución.

  • Manejar paquetes estadísticos para la resolución de problemas reales.

  • Elaboración de informes estadísticos.

Según la Memoria de verificación del Título de Grado, los contenidos de esta asignatura son los siguientes: Componentes principales, Análisis discriminante, Análisis de Correspondencias, Análisis Factorial, Análisis cluster, Árboles de clasificación y regresión, Redes neuronales, Utilización de paquetes estadísticos.



El desarrollo de estos contenidos se estructura en los siguientes temas:

Tema 1.- ANÁLISIS DE COMPONENTES PRINCIPALES

Introducción. Cálculo de las componentes principales. Elección del número de componentes. Correlaciones entre las variable originales y las componentes. Calidad de la reconstrucción de las variables iniciales. Interpretación del significado de las componentes.

Tema 2.- ANÁLISIS DE CORRESPONDENCIAS.

Introducción. Los puntos fila y los puntos columna. Elección de la distancia. Cálculo de las componentes. Reconstrucción de la tabla de contingencia. Interpretación de los resultados. El espacio conjunto de los puntos fila y los puntos columna.

Tema 3.- ANÁLISIS FACTORIAL

Introducción. El modelo factorial. El método del Factor Principal. El método de Máxima Verosimilitud. Elección del número de factores. Rotación de los factores. Cálculo de las puntuaciones factoriales.

Tema 4.- ANÁLISIS DISCRIMINANTE

Introducción. El método de máxima verosimilitud. El método Bayesiano. Factores discriminantes canónicos. Estimación de las probabilidades de error: Validación cruzada.

Tema 5.- ÁRBOLES DE DECISIÓN Y CLASIFICACIÓN

Introducción. Elementos de un árbol. Criterios de división o predicción: Chaid, Cart, métodos bayesianos. Criterios de parada. Criterios de poda. Criterios de validación.

Tema 6.- REDES NEURONALES

Introducción. Perceptrones monocapa y multicapa. Función de activación. Algoritmos de flujo de datos. Parámetros de entrenamiento para el aprendizaje supervisado. Validación. Comparación de redes.

Tema 7.- ANÁLISIS CLUSTER

Introducción. Distancias y similaridades. Métodos jerárquicos ascendentes. Criterios de agrupación: Centroide, Ward, K-vecinos más próximos, Salto mínimo; ventajas e inconvenientes.

Método de las k medias. Elección del número y centro de los grupos.

De acuerdo con las pautas que establece el EEES, la asignatura se desarrollará mediante actividades presenciales y trabajo autónomo del estudiante.

Las actividades presenciales son aquellas en las que estará presente el profesor. Se dividen en clases expositivas, prácticas de laboratorio, seminarios o prácticas de aula, tutorías grupales y sesiones de evaluación.

  • Clases expositivas (CE): En estas clases se presentan los contenidos teóricos de la materia junto con algunos ejemplos y ejercicios que aclaren los aspectos más importantes. Los alumnos dispondrán de los apuntes de cada tema. Se utiliza la pizarra y los diferentes medios audiovisuales.

  • Clases prácticas de laboratorio (PL): Se utilizarán los programas, de software libre, R de estadística y Octave de uso matemático general, para analizar datos, buscar modelos de predicción y clasificación

  • Prácticas de aula (PA): Dedicados la resolución de ejercicios teóricos y problemas relacionados con el análisis estadístico de datos experimentales. Se pretende que los estudiantes:

    • refuercen las competencias relacionadas con el razonamiento abstracto.
    • sepan expresar los objetivos de un problema en términos estadísticos, analizar los datos y obtener las conclusiones.
  • Tutorías grupales (TG): Están dirigidas a realizar un seguimiento individualizado del proceso de aprendizaje de los estudiantes, resolver sus dudas, afianzar sus conocimientos y comprobar su grado de adquisición de competencias y destrezas.

  • Sesiones de evaluación (SE): Se dedicarán exclusivamente a la realización de pruebas escritas con las que se pueda valorar de forma objetiva el nivel alcanzado por los estudiantes en la adquisición de las competencias previstas.

TRABAJO PRESENCIAL

TRABAJO NO

PRESENCIAL

Horas

CE

PA

PL

TG

SE

Total

Total

Tema 1

22

5

1

2

0

8

3

11

14

Tema 2

20

4

1

2

0

7

3

10

13

Tema 3

20

4

1

2

1

8

2

10

12

Tema 4

21

5

1

2

0

8

3

10

13

Tema 5

20

4

1

2

0

7

2

11

13

Tema 6

20

4

1

2

0

7

3

10

13

Tema 7

21

5

1

2

1

9

2

10

12

Presentación Trabajo

2

2

2

Examen Final

4

4

4

Total

150

33

7

14

2

4

60

18

72

90

    MODALIDADES

    Horas

    %

    Totales

    Presencial

    Clases Expositivas

    33

    55

    60

    Práctica de aula / Seminarios / Talleres

    7

    11,7

    Prácticas de laboratorio / campo / aula de informática / aula de idiomas

    14

    23

    Tutorías grupales

    2

    3,3

    Sesiones de evaluación

    4

    6,7

    No presencial

    Trabajo en Grupo

    20

    22,2

    90

    Trabajo Individual

    70

    77,8

    Total

    150

    Las competencias asociadas a esta asignatura se evalúan de la siguiente manera:

    Aspectos

    %

    Competencias

    Examen

    50%

    CG1, CG2, CG3, CG4, CG6, CG7, CG8.

    CE1, CE2, CE3, CE4, CE5, CE6, CE7, CE8, CE9, CE10. CT1, CT2, CT5.

    Realización y exposición de trabajos

    35%

    CG1, CG2, CG3, CG4, CG5, CG6, CG7, CG8.

    CE1, CE6, CE7, CE8, CE9, CE10.

    CT1, CT2, CT3, CT4, CT5.

    Participaciónen actividades presenciales

    15%

    CG1, CG2, CG3, CG4, CG6, CG7, CG8.

    CT1, CT2, CT3, CT4,CT5

    CE1, CE2, CE3, CE5, CE6, CE7, CE8, CE9, CE10.

    El sistema de evaluación se basará en los siguientes elementos:

    La evaluación continua representa un 50 % de la puntuación final. Para su calificación se tendrán en cuenta los siguientes elementos:

    • Asistencia y participación en las clases (PL y TG) y resolución de los ejercicios propuestos (15 % de la puntuación final).

    • Trabajos individuales o en grupo y presentación en la clase (35 % de la puntuación final).

    El restante 50 % de la puntuación final se obtendrá en el examen final escrito. Los exámenes serán pruebas escritas en la que se valorarán las competencias adquiridas por el estudiante analizando los resultados del aprendizaje a través de la resolución ejercicios de carácter teórico y práctico.

    La puntuación final de la asignatura se calculará de la siguiente manera:

    Puntuación Final= 0.5 * EC + 0.5 * F si F>= 2.5

    Puntuación Final= min( 0.5 * EC + 0.5 * F ; 4.5) si F<2.5

    donde F y EC se corresponden con la nota del examen final y evaluación continua, respectivamente. Todas ellas están calculadas sobre diez puntos.

    En la convocatoria extraordinaria del segundo semestre, cada estudiante podrá optar por mantener la puntuación obtenida en la parte de evaluación continua o realizar las tareas de recuperación que se le propongan de manera individualizada. Estas tareas podrán ser de los siguientes tipos :

    • Acudir a dos tutorías en el periodo entre exámenes finales y extraordinarios de junio, en fechas que fijarán los profesores de la asignatura, y realizar las tareas que se le propongan.

    • Resolución de una lista de problemas que deberán entregarse en una fecha acordada con los profesores de la asignatura.

    • Un trabajo individual o en grupo, elaboración de un informe y presentación pública.

    Los alumnos con dedicación a tiempo parcial, semipresencial o no presencial, asi como los estudiantes repetidores de la asignatura que se encuentren en estancias Erasmus, Séneca, etc. deberán decidir al inicio de curso si se acogen al sistema de evaluación continua o a una prueba única.

    En el primer caso las entregas de ejercicios, tutorías grupales o prácticas de laboratorios se ajustarán a sus necesidades, pudiéndose sustituir por tutorías o actividades “on-line” y tutorías individualizadas. Para la elaboración del trabajo se buscará una distribución de tareas y plazos de entrega que les permita adquirir adecuadamente las competencias asociadas con este tipo de actividades. La puntuación final se calcula con la fórmula previamente descrita.

    Cuando un estudiante opte por la evaluación diferenciada o la convocatoria extraordinaria de enero, deberá realizar un trabajo individual y el examen final. La puntuación final de la asignatura se calculará de la siguiente forma:

    Puntuación Final= 0.8 * Nota Examen Final + 0.2 * Nota  Trabajo 

    Todas ellas calculadas sobre diez puntos.

    1. Recursos, bibliografía y documentación complementaria.

    Bibliografía

    Bibliografía básica

    Título

    Autor

    Editorial

    Edición

    Análisis Multivariante

    Peña, Daniel

    Alianza

    Pattern Recognition and Neural Networks

    Ripley B. D.

    Cambridge University Press

    Bibliografía complementaria

    Título

    Autor

    Editorial

    Edición

    Multivariate Analysis

    Mardia, Kent, Bibby

    Academic Press

    Multivariate Observations

    Seber, G.

    Wiley

    Tratamiento Estadístico de Datos

    Lebart, Morineau, Fenelon

    Marcombo

    Neural Networks for Pattern Recognition

    Bishop, C.

    Oxford University Press