template-browser-not-supported

Grado en Ciencia e Ingeniería de Datos

Back Back

Procesamiento de Datos Masivos

Código asignatura
GCINGD01-3-002
Curso
Tercero
Temporalidad
Segundo Semestre
Carácter
Obligatoria
Créditos
6
Pertenece al itinerario Bilingüe
No
Actividades
  • Clases Expositivas (16 Hours)
  • Docencia On Line (30 Hours)
  • Prácticas de Laboratorio (14 Hours)
Guía docente

La asignatura de Procesamiento de Datos Masivos (PDM) se enmarca dentro de la materia de Almacenamiento y Transmisión de Datos, que se corresponde con la planificación de enseñanzas de la titulación del Grado en Ciencia e Ingeniería de Datos de la Universidad de Oviedo. Esta es una asignatura obligatoria que es impartida por profesorado del Departamento de Informática en el tercer curso, durante el segundo semestre del Grado.

La asignatura proporciona a los estudiantes los conocimientos generales de las bases de datos orientadas a almacenar datos masivos y de las tecnologías destinadas para su procesamiento. En concreto, se abordarán los paradigmas de bases de datos NoSQL y NewSQL, así como el procesamiento masivo de datos en clústeres de computadores.

Se recomienda que el estudiante que curse esta asignatura disponga de conocimientos y destrezas adquiridas en Metodología de la Programación, Bases de datos, Programación Avanzada y Infraestructura Informática y de Red.

Competencias generales

CG01 – Elegir y aplicar los métodos y técnicas más adecuados para analizar y resolver problemas definidos por datos que representen un reto por su volumen, velocidad, variedad o heterogeneidad, incluidos métodos informáticos, matemáticos, estadísticos y de procesado de la señal.

CG02 – Tener las habilidades experimentales y analíticas para trabajar con autonomía siendo capaz de plantear experimentos y de describir, analizar, evaluar e interpretar la información resultante para proponer soluciones alternativas y novedosas frente a problemas conocidos y/o emergentes.

CG03 – Crear modelos y tomar decisiones basadas en los datos disponibles combinando los conocimientos adquiridos y siendo capaz de aplicar otros nuevos para la resolución de problemas.

CG04 – Capacidad de integrarse en un equipo multidisciplinar en el marco de un proyecto de ciencia de datos.

CG9 – Capacidad para expresar de los resultados del procesamiento de datos de manera clara y convincente tanto por escrito como oralmente.

Competencias básicas

CB03 – Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión sobre temas relevantes de índice social, científica o ética.

CB04 – Que los estudiantes puedan transmitir información, ideas, problemas y soluciones a un público tanto especializado como no especializado.

Competencias específicas

CE05 – Comprender la arquitectura de los computadores e identificar y evaluar las prestaciones y la escalabilidad de los sistemas informáticos que se utilizan para el procesamiento de grandes volúmenes de datos.

CE06 – Conocer las características y funcionalidad de los sistemas de gestión de bases de datos, en particular, aquellos que sean más adecuados para la gestión de grandes volúmenes de datos, con objeto de poder aplicar dichos conocimientos en la construcción de sistemas inteligentes.

CE09 – Construcción de sistemas de aprendizaje automático utilizando técnicas básicas y avanzadas, para construir sistemas inteligentes a partir de conjuntos de datos.

Resultados de aprendizaje

RBAS3 – Conocer los conceptos básicos de los diferentes modelos y tecnologías de bases de datos no relaciones (documenta, familia de columnas, grafos, etc.).

RBAS4 - Utilizar los lenguajes correspondientes (SQL, CQL, APIs, etc.) para actualizar y extraer información de bases de datos desde aplicaciones.

RINF5 – Conocer y utilizar sistemas para el procesamiento masivo de datos.

RINF7 - Conocer, seleccionar y utilizar componentes en la nube para el procesamiento y almacenamiento de datos.

RPPROC1 – Conocer, seleccionar y utilizar sistemas de cloud computing y servidores de big data, así como el diseño de servicios.

RPPROC2 – Manejar bases de datos NoSQL en la nube.

RPPROC4 – Aplicar las técnicas de modelado y preprocesamiento de datos para modelar y resolver problemas reales o académicos de big data.

RPPROC5 – Conocer las principales herramientas software existentes para el manejo de información en la nube y la tecnología big data: HIVE, PIG, etc.

La asignatura se divide en los siguientes contenidos teóricos y prácticos:

Teóricos:

Tema 1: Introducción a Big Data y Cloud Computing 

Tema 2: Bases de datos NoSQL: documentales, clave/valor, columnas y grafos

Tema 3: Bases de datos NewSQL

Tema 4: Transacciones en bases de datos masivas

Tema 5: Procesamiento Big Data en batch

Tema 6: Procesamiento Big Data en memoria

Tema 7: Procesamiento Big Data en streaming

Tema 8: Ecosistemas Big Data

Prácticas:

Práctica 1: Modelado y gestión de bases de datos masivos

Práctica 2: Creación y gestión de transacciones

Práctica 3: Diseño, desarrollo y despliegue de aplicaciones Big Data

TRABAJO PRESENCIAL

TRABAJO NO PRENSENCIAL

Temas

Horas totales

Clase Expositiva

Prácticas de laboratorio/Campo/Aula de Informática/Aula de idiomas

Sesiones de Evaluación

Total

Clase Expositiva (on-line)

Prácticas de laboratorio (on-line)

Trabajo autónomo

Total

Tema 1

4

1

1

1

2

3

Tema 2

19

3

3

4

12

16

Tema 3

6

1

1

1

4

5

Tema 4

 8

2

2

2

4

6

Tema 5

12

2

2

2

8

10

Tema 6

14

3

3

3

8

11

Tema 7

6

1

1

1

4

5

Tema 8

6

1

1

1

4

5

Práctica 1

20

4

4

4

12

16

Práctica 2

20

4

4

4

12

16

Práctica 3

33

6

6

7

20

27

Exámenes

2

2

2

Total

150

14

14

2

30

15

15

90

120

El resumen por modalidades de trabajo se muestra a continuación:

MODALIDADES

Horas

Totales

Presencial

Clase Expositiva

14

30

Prácticas de laboratorio

14

Sesiones de evaluación

2

No presencial

Clase Expositiva (on-line)

15

120

Prácticas de laboratorio (on-line)

15

Trabajo Individual

90

Total

150

Convocatoria ordinaria

Esta evaluación constará de varias partes con los siguientes pesos:

Parte 1: Exámenes de carácter teórico 45%

Parte 2: Memorias e informes de prácticas 40%

Parte 3: Actividades del Campus Virtual 10%

Parte 4: Asistencia / participación en seminarios y tutorías (incluye online) 5%

Se deben de alcanzar un mínimo de 4 puntos (sobre 10 puntos) tanto en la Parte 1 como en la Parte 2 para poder superar la asignatura en la convocatoria ordinaria.

Para poder aprobar la asignatura en la convocatoria ordinaria, la calificación final tras realizar la media ponderada de las cuatro partes debe ser de al menos 5 puntos sobre 10 puntos.

En el caso en que no se alcancen 4 puntos sobre 10 puntos en la Parte 1 o no se alcancen 4 puntos sobre 10 puntos en la Parte 2, la nota final de la asignatura se obtendrá como el mínimo entre 4 puntos sobre 10 y la oportuna nota media ponderada de las cuatro partes.

Las actividades evaluables no realizadas por el alumno entrarán a contabilizar en el cómputo de la nota correspondiente con un cero. No obstante, si el peso total de estas actividades supone más del 50% de la nota total, la calificación final será “no presentado”.

Parte 1

La parte 1 se compone de un examen escrito consistente en un conjunto de preguntas y/o ejercicios realizados en la convocatoria oficial.

Parte 2

La evaluación ordinaria de la parte 2 se realizará mediante evaluación continua. Para ello, se realizarán varias actividades evaluables por parte del alumnado de los que deberá entregar una memoria o informe de los resultados obtenidos.

El profesor puede solicitar una prueba de autoría de las prácticas.

Parte 3

La nota de este apartado se obtendrá mediante la realización de cuestionarios online o actividades equivalentes.

Parte 4

Para conseguir puntuación en la Parte 4 es requisito imprescindible acudir al menos a un 80% de las sesiones prácticas.

Convocatorias extraordinarias (Junio / Enero)

Esta evaluación constará de dos partes, teoría y práctica, con los siguientes pesos:

Parte 1: Exámenes de carácter teórico 50%

Parte 2:  Memorias e informes de prácticas 50%

Como calificación de la parte 1 se utilizará la obtenida en la parte 1 de la convocatoria ordinaria del curso académico correspondiente siempre que se haya obtenido al menos 5 puntos sobre 10; en caso contrario la parte 1 de la convocatoria extraordinaria se evaluará mediante un examen escrito.

Como calificación de la parte 2 se utilizará la obtenida en la parte 2 de la convocatoria ordinaria del curso académico correspondiente siempre que se haya obtenido al menos 5 puntos sobre 10. En caso contrario esta parte 2 de la convocatoria extraordinaria se evaluará mediante un trabajo individual que el alumno deberá solicitar al profesor de su grupo de prácticas de laboratorio después del cierre de actas de la anterior convocatoria en el caso de la convocatoria extraordinaria de Junio; o al comienzo del primer semestre en el caso de la convocatoria extraordinaria de Enero. El profesor puede solicitar una prueba de autoría de las prácticas.

Se requiere obtener al menos 5 puntos sobre 10 en cada una de las partes. De no superarse este requisito la calificación será el promedio de estas calificaciones con un máximo de cuatro puntos.

Evaluación diferenciada

Se rige por las mismas directrices con la evaluación en Convocatoria extraordinaria (Junio/Enero). En la convocatoria ordinaria el alumno deberá solicitar el trabajo a realizar para la Parte 2 tras el inicio del segundo semestre.

  • Chodorow, K. (2011). Scaling MongoDB: Sharding, Cluster Setup, and Administration. " O'Reilly Media, Inc.".
  • Cielen, D., Meysman, A. D., Ali, M. (2016). Introducing data science: big data, machine learning, and more, using Python tools. Manning Publications Co.,
  • De Mauro, A., Greco, M., & Grimaldi, M. (2016). A formal definition of Big Data based on its essential features. Library Review.
  • Dumbill, E. (2013). Making sense of big data.
  • Nayak, A. (2014). MongoDB cookbook. Packt Publishing Ltd.
  • Sadalage,P. Fowler, M. (2009). NoSQL distilled: a brief guide to the emerging world of polyglot persistence. Addison-Wesley.