Procesamiento de Grandes Volúmenes de Datos

Información Básica

  • Créditos: 3
  • Horas de trabajo acompañado: 5 / semana (3 horas clase, 2 horas taller)
  • Horas de trabajo independiente: 4 / semana
  • Pre-requisitos: Programación Paralela, Gestión y Modelado de Datos
  • Tipo de curso: Énfasis

Descripción del Curso

Las tecnologías tradicionales de bases de datos no son adecuadas para el almacenamiento, procesamiento y análisis de datos en grandes volúmenes y complejidad. En este curso se estudian las tecnologías que soportan el almacenamiento y procesamiento a gran escala de datos provenientes de diversas fuentes de información. Se estudiarán los pasos del proceso para abordar problemas en Big-Data, y las tecnologías que soportan dicho proceso.

Objetivos

Al finalizar el curso los participantes podrán:

  1. Describir el contexto y las características del Big-Data y dar ejemplos de problemas en dicho contexto.
  2. Identificar los conceptos fundamentales de Big Data y Ciencia de Datos.
  3. Evaluar las implicaciones sociales de la aplicación del análisis de datos de diversas fuentes y a gran escala.
  4. Aplicar estrategias y el proceso de la ciencia de datos para dar solución a problemas de Big-Data.
  5. Usar los modelos de procesamiento, técnicas de almacenamiento y plataformas de procesamiento que se estudian en el curso para implementar soluciones básicas a problemas de Big-Data.
  6. Describir la importancia de los métodos de análisis de datos y los casos en los cuales se aplican. Utilizar estos métodos para resolver problemas sencillos.
  7. Explicar las ventajas de usar diversas técnicas de visualización de grandes volúmenes de datos, aplicándolas según el problema que se está analizando.

Se desarrollan competencias en

  1. Map Reduce (básico)
  2. Cloud Data Flow (básico)
  3. Hadoop (básico)
  4. Apache Spark (básico)

Contenido

Capítulo 1: Introducción al Big Data

Sesión Horas teóricas Prácticas acompañadas Temas Profundidad Bibliografía
1 2 Conceptos básicos: La ciencia de datos (Data Science), las V's, las fuentes de datos Familiaridad 1 Cap. 1; 2 Cap. 1
2 2 Problemas de Big Data Familiaridad 2 Cap. 2
2,3 2 Aplicaciones y sistemas Familiaridad 1 Cap. 2; 2 Cap. 2
3,4 1 1 Impacto del Big Data en la sociedad Familiaridad

Total de Horas: 8.

Sesión Horas de trabajo independiente Temas Bibliografía
1-3 6 Estudio del tema y preparación del examen parcial 1 cap. 1; 2 cap. 1,2
3,4 6 Tarea: Impacto del Big Data

Total de Horas: 12.

Capítulo 2: La Ciencia de Datos

Sesión Horas teóricas Prácticas acompañadas Temas Profundidad Bibliografía
4 1 Estrategia de Big Data Familiaridad
5 3 El Proceso de la Ciencia de Datos: Adquirir, explorar, preprocesar y analizar datos, comunicar resultados, tomar acciones Familiaridad

Total de Horas: 4.

Sesión Horas de trabajo independiente Temas Bibliografía
4,5 4 Estudio del tema y preparación del examen parcial 1 cap. 1; 2 cap. 1,2

Total de Horas: 4.

Capítulo 3: Modelos de Procesamiento

Sesión Horas teóricas Prácticas acompañadas Temas Profundidad Bibliografía
6,7 1 3 Map Reduce Uso 2 Cap. 5
7-9 3 3 Cloud Data Flow Familiaridad

Total de Horas: 10.

Sesión Horas de trabajo independiente Temas Bibliografía
6-9 4 Proyecto: Aplicación de un modelo de procesamiento a un poblema 2 cap. 5

Total de Horas: 4.

Capítulo 4: Tecnología de Almacenamiento

Sesión Horas teóricas Prácticas acompañadas Temas Profundidad Bibliografía
10 2 HDFS (Hadoop Distributed File System) Familiaridad
11 2 GFS (Google File System) Familiaridad

Total de Horas: 4.

Sesión Horas de trabajo independiente Temas Bibliografía
10-11 4 Estudio del tema y preparación del examen parcial

Total de Horas: 4.

Capítulo 5: Técnicas de Análisis

Sesión Horas teóricas Prácticas acompañadas Temas Profundidad Bibliografía
11-13 2 3 Análisis Cualitativo y Cuantitativo Familiaridad 1 Cap. 8
13-15 2 3 Minería de Datos Familiaridad 1 Cap. 8
15-17 2 3 Análisis Estadístico Familiaridad 1 Cap. 8
17-19 2 3 Aprendizaje de Máquina Familiaridad 1 Cap. 8

Total de Horas: 20.

Sesión Horas de trabajo independiente Temas Bibliografía
11-19 8 Estudio del tema y preparación del examen parcial
11-19 6 Tarea
11-19 4 Proyecto: aplicación de una técnica

Total de Horas: 18.

Capítulo 6: Plataformas de procesamiento

Sesión Horas teóricas Prácticas acompañadas Temas Profundidad Bibliografía
19-22 4 4 Hadoop Uso 4; 2 Cap. 4;
23 2 1 HBASE Familiaridad 2 Cap. 6
24,25 2 1 HIVE Familiaridad 2 Cap. 6
25-27 3 2 Cloudera Familiaridad
27-30 4 4 Apache Spark Uso 5; 2 Cap. 7

Total de Horas: 27.

Sesión Horas de trabajo independiente Temas Bibliografía
19-30 12 Proyecto: Aplicación de un modelo de procesamiento a un problema 2 cap. 4-7

Total de Horas: 12.

Capítulo 7: Visualización de datos

Sesión Horas teóricas Prácticas acompañadas Temas Profundidad Bibliografía
31,32 3 Estrategia de visualización de grandes volúmenes de información Familiaridad

Total de Horas: 3.

Sesión Horas de trabajo independiente Temas Bibliografía
31,32 4 Tarea

Total de Horas: 4.

Integración Curricular

Resultados de Programa (ABET)

(A) La habilidad para aplicar conocimientos de matemáticas, ciencias e ingeniería.

(B) La habilidad para analizar un problema e identificar los requerimientos necesarios para su definición y solución.

(C) La habilidad para diseñar, implementar y evaluar procesos y sistemas computacionales.

(D) La habilidad para funcionar en equipos de trabajo.

(E) El entendimiento de la responsabilidad profesional y ética.

(F) La habilidad para comunicarse efectivamente.

(G) La habilidad para analizar los impactos de la computación y la ingeniería en las personas, organizaciones y la sociedad.

(H) El reconocimiento de la necesidad de, y la habilidad para, continuar con el desarrollo profesional.

(I) La habilidad para usar las técnicas, destrezas y herramientas modernas para la práctica de la computación.

(J) La habilidad para aplicar los fundamentos y principios de las matemáticas y de la computación en el modelamiento y diseño de sistemas computacionales de manera que se demuestre comprensión de las ventajas y desventajas en las decisiones de diseño.

(K) La habilidad para aplicar los principios de diseño y desarrollo de software en la construcción de sistemas de diferente complejidad.

Relevancia del curso con los resultados de programa

Resultados de Programa
A B C D E F G H I J K
Relevancia 1 3 4 1 1 2 1 5

Escala: (1) baja relevancia - (5) alta relevancia.

Integración de objetivos, contenido y metodología del curso

El curso es presencial y con participación y trabajo en clase. Se asignarán investigaciones, ejercicios y lecturas. Durante la sesión se expondrán los conceptos acompañados de ejemplos, se fomentará la participación de los estudiantes. Se realizará un taller semanal en el que se ponga en práctica algunos conceptos de computación.

Resultados del Programa Indicadores de Desempeño Objetivos/Contenido del Curso Actividades de aprendizaje Instrumentos de medición
(A) Aplicación de Conocimientos (A2) Resolver problemas relacionados con la disciplina y otras áreas por medio de la utilización de conocimientos, modelos y formalismos de las ciencias de la computación, las matemáticas y la ingeniería. (Aplicación) (A3) Analizar conjuntos de datos. (Análisis) Capítulos 1, 5, 7 Exposiciones del profesor, lectura y solución de ejercicios Exámen y tareas
(B) Análisis de problemas y requerimientos (B3) Sintetizar la información, evidencias y hechos necesarios para analizar un problema. (Análisis - Síntesis). (B4) Formular hipótesis. Capítulos 1-6 Exposiciones del profesor, solución de ejercicios y lectura Examen, tareas y proyecto
(C) Diseño (C2) Identificar componentes, interacciones, relaciones e interfaces entre componentes. (Análisis). (C3) Diseñar procesos y componentes de software haciendo uso de la notación, técnicas y herramientas adecuadas. (Síntesis). Capítulos 3,6,7 Exposiciones del profesor, solución de ejercicios y lecturas Proyecto y tareas
(D) Trabajo en equipo (D1) Reconocer el rol cada vez más predominante de la computación en entornos multidisciplinarios. (Conocimien to). (D2) Participar en tareas y en la toma de decisiones. (Respuesta - Afectivo). (D3) Integrar diferentes puntos de vista, información, críticas y retroalimentación para proponer una solución. (Síntesis). Capítulos 3,6 Proyecto relacionado con un problema particular Proyecto
(E) Responsabilidad profesional y ética (E2) Mostrar responsabilidad y un adecuado comportamiento profesional. (Valuación). (E4) Discutir y justificar decisiones éticas. (Evaluación). Capítulo 1 Exposiciones del profesor y lectura Tarea
(F) Comunicación efectiva (F1) Producir textos de manera efectiva teniendo en cuenta la estructura, coherencia, flujo, ortografía y correcto uso del lenguaje. (Aplicación). (F3) Utilizar recursos gráficos para comunicar y expresar una idea. (Aplicación). Capítulos 1,3 Proyecto y tareas Proyecto y tareas
(G) Impactos de la computación y la ingeniería (G2) Utilizar los conocimientos para identificar los impactos de las soluciones en ingeniería y computación. (Aplicación). (G3) Analizar los impactos locales y globales de la computación y la ingeniería. (Análisis). (G4) Juzgar los impactos de la computación y la ingeniería en el mundo. (Evaluación). Capítulo 1 Exposiciones del profesor y lectura Tarea
(I) Uso de herramientas y técnicas (I1) Utilizar herramientas de desarrollo de software. (Aplicación). (I3) Combinar herramientas de software y hardware para resolver un problema. (Síntesis). Capítulos 3,4,6,7 Solución de ejercicios y lectura Proyecto y tareas

Contribución al Desarrollo de Competencias (CNA)

Resultados de Programa
A B C D E F G H I J K
Ciudadanía E E
Comunicación escrita E
Lectura crítica U
Inglés U
Razonamiento cuantitativo E E E E

E- Se evalúa. U - Se usa

Contribución a los objetivos educacionales

La Carrera de Ingeniería de Sistemas y Computación plantea los siguientes objetivos educacionales, El estudiante graduado de la carrera será capaz de:

  1. Ejercitar la práctica de la Ingeniería de Sistemas y Computación profesionalmente.
  2. Diseñar y operar sistemas de computación que contribuyen a la solución de problemas relacionados a la disciplina, otra área de la ciencia y la ingeniería u otras disciplinas.
  3. Contribuir al bienestar de las comunidades desde posiciones prominentes en la industria, academia, sector público o como un emprendedor.
  4. Ser distinguido por su bases sólidas en computación, su sentido de ciudadanía responsable, su profesionalismo y liderazgo.
  5. Continuar su desarrollo profesional o involucrarse en estudios de posgrado.
Resultados de Programa
A B C D E F G H I J K
Objetivo 1 X X X X X X X X
Objetivo 2 X X X X
Objetivo 3 X X X X X X X X
Objetivo 4 X X X
Objetivo 5 X

Recomendaciones del Director del Programa

Reglas del curso

Calificación y Balance de Evaluación del Curso

Instrumento Porcentaje A B C D E F G H I J K
Parcial 15 % 50 % 20% 30%
Proyecto-Entrega I 20 % 25% 25% 10% 40%
Proyecto-Entrega II 20 % 10% 30% 10% 10% 40%
Tarea Impacto 15 % 30% 40 % 30%
Tarea Análisis 15 % 40% 40% 20%
Tarea Visualización 15 % 30% 10% 10% 50%

Uso de material en exámenes

No está permitido.

Asistencia

Obligatoria.

Bibliografía

  1. T. Erl y P. Buhler. Big Data Fundamentals: Concepts, Drivers & Techniques. Prentice Hall, 1st. Ed., 2016.
  2. A. Maheshwari. Big Data Essentials. Kindle Edition, 2016.
  3. N. Marz y J. Warren. Big Data: Principles and best practices of scalable real time data systems. Manning, 1st Ed., 2015.
  4. T. White. Hadoop: the definitive guide. O'Reilly Media, 4th Ed., 2015.
  5. H. Karau, A. Konwinski, P. Wendell y M. Zaharia. Learning Spark: Lightning-Fast Big Data Analysis. O'Reilly, 1st Ed., 2015.

Instalaciones

Salón de clase con computador y proyector. Laboratorio de Ingeniería de Sistemas y Computación.

Material de este semestre

 
materias/procesamientograndesvolumenesdatos.txt · Última modificación: 2016/08/22 11:45 por mcpabon
Recent changes RSS feed Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki