Necesito desarrollar modelos de series de tiempo como: LSTM, Prophet, Sarimax, Holt Winters, XGBOOST u otros en menos de 7 días, estos modelos tienen que tener la siguiente estructura: Parte 1: Preparación y Análisis Exploratorio 1. Definición del Problema y Objetivos Objetivo del proyecto: generar proyecciones diarias para los próximos 120 días a más de tres productos en cuatro zonas. Establece las métricas de evaluación: rmse, mae, mape, etc. 2. Recolección y Comprensión de Datos Datos Principales: Incluye las ventas diarias por producto y zona. Variables Exógenas: Considera variables macroeconómicas, precios, clima, festividades, etc. Datos de Festividades: Codifica las festividades y feriados a nivel diario. 3. Preprocesamiento de Datos Limpieza de Datos: Identifica y trata valores faltantes, outliers y errores en los datos. Normalización/Escalado: Aplica técnicas de escalado como Min-Max o Z-score para normalizar los datos. Codificación de Variables Categóricas: Aplica codificación (e.g., One-hot encoding) a variables categóricas como Nombre_Festividad. Segmentación de Datos: Segmenta los datos por producto y zona para crear subseries temporales. 4. Análisis Exploratorio de Datos (EDA) Visualización de Series Temporales: Gráfica las series temporales para identificar patrones, tendencias y estacionalidades. Matriz de Correlación: Calcula y visualiza la correlación entre las variables. Análisis de Estacionalidad y Tendencias: Usa técnicas como descomposición STL para separar las componentes de la serie. 5. Ingeniería de Atributos Lags y Rolling Windows: Crea lags y promedios móviles para capturar dependencias temporales. Transformaciones de Variables: Aplica transformaciones logarítmicas o de raíz cuadrada para estabilizar la varianza. Interacción entre Variables: Genera nuevas variables mediante la combinación o interacción de otras. Variables de Festividades: Genera indicadores de proximidad a festividades y eventos. Parte 2: Modelado y Validación 6. División del Conjunto de Datos Train-Test Split: Divide los datos en conjuntos de entrenamiento y prueba, respetando la estructura temporal. Cross-Validation: Implementa validación cruzada con ventanas deslizantes (time series cross-validation). 7. Test de Estacionariedad y Ruido Blanco ADF Test: Evalúa la estacionariedad de las series temporales. KPSS Test: Complementa el Adf para confirmar la estacionariedad. acf/pacf: revisa la autocorrelación para identificar patrones persistentes en los residuos. 8. Selección de Variables Importantes Matriz de Correlación: Identifica multicolinealidad y elimina variables redundantes. Feature Importance (XGBoost): Utiliza la importancia de características para filtrar variables. Análisis de Componentes Principales (PCA): Reduce la dimensionalidad si es necesario. 9. Modelado Predictivo LSTM: Preprocesa los datos en secuencias temporales. Ajusta hiperparámetros (unidades LSTM, capas, tasa de aprendizaje). Entrena el modelo y evalúa el rendimiento en el conjunto de prueba. Prophet: Modela estacionalidad diaria, semanal, y anual. Incluye efectos de feriados y eventos especiales. Evalúa el modelo usando validación cruzada incorporada. XGBoost: Ajusta parámetros como learning_rate, max_depth, n_estimators. Usa GridSearchCV para encontrar la mejor configuración. Evalúa el modelo en base a las métricas establecidas. SARIMAX: Identifica el orden del modelo usando acf y pacf. Incorpora variables exógenas. Ajusta los parámetros y evalúa el modelo usando aic, bic. Holt-Winters: Optimiza alfa, beta, y gamma para capturar tendencia y estacionalidad. Evalúa el modelo usando rmse, mae, y mape. 10. Evaluación y Comparación de Modelos Métricas de Evaluación: Compara los modelos utilizando métricas consistentes. Backtesting: Realiza backtesting para validar la capacidad del modelo de predecir en series temporales. Análisis de Residuos: Revisa los residuos del modelo para asegurar que no haya patrones no modelados. 11. Análisis de Sensibilidad Evaluación de Impacto: Evalúa cómo los cambios en las variables exógenas afectan la precisión del modelo. Simulación de Escenarios: Modela escenarios optimistas, pesimistas y de caso base. 12. Implementación y Validación Final Pipeline de Producción: Implementa un pipeline que automatice el proceso desde la ingestión de datos hasta la predicción final. Documentación y Reporte: Documenta todos los pasos del proyecto, los resultados y las recomendaciones para la implementación en producción. 13. Conclusión y Recomendaciones Resumen de Resultados: Presenta un resumen de los hallazgos y el rendimiento de los modelos. Recomendaciones: Sugiere posibles mejoras, expansiones del modelo o futuras investigaciones. Los códigos tienen que estar bien explicados y ordenados, con la finalidad de seguir avanzando con resto de productos.Category: IT & ProgrammingSubcategory: Data ScienceProject size: MediumIs this a project or a position?: ProjectRequired availability: As needed
Keyword: Machine Learning
Price: $100.0
Secondary Price: $250.0
Buscamos un Especialista en Data Science para trabajar en un proyecto innovador que analiza y predice en tiempo real. El profesional será responsable de procesar grandes volúmenes de datos, desarrollar modelos predictivos, e integrar análisis avanzados en nuestro sitio ...
View JobI’m looking for an experienced editor with a strong background in science, artificial intelligence, and neuroscience to review and enhance the structure, narrative, and flow of my 150-page book on machine consciousness and AI’s impact on our understanding of intelligenc...
View Job