Do you want to apply for this freelance job vacancy?

Aplicación web para la extracción y análisis de datos

Proyecto x-02 para extracción y análisis de datos **Documento adjunto con los requerimientos** 1. Descripción General del Proyecto Objetivo: Desarrollar una aplicación web para la extracción y análisis de datos de documentos en diversos formatos, con énfasis en la extracción de información de archivos PDF —incluyendo aquellos que contienen múltiples tablas y pueden estar escaneados— y otros formatos adicionales. El sistema permitirá a los usuarios subir, organizar, analizar y comparar la información contenida en dichos documentos, y formular consultas en lenguaje natural para obtener respuestas basadas en los datos extraídos. 2. Requerimientos Funcionales 2.1. Módulo de Administración •    Gestión de Usuarios: o    Registro de nuevos usuarios (tanto por parte del administrador como mediante auto-registro, según se decida). O    Asignación de roles y permisos (administradores, usuarios generales, equipos específicos) y definición de grupos de trabajo. •    Carga y Publicación de Información: o    Permitir al administrador subir y gestionar información que se hará pública para todos o para determinados grupos de usuarios. O    Organización centralizada de carpetas y archivos con categorización por proyectos o temáticas. 2.2. Acceso y Gestión de Sesiones •    Sistema de autenticación seguro para el acceso a la plataforma. •    Panel de control personalizado para cada usuario donde se reflejen notificaciones, archivos cargados y opciones de análisis. 2.3. Carga y Almacenamiento de Documentos •    Tipos de Documentos Admitidos: o    Archivos en formatos múltiples: PDF (tanto digitales como escaneados) y otros formatos que se consideren relevantes para la información financiera (por definir en reunión técnica inicial). O    Sobre todo documentos PDF con múltiples páginas y tablas. •    Gestión de Archivos y Carpetas: o    Cada usuario (o equipo) podrá crear su propio repositorio o carpeta para almacenar y organizar sus documentos. O    Funcionalidades para renombrar, organizar y eliminar documentos. 2.4. Extracción de Datos •    Procesamiento de Archivos: o    Extracción automática de datos contenidos en documentos, con especial atención a la lectura precisa de tablas e información financiera. O    Utilización de técnicas OCR (por ejemplo, usando herramientas como Minstral OCR) para procesar archivos escaneados. •    Exportación de Datos: o    Visualización de los datos extraídos en tablas que permitan copiar y pegar fácilmente. O    Opción de exportar los datos a archivos Excel (.xlsx) para su manipulación externa. 2.5. Consultas en Lenguaje Natural •    Implementación de un módulo que permita a los usuarios realizar consultas en lenguaje natural sobre los datos extraídos. •    Integración con APIs externas (por ejemplo, OpenAI, MistralOCR u otras) que permitan interpretar y responder a dichas preguntas. •    Capacidad para responder tanto consultas específicas (por ejemplo, “¿Cuáles fueron los ingresos totales del tercer trimestre?”) como comparativas entre diferentes conjuntos de datos. 2.6. Comparación de Datos Entre Grupos de Documentos •    Opción para que los usuarios puedan cargar dos grupos de documentos. •    Funcionalidades que permitan comparar la información contenida en ambos grupos y generar reportes o visualizaciones de las diferencias y similitudes. 3. Requerimientos Técnicos y No Funcionales 3.1. Interfaz y Experiencia de Usuario (ui/ux) •    diseño responsivo compatible con dispositivos de escritorio y móviles (opcional). •    Interfaz intuitiva y de fácil navegación, con menús bien organizados y visualización clara de datos. •    Presentación de la información extraída en tablas editables y exportables. 3.2. Arquitectura y Tecnologías •    Frontend: o    Uso de frameworks modernos (por ejemplo, React) para una interfaz dinámica e interactiva (opcional. La idea es que el profesional se sienta cómodo con las tecnologías que usa). •    Backend: solo algunas consideraciones. Esto es opcional: o    Servicios RESTful o GraphQL para la comunicación entre cliente y servidor. O    Motor especializado en el procesamiento de documentos, integrando herramientas de OCR y APIs de extracción y análisis (se recomienda evaluar LlamaExtract de LlamaIndex, SmolDocling y Minstral OCR). •    Base de Datos: o    Uso de bases de datos relacionales o NoSQL para el almacenamiento seguro y escalable de la información y metadatos asociados a los documentos. O    Puede que este proyecto requiera bases de datos vectoriales como Pinecone, entre otras. 3.3. Seguridad y Control de Acceso •    Implementación de HTTPS para todas las comunicaciones. •    Gestión segura de credenciales y datos sensibles. •    Control de accesos basado en roles, con autorizaciones definidas por el administrador. 3.4. Rendimiento y Escalabilidad •    Capacidad para procesar archivos de gran tamaño y con múltiples páginas sin comprometer la precisión y velocidad de la extracción. •    Arquitectura escalable, tanto horizontal como verticalmente, según el crecimiento en usuarios y volumen de documentos. 3.5. Integración con APIs y Servicios Externos •    Conexión e integración con servicios de procesamiento de lenguaje natural (por ejemplo, OpenAI) para brindar respuestas precisas a consultas de los usuarios. •    Evaluación y uso de herramientas como LlamaExtract, SmolDocling y Minstral OCR para optimizar la extracción y el análisis de datos. •    Puede que este proyecto requiera bases de datos vectoriales como Pinecone, entre otras. 4. Requisitos Adicionales y Criterios de Aceptación 4.1. Documentación •    Elaboración de documentación técnica completa (arquitectura, APIs, integraciones, manual de usuario). •    Manuales e instructivos para la administración del sistema y para el usuario final. 4.2. Pruebas y Validación •    Configuración de un entorno de pruebas que permita validar la precisión y consistencia en la extracción de datos desde documentos en diferentes formatos. •    Ejecución de pruebas de seguridad, rendimiento y usabilidad. 4.3. Soporte y Mantenimiento •    Establecimiento de un período de soporte post-implementación para solucionar posibles errores y realizar ajustes. •    Definición de un plan para actualizaciones y escalabilidad futura del sistema. 5. Flujo de Trabajo del Usuario 1.    Registro y Acceso: o    El usuario se registra (o es registrado por el administrador) y accede de manera segura a la plataforma. 2.    Carga de Documentos: o    Los usuarios ingresan a su panel personal o de equipo y suben archivos en múltiples formatos, organizándolos en carpetas propias. 3.    Procesamiento y Extracción: o    El sistema procesa automáticamente los documentos, extrae la información (tablas e información financiera) y genera reportes visuales. 4.    Análisis, Exportación y Consultas: o    Los usuarios pueden revisar, copiar o exportar la información extraída a Excel, así como realizar consultas en lenguaje natural sobre los datos. O    Existe la opción para cargar y comparar dos grupos de documentos y extraer análisis comparativos. 5.    Administración y Distribución de Información: o    El administrador sube y administra información general o específica que será visible para todos los usuarios o para determinados equipos. 6. Resumen de Roles y Funciones Administrador: •    Registro y Gestión de Usuarios: Controla el registro, asignación de roles y permisos de los usuarios. •    Carga y Publicación de Información: Sube y administra información, documentos y archivos que pueden ser visibles para todos o para grupos específicos. •    Organización Centralizada: Gestiona la estructura de carpetas y la distribución de la información a nivel organizacional. Usuarios: •    Acceso y Gestión Personal: Inician sesión de forma segura y acceden a un panel personalizado. •    Carga de Documentos en Múltiples Formatos: Suben documentos en formatos diversos (PDF, entre otros) y organizan sus archivos en carpetas personales o de equipo. •    Extracción y Análisis de Datos: Visualizan y extraen información financiera y tabular, con opciones para copiar, pegar y exportar a Excel. •    Consultas en Lenguaje Natural: Realizan preguntas sobre la información contenida en los documentos a través de un módulo interactivo. •    Comparación de Documentos: Pueden cargar y comparar dos grupos de documentos para identificar diferencias y similitudes en los datos. 7. Entregables del Proyecto •    Código fuente completo y documentado: El código deberá estar debidamente comentado y estructurado, facilitando la comprensión y el mantenimiento futuro. Se entregará documentación técnica detallada, que incluya la arquitectura del sistema, APIs, integraciones, así como manuales de usuario y de administración para facilitar el uso y mantenimiento. •    Despliegue en Entorno de Prueba: Se realizará un despliegue en un entorno de prueba (preferiblemente en un servidor o ambiente cloud) para la validación del sistema mediante pruebas exhaustivas. •    Despliegue en Producción: La aplicación debe ser desplegada en un entorno de producción, asegurando que esté completamente operativa, accesible de forma segura y optimizada para el uso en el entorno real. •    Informes de Pruebas y Validación de Funcionalidades: Se deberán presentar los informes correspondientes a las pruebas realizadas, destacando los resultados y validando el correcto funcionamiento de cada funcionalidad. •    Capacitación: Se impartirá una sesión (o varias, según lo acordado) de capacitación dirigida a los administradores y usuarios finales, orientada a la correcta administración y uso del sistema. Notas Finales •    RecomendacionesTécnicas: Es importante evaluar el uso de herramientas como LlamaExtract, SmolDocling y Minstral OCR, ya que pueden facilitar la extracción y análisis de datos de documentos con alta complejidad. •    ColaboraciónContinua: Se requiere comunicación permanente durante el desarrollo, con reuniones periódicas para asegurar el cumplimiento de los requerimientos y la adecuación de funcionalidades según la retroalimentación obtenida durante las pruebas.Category: IT & ProgrammingSubcategory: Data ScienceProject size: MediumIs this a project or a position?: ProjectRequired availability: As needed

Keyword: OpenAI

Price: $1000.0

Secondary Price: $3000.0

Python Data Science Data Engineer (Python) Data Analyst (Python) API REST API