Do you want to apply for this freelance job vacancy?

JOB:
Extensão do Chrome que transcreve audio do Jitsi Meet em tempo Real

Objetivos Principais Transcrição em Tempo Real Captura automática do áudio das chamadas de vídeo em Jitsi. Exibição simultânea do texto enquanto a reunião acontece. Suporte para idioma(s) desejado(s) (ex.: Português, inglês etc.). Interface para Destaques e Notas Opção de “marcar” ou “destacar” partes importantes do texto. Possibilidade de adicionar comentários ou anotações associadas a esses trechos. Armazenamento e Exportação Capacidade de salvar a transcrição localmente e/ou em nuvem. Integrações com ferramentas como Google Drive, Dropbox, Slack, Notion, etc. Exportação em formatos de texto (txt, docx) ou pdf. Integração com Jitsi A extensão (ou plugin) deve se integrar à interface do Jitsi para realizar a captura do áudio. Botão ou interface dentro do Jitsi para ativar/desativar a transcrição. Privacidade e Segurança Uso de criptografia (ou pelo menos conexões seguras) para proteger a transmissão e o armazenamento de dados. Garantir o consentimento dos participantes para a gravação de áudio/transcrição (alerta e confirmação). Funcionalidades Desejadas Detecção Automática da Reunião Quando o usuário entrar em uma sala do Jitsi, a extensão deve detectar e oferecer a opção de iniciar a transcrição. Reconhecimento de Voz e Identificação de Locutor (opcional) Se possível, identificar quem está falando (diferenciar participantes) e marcar no texto transcrito. Caso seja viável, associar o texto ao respectivo participante (com base no nome configurado na sala). Ferramentas de Edição Pós-Reunião Ao final, o usuário pode revisar a transcrição, corrigir erros, adicionar comentários e ajustar destaques. Histórico de revisões ou pelo menos uma versão final consolidada. Alertas e Notificações (opcional) Notificações de quando a transcrição está ativa. Aviso sonoro ou pop-up no caso de interrupção do serviço de transcrição. Suporte a Múltiplos Idiomas Se for um projeto mais avançado, permitir a troca de idioma ou escolher mais de um idioma durante a reunião. Possibilidade de usar serviços de transcrição externos (ex.: Google Cloud Speech-to-Text, AWS Transcribe, ou outro motor de IA). Tecnologias Recomendadas Extensão para Chrome (Manifest V3) ou compatível com outros navegadores. API de Captura de Áudio do navegador (ou do Jitsi) para obter o fluxo de áudio. Serviço de Reconhecimento de Voz: Pode-se integrar um serviço de terceiros (Google, AWS, Azure, IBM Watson) ou usar uma biblioteca de código aberto (ex.: Vosk, DeepSpeech), caso seja viável. Linguagens de programação / frameworks: JavaScript / TypeScript para a extensão em si. Eventual back-end em Node.js  (se for preciso gerenciar transcrições em um servidor). Banco de Dados (opcional): Caso queira armazenar transcrições de forma persistente, usar um banco de dados (PostgreSql) em uma infraestrutura local ou cloud. Pontos de Atenção Qualidade do Áudio A precisão da transcrição depende da qualidade do áudio e do “speech-to-text” utilizado. Considerar ruído de fundo, sobreposição de falas, microfones de diferentes qualidades, etc. Escalabilidade e Custos de API Se a quantidade de reuniões for grande, os custos com APIs de transcrição podem ser significativos. Avaliar a possibilidade de modelos open source ou soluções híbridas para reduzir custos. Interface Amigável Simplificar a instalação e o uso durante a reunião. Deve ser claro para o usuário como iniciar/parar a transcrição e como salvar/exportar. Privacidade e Consentimento Implementar avisos de permissão para gravação/transcrição. Licenças e Direitos Verificar licenças de ferramentas externas (open source ou pagas). Esclarecer aos usuários sobre quem detém os direitos das transcrições. Entregáveis Extensão de navegador pronta para instalação (arquivo .crx ou via Chrome Web Store, se desejado). Documentação técnica explicando como instalar, usar e manter o serviço (incluindo as configurações de API, se houver). Código-fonte organizado em repositório Git (GitHub, GitLab, etc.), Com instruções de build. Demonstração funcional (protótipo ou ambiente de teste) de como a transcrição ocorre ao entrar em uma sala do Jitsi. Perfil do Profissional Procurado Desenvolvedor Full-Stack ou equipe com experiência em desenvolvimento de extensões de navegador. Familiaridade com tecnologias de Speech-to-Text. Conhecimento de front-end (html, css, javascript/typescript) para a interface de usuário. Experiência em integração de APIs (preferencialmente de serviços de voz). Conhecimento de princípios de ux/ui para criar uma interface intuitiva. Se possível, experiência com segurança de dados (criptografia, lgpd/gdpr).Categoria: TI e ProgramaçãoSubcategoria: ProgramaçãoQual é o alcance do projeto?: Alteração médiaIsso é um projeto ou uma posição de trabalho?: Um projetoTenho, atualmente: Eu tenho especificaçõesDisponibilidade requerida: Conforme necessárioIntegrações de API: Cloud Storage (Dropbox, Google Drive, etc), Outros (Outras APIs)Funções necessárias: Desenvolvedor