Preservando a Herança, Potenciando o Futuro
A Ondaka é uma iniciativa comunitária para recolher os dados linguísticos necessários para treinar modelos de Inteligência Artificial em Umbundu, garantindo que a nossa língua prospere na era digital.
A Nossa Missão
A nossa missão é criar o maior conjunto de dados de código aberto para a língua Umbundu, especificamente para o treino de modelos de IA. Acreditamos que, ao capacitar a comunidade a recolher e validar estes dados, estamos a construir a base para que falantes, educadores e tecnólogos possam criar novas aplicações, desde ferramentas educacionais a assistentes de voz, inteiramente em Umbundu.
- Dados Abertos para Treino de IA.
- Todo o conjunto de dados recolhido através da Ondaka será disponibilizado publicamente, fomentando a inovação e a investigação no campo da IA para línguas de poucos recursos.
- Capacitação da Comunidade.
- A plataforma é mais do que uma ferramenta de recolha de dados; é um ponto de encontro para todos os apaixonados pela língua Umbundu e pelo seu futuro tecnológico.
- Ponte Tecnológica.
- Estamos a construir a ponte que liga uma língua ancestral às tecnologias do futuro, garantindo que o Umbundu tenha uma voz na revolução da IA.
Sustentabilidade e Custos
A Ondaka é uma iniciativa comunitária e de código aberto. No entanto, a tecnologia que a suporta tem custos reais. A transparência é um dos nossos valores fundamentais, e queremos que a comunidade saiba de forma concreta o que é necessário para manter a plataforma a funcionar. Todos os preços são aproximados e baseiam-se nas tabelas da Google Cloud Platform (GCP).
- Armazenamento e Base de Dados.
- Cada frase, gravação e perfil de usuário é guardado. Os ficheiros de áudio são armazenados no Firebase Storage (~$0.02 por GB/mês) e os dados de texto no Firestore (~$0.18 por 100.000 novas frases/gravações).
- Execução dos Modelos de IA.
- Cada vez que a IA "fala" (TTS) ou "ouve" (STT), há um custo. O TTS custa cerca de $4.00 por cada milhão de caracteres (o suficiente para ler um livro pequeno). O STT custa cerca de $0.024 por minuto de áudio transcrito.
- Treino de Modelos Personalizados.
- Este é o passo mais caro e crucial. Usar os seus dados para treinar um modelo de IA na Vertex AI é cobrado por hora de uso de máquina. Um treino pode custar entre dezenas a centenas de dólares, dependendo do tamanho do conjunto de dados.
Apoie o Projeto
A Ondaka é mantida por voluntários e depende do apoio da comunidade para cobrir os custos de servidor, armazenamento e treino de IA. A sua contribuição ajuda a garantir que esta ferramenta vital permaneça disponível e continue a crescer.