Preservando a Herança, Potenciando o Futuro

A Ondaka é uma iniciativa comunitária para recolher os dados linguísticos necessários para treinar modelos de Inteligência Artificial em Umbundu, garantindo que a nossa língua prospere na era digital.

A Nossa Missão

A nossa missão é criar o maior conjunto de dados de código aberto para a língua Umbundu, especificamente para o treino de modelos de IA. Acreditamos que, ao capacitar a comunidade a recolher e validar estes dados, estamos a construir a base para que falantes, educadores e tecnólogos possam criar novas aplicações, desde ferramentas educacionais a assistentes de voz, inteiramente em Umbundu.

Dados Abertos para Treino de IA.
Todo o conjunto de dados recolhido através da Ondaka será disponibilizado publicamente, fomentando a inovação e a investigação no campo da IA para línguas de poucos recursos.
Capacitação da Comunidade.
A plataforma é mais do que uma ferramenta de recolha de dados; é um ponto de encontro para todos os apaixonados pela língua Umbundu e pelo seu futuro tecnológico.
Ponte Tecnológica.
Estamos a construir a ponte que liga uma língua ancestral às tecnologias do futuro, garantindo que o Umbundu tenha uma voz na revolução da IA.
Comunidade unida
Gráfico financeiro a mostrar custos

Sustentabilidade e Custos

A Ondaka é uma iniciativa comunitária e de código aberto. No entanto, a tecnologia que a suporta tem custos reais. A transparência é um dos nossos valores fundamentais, e queremos que a comunidade saiba de forma concreta o que é necessário para manter a plataforma a funcionar. Todos os preços são aproximados e baseiam-se nas tabelas da Google Cloud Platform (GCP).

Armazenamento e Base de Dados.
Cada frase, gravação e perfil de usuário é guardado. Os ficheiros de áudio são armazenados no Firebase Storage (~$0.02 por GB/mês) e os dados de texto no Firestore (~$0.18 por 100.000 novas frases/gravações).
Execução dos Modelos de IA.
Cada vez que a IA "fala" (TTS) ou "ouve" (STT), há um custo. O TTS custa cerca de $4.00 por cada milhão de caracteres (o suficiente para ler um livro pequeno). O STT custa cerca de $0.024 por minuto de áudio transcrito.
Treino de Modelos Personalizados.
Este é o passo mais caro e crucial. Usar os seus dados para treinar um modelo de IA na Vertex AI é cobrado por hora de uso de máquina. Um treino pode custar entre dezenas a centenas de dólares, dependendo do tamanho do conjunto de dados.

Apoie o Projeto

A Ondaka é mantida por voluntários e depende do apoio da comunidade para cobrir os custos de servidor, armazenamento e treino de IA. A sua contribuição ajuda a garantir que esta ferramenta vital permaneça disponível e continue a crescer.