AI Tidak Bisa Beradaptasi di Afrika, Bingung Hadapi 3.000 Bahasa

Perkembangan AI di Afrika: Tantangan dan Upaya untuk Menciptakan Inklusivitas

Pengembangan kecerdasan buatan (AI) di Afrika menghadapi berbagai tantangan yang kompleks, salah satunya adalah keragaman bahasa yang sangat tinggi. Dengan sekitar 1.500 hingga 3.000 bahasa yang digunakan di benua ini, banyak dari bahasa tersebut masih belum memiliki data teks yang cukup untuk dilatih oleh model bahasa besar (Large Language Model/LLM) seperti ChatGPT atau Gemini.

Kesenjangan Data yang Luas

Perbandingan antara jumlah artikel Wikipedia dalam bahasa Inggris dan bahasa-bahasa Afrika menunjukkan kesenjangan yang signifikan. Bahasa Inggris memiliki lebih dari 7 juta artikel, sedangkan bahasa Tigrinya—yang dituturkan oleh sekitar 9 juta orang—hanya memiliki 335 artikel. Bahasa Akan, yang merupakan bahasa asli terbanyak di Ghana, bahkan tidak memiliki satu pun artikel di Wikipedia.

Vukosi Marivate, profesor ilmu komputer di Universitas Pretoria, menyatakan bahwa perbedaan ini mencerminkan ketimpangan dalam akses terhadap data. Hanya 42 dari total 1.500-3.000 bahasa Afrika yang memiliki model bahasa yang tersedia, dan hanya tiga aksara Afrika yang digunakan secara luas, yaitu Latin, Arab, dan Ge’Ez.

Risiko Marjinalisasi Bahasa

Chinasa T Okolo, pendiri Technecultura, menjelaskan bahwa keterbelakangan ini juga dipengaruhi oleh faktor finansial. Meskipun jumlah penutur bahasa Swahili lebih besar daripada penutur bahasa Finlandia, Finlandia dianggap sebagai pasar yang lebih menarik bagi perusahaan teknologi besar seperti Apple dan Google.

Okolo memperingatkan bahwa jika kesenjangan data ini tidak segera diatasi, banyak masyarakat Afrika akan terpinggirkan dari peluang-peluang yang ditawarkan oleh AI. “Kita akan terus melihat orang-orang terpinggirkan dari kesempatan,” katanya.

Upaya Mengembangkan Bahasa di AI Afrika

Untuk mengatasi masalah ini, Okolo menekankan pentingnya inovasi dalam pengembangan model AI. Salah satu proyek yang sedang berlangsung adalah African Next Voices, yang dipimpin oleh Vukosi Marivate. Proyek ini fokus pada perekaman suara untuk 18 bahasa di Afrika Selatan, Kenya, dan Nigeria.

Selama dua tahun, tim berhasil mengumpulkan total 9.000 jam rekaman dari berbagai usia dan lokasi. Kumpulan data ini akan digunakan untuk melatih model AI di seluruh Afrika. Dalam proses pengumpulan data, peneliti sering kali memberikan naskah kepada penutur asli untuk dibaca, atau merekam tanggapan lisan yang kemudian ditranskripsikan.

Fokus pada Topik Spesifik

Meskipun African Next Voices belum mengumpulkan data yang cukup untuk melatih LLM raksasa seperti ChatGPT, fokus utama proyek ini adalah pada topik-topik spesifik seperti kesehatan dan pertanian, yang dianggap sangat penting bagi masyarakat Afrika.

Nyalleng Moorosi, peneliti di Distributed AI Research Institute (DAIR), menjelaskan bahwa meskipun kumpulan data kecil sulit digunakan untuk membuat model umum, data kecil dan terfokus dapat sangat akurat dalam lingkup terbatas. Namun, kesalahan dalam model yang membahas topik sensitif seperti perbankan atau perawatan kesehatan bisa memiliki konsekuensi serius.

Tantangan Tata Bahasa dan Infrastruktur

Selain kurangnya data, ada tantangan lain dalam pengembangan AI di Afrika, seperti kurangnya pengkodean bahasa melalui kamus atau studi tata bahasa. Misalnya, dalam bahasa Kinyarwanda, terdapat tiga cara umum untuk mengeja nama negara tersebut, yaitu uRwanda, Urwanda, dan u Rwanda. Tanpa aturan ejaan yang jelas, bahkan pemrosesan teks dasar menjadi sulit.

Selain itu, infrastruktur data juga menjadi hambatan. Uni Afrika pada 2024 memperingatkan bahwa hanya 10 persen dari permintaan pusat data di Afrika yang terpenuhi.

Info Detail

Tujuan untuk Menciptakan Inklusivitas

Meskipun banyak orang Afrika berbicara lebih dari satu bahasa, termasuk bahasa Eropa yang sudah didukung oleh model AI, tujuan utamanya adalah membuat AI dapat diakses dalam semua bahasa. “Bahkan untuk bahasa yang hanya memiliki satu penutur. Semua bahasa layak untuk diwakili atau dilestarikan,” kata Moorosi.

Proyek African Next Voices telah menyelesaikan pengumpulan dan transkripsi datanya. Meskipun saat ini belum mengerjakan bahasa pemrograman baru, Marivate mengungkapkan bahwa tim sudah memikirkan bahasa mana yang akan menjadi langkah selanjutnya.