AI mulai kuasai bahasa Afrika, akankah mengakhiri pengabaian selama ini?
Model bahasa besar mampu berbicara lebih dari 100 bahasa dengan lancar—kecuali Anda termasuk 1,2 miliar penduduk Afrika. Apakah sistem AI “universal” justru mengecualikan seluruh warisan bahasa benua ini dari masa depan digital?
Sembilan tahun lalu, CEO Google Sundar Pichai berjanji bahwa kecerdasan buatan akan membuat informasi “dapat diakses secara universal” oleh semua orang, tanpa memandang bahasa.
Ia terus mengulang janji itu sejak saat itu, membangun ekspektasi di seluruh dunia bahwa teknologi akhirnya akan menjembatani kesenjangan bahasa dan memberi akses pengetahuan yang setara untuk semua.
Namun, bagi mereka yang berbicara dalam lebih dari 2.000 bahasa Afrika, janji itu masih terasa jauh.
Jutaan orang di benua ini masih mendapati bahwa alat AI canggih yang mengubah sektor pertanian, pendidikan, dan kehidupan sehari-hari tidak mampu memahami atau berkomunikasi dalam bahasa mereka sendiri.
Menurut penelitian, ChatGPT—yang memiliki 800 juta pengguna aktif mingguan di seluruh dunia—hanya mengenali 10 hingga 20 persen kalimat dalam bahasa Hausa, yang digunakan oleh lebih dari 94 juta orang Nigeria.
Hal yang sama berlaku untuk bahasa Afrika lain yang banyak digunakan seperti Yoruba, Igbo, Swahili, dan Somalia, yang semuanya tetap sangat kurang terwakili dalam model AI arus utama meski memiliki puluhan juta penutur.
Lalu mengapa begitu banyak bahasa Afrika diabaikan oleh alat AI paling canggih saat ini dan apa yang hal itu ungkapkan tentang siapa yang berhak membentuk masa depan digital?
Bahasa ‘sumber daya rendah’
Salah satu alasan utama pengecualian bahasa Afrika dalam AI adalah apa yang disebut peneliti sebagai masalah “sumber daya rendah” (low-resource).
Dalam konteks ini, “sumber daya rendah” merujuk pada kelangkaan materi daring seperti situs web, buku, dan transkrip dalam bahasa tersebut.
Karena sebagian besar model bahasa besar (LLM) bergantung pada volume data digital yang sangat besar untuk belajar dan menghasilkan teks, mayoritas data ini tersedia dalam bahasa Inggris (high-resource) atau segelintir bahasa global lain yang banyak digunakan di Barat.
“Ukuran kemajuan dan agenda riset kita didasarkan pada apa yang berhasil untuk bahasa Barat,” kata Hellina Hailu Nigatu, peneliti NLP yang fokus pada bahasa sumber daya rendah di University of California, Berkeley.
Kurangnya data pelatihan membuat model AI seperti ChatGPT atau Gemini kesulitan mengenali, menghasilkan, atau bahkan “melihat” bahasa Afrika secara bermakna, berapa pun jumlah penuturnya.
“Bahasa Afrika dikategorikan sebagai ‘sumber daya rendah’ dan biasanya dikecualikan, atau jika pun dimasukkan, kinerjanya buruk,” ujarnya kepada TRT World.
Klasifikasi yang membagi bahasa dunia menjadi kategori “sumber daya tinggi” dan “sumber daya rendah” ini telah menjadi kerangka utama industri dalam membicarakan kesenjangan tersebut.
Insentif komersial, bias sistemik, dan masalah biaya
Alasan lain kurangnya representasi adalah prioritas riset dan pengembangan AI global.
Penelitian menunjukkan keluaran model bahasa besar cenderung mengikuti “stereotip Barat”.
Standar ditetapkan oleh perusahaan teknologi dan institusi akademik Barat yang fokus pada bahasa dengan jejak digital terbesar dan pendanaan terbanyak—yang umumnya mengarah pada sekelompok kecil bahasa “sumber daya tinggi”.
Akibatnya, bahasa Afrika jarang diprioritaskan untuk investasi atau inovasi.
Insentif komersial juga berperan besar. Karena potensi keuntungan langsung dari pasar bahasa Afrika terbatas, perusahaan tidak terdorong untuk mengalokasikan waktu dan sumber daya dalam meningkatkan dukungan AI untuk bahasa-bahasa ini.
Bias struktural ini diperkuat oleh dataset yang digunakan untuk melatih model AI.
Bahkan ketika bahasa Afrika disertakan, sistem sering mengadopsi asumsi budaya Barat, terkadang salah merepresentasikan konteks lokal atau memperkuat stereotip.
Temuan ini sejalan dengan riset yang lebih luas soal bias algoritmik.
“Yang kita lihat dalam penelitian adalah bahwa mengadopsi LLM untuk berbagai bahasa tanpa pertimbangan matang berisiko mengimpor bias dari bahasa Inggris ke konteks multibahasa, atau mengabaikan bias kontekstual yang tidak ada dalam bahasa Inggris,” kata Nigatu.
Ada juga tantangan teknis dalam cara model AI memproses teks, yang menempatkan banyak bahasa Afrika pada posisi yang lebih sulit.
Penelitian menemukan bahwa penggunaan aksara non-Latin di alat AI populer justru lebih mahal dibandingkan bahasa Inggris atau Prancis.
Ini karena perangkat lunak memecah kalimat menjadi bagian-bagian kecil yang disebut “token” dan dibutuhkan lebih banyak token untuk menulis kalimat yang sama dalam bahasa yang tidak menggunakan alfabet Latin.
Akibatnya, pengguna yang paling tidak mampu justru harus membayar lebih untuk memproses jumlah teks yang sama, dan sering menerima hasil yang kurang andal.
Nigatu menekankan bahwa hambatan ini mencerminkan ketimpangan mendalam terkait siapa yang membentuk sistem ini sejak awal.
Seperti yang ia soroti, hal ini sangat bergantung pada “siapa yang melakukan penelitian, yaitu sejauh mana penutur bahasa tersebut terlibat dalam apa yang dilakukan untuk bahasa mereka.”
Kedaulatan digital Afrika
Di tengah latar belakang pengecualian sistematis ini, sebuah inisiatif besar untuk representasi bahasa Afrika dalam kecerdasan buatan sedang berlangsung.
Proyek African Next Voices, yang didanai hibah sebesar 2,2 juta dolar AS dari Gates Foundation, menjadi inisiatif penciptaan data bahasa siap-AI terbesar untuk banyak bahasa Afrika sejauh ini.
Alih-alih menunggu perhatian Silicon Valley, para peneliti di seluruh benua mengambil langkah sendiri.
Para ahli bahasa telah merekam 9.000 jam percakapan dalam 18 bahasa di Nigeria, Kenya, dan Afrika Selatan, mengubah rekaman tersebut menjadi dataset digital yang dapat digunakan pengembang dalam model bahasa besar.
Data tahap pertama yang dirilis bulan ini menandai momen penting dalam demokratisasi pengembangan AI.
“Sangat menggembirakan melihat peningkatan yang akan dihadirkan untuk pemodelan bahasa-bahasa ini, dan bagaimana hal itu akan membantu seluruh komunitas yang bekerja di bidang teknologi bahasa untuk Afrika,” kata Ife Adebara, CTO organisasi nirlaba Data Science Nigeria, yang memimpin bagian proyek di Nigeria.
Timnya fokus pada bahasa-bahasa seperti Hausa, Yoruba, Igbo, dan Naija—yang secara kolektif dituturkan oleh ratusan juta orang namun nyaris tidak ada dalam sistem AI arus utama.
Metodologi African Next Voices menunjukkan pendekatan yang sangat berbeda dalam pengumpulan data bahasa. Alih-alih mengais konten digital yang sudah ada seperti yang dilakukan perusahaan teknologi Barat, peneliti berinteraksi langsung dengan komunitas yang beragam.
Lilian Wanzare, ahli linguistik komputasional di Universitas Maseno, Kenya, yang memimpin bagian proyek di Kenya, menjelaskan bagaimana timnya menunjukkan gambar kepada individu lalu meminta mereka mendeskripsikannya dalam bahasa asli mereka, termasuk Dholuo, Kikuyu, Kalenjin, Maasai, dan Somalia.
Pendekatan mereka memprioritaskan penggunaan bahasa sehari-hari yang autentik dibandingkan teks formal atau sastra.
“Ada dorongan besar menuju dataset yang dilokalkan, karena dampaknya adalah menangkap orang-orang dalam konteks lokal mereka,” kata Wanzare.
Di Afrika Selatan, Vukosi Marivate, ilmuwan komputer di Universitas Pretoria, memimpin pengumpulan data untuk tujuh bahasa—termasuk Setswana, isiZulu, isiXhosa, Sesotho, Sepedi, isiNdebele, dan Tshivenda.
Timnya bekerja sama dengan konsorsium organisasi untuk menciptakan model bahasa AI yang kemudian dapat dikembangkan lebih lanjut oleh perusahaan teknologi.
Selain pencapaian teknis, African Next Voices merepresentasikan pergeseran filosofi tentang bagaimana pengembangan AI seharusnya dilakukan.
Jika banyak perusahaan teknologi memperlakukan bahasa Afrika sebagai hal sepele yang baru diurus setelah pasar yang menguntungkan jenuh, inisiatif ini justru menempatkannya sebagai subjek utama yang layak mendapat sumber daya dan keahlian khusus.
Dokumentasi metodologi proyek ini akan dibagikan bersama data, sehingga peneliti di tempat lain dapat mereplikasi pekerjaan ini untuk bahasa-bahasa terpinggirkan lainnya di seluruh dunia.
Organisasi seperti Masakhane telah membangun jaringan kuat yang fokus pada pemrosesan bahasa alami, menunjukkan potensi besar ketika bahasa Afrika dikembangkan oleh orang Afrika, untuk orang Afrika.
Dengan mengambil langkah sendiri, komunitas ini menunjukkan bahwa masa depan kecerdasan buatan dapat dibentuk sesuai kehendak mereka, alih-alih menunggu Silicon Valley memutuskan siapa yang berhak memiliki suara.