Author: "Sibanda, Blessing" - Searchworks@Jio Institute Digital Library Search Results

Your search keyword '"Sibanda, Blessing"' showing total 21 results

Start Over Author "Sibanda, Blessing"

21 results on '"Sibanda, Blessing"'

1. IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models

Author: Adelani, David Ifeoluwa, Ojo, Jessica, Azime, Israel Abebe, Zhuang, Jian Yun, Alabi, Jesujoba O., He, Xuanli, Ochieng, Millicent, Hooker, Sara, Bukula, Andiswa, Lee, En-Shiun Annie, Chukwuneke, Chiamaka, Buzaaba, Happy, Sibanda, Blessing, Kalipe, Godson, Mukiibi, Jonathan, Kabongo, Salomon, Yuehgoh, Foutse, Setaka, Mmasibidi, Ndolela, Lolwethu, Odu, Nkiruka, Mabuya, Rooweither, Muhammad, Shamsuddeen Hassan, Osei, Salomey, Samb, Sokhar, Guge, Tadesse Kebede, and Stenetorp, Pontus
Subjects: Computer Science - Computation and Language, Computer Science - Artificial Intelligence
Abstract: Despite the widespread adoption of Large language models (LLMs), their remarkable capabilities remain limited to a few high-resource languages. Additionally, many low-resource languages (e.g. African languages) are often evaluated only on basic text classification tasks due to the lack of appropriate or comprehensive benchmarks outside of high-resource languages. In this paper, we introduce IrokoBench -- a human-translated benchmark dataset for 16 typologically-diverse low-resource African languages covering three tasks: natural language inference~(AfriXNLI), mathematical reasoning~(AfriMGSM), and multi-choice knowledge-based QA~(AfriMMLU). We use IrokoBench to evaluate zero-shot, few-shot, and translate-test settings~(where test sets are translated into English) across 10 open and four proprietary LLMs. Our evaluation reveals a significant performance gap between high-resource languages~(such as English and French) and low-resource African languages. We observe a significant performance gap between open and proprietary models, with the highest performing open model, Aya-101 only at 58\% of the best-performing proprietary model GPT-4o performance. Machine translating the test set to English before evaluation helped to close the gap for larger models that are English-centric, like LLaMa 3 70B. These findings suggest that more efforts are needed to develop and adapt LLMs for African languages., Comment: Under review
Published: 2024

2. MasakhaPOS: Part-of-Speech Tagging for Typologically Diverse African Languages

Author: Dione, Cheikh M. Bamba, Adelani, David, Nabende, Peter, Alabi, Jesujoba, Sindane, Thapelo, Buzaaba, Happy, Muhammad, Shamsuddeen Hassan, Emezue, Chris Chinenye, Ogayo, Perez, Aremu, Anuoluwapo, Gitau, Catherine, Mbaye, Derguene, Mukiibi, Jonathan, Sibanda, Blessing, Dossou, Bonaventure F. P., Bukula, Andiswa, Mabuya, Rooweither, Tapo, Allahsera Auguste, Munkoh-Buabeng, Edwin, Koagne, victoire Memdjokam, Kabore, Fatoumata Ouoba, Taylor, Amelia, Kalipe, Godson, Macucwa, Tebogo, Marivate, Vukosi, Gwadabe, Tajuddeen, Elvis, Mboning Tchiaze, Onyenwe, Ikechukwu, Atindogbe, Gratien, Adelani, Tolulope, Akinade, Idris, Samuel, Olanrewaju, Nahimana, Marien, Musabeyezu, Théogène, Niyomutabazi, Emile, Chimhenga, Ester, Gotosa, Kudzai, Mizha, Patrick, Agbolo, Apelete, Traore, Seydou, Uchechukwu, Chinedu, Yusuf, Aliyu, Abdullahi, Muhammad, and Klakow, Dietrich
Subjects: Computer Science - Computation and Language
Abstract: In this paper, we present MasakhaPOS, the largest part-of-speech (POS) dataset for 20 typologically diverse African languages. We discuss the challenges in annotating POS for these languages using the UD (universal dependencies) guidelines. We conducted extensive POS baseline experiments using conditional random field and several multilingual pre-trained language models. We applied various cross-lingual transfer models trained with data available in UD. Evaluating on the MasakhaPOS dataset, we show that choosing the best transfer language(s) in both single-source and multi-source setups greatly improves the POS tagging performance of the target languages, in particular when combined with cross-lingual parameter-efficient fine-tuning methods. Crucially, transferring knowledge from a language that matches the language family and morphosyntactic properties seems more effective for POS tagging in unseen languages., Comment: Accepted to ACL 2023 (Main conference)
Published: 2023

3. MasakhaNEWS: News Topic Classification for African languages

Author: Adelani, David Ifeoluwa, Masiak, Marek, Azime, Israel Abebe, Alabi, Jesujoba, Tonja, Atnafu Lambebo, Mwase, Christine, Ogundepo, Odunayo, Dossou, Bonaventure F. P., Oladipo, Akintunde, Nixdorf, Doreen, Emezue, Chris Chinenye, al-azzawi, sana, Sibanda, Blessing, David, Davis, Ndolela, Lolwethu, Mukiibi, Jonathan, Ajayi, Tunde, Moteu, Tatiana, Odhiambo, Brian, Owodunni, Abraham, Obiefuna, Nnaemeka, Mohamed, Muhidin, Muhammad, Shamsuddeen Hassan, Ababu, Teshome Mulugeta, Salahudeen, Saheed Abdullahi, Yigezu, Mesay Gemeda, Gwadabe, Tajuddeen, Abdulmumin, Idris, Taye, Mahlet, Awoyomi, Oluwabusayo, Shode, Iyanuoluwa, Adelani, Tolulope, Abdulganiyu, Habiba, Omotayo, Abdul-Hakeem, Adeeko, Adetola, Afolabi, Abeeb, Aremu, Anuoluwapo, Samuel, Olanrewaju, Siro, Clemencia, Kimotho, Wangari, Ogbu, Onyekachi, Mbonu, Chinedu, Chukwuneke, Chiamaka, Fanijo, Samuel, Ojo, Jessica, Awosan, Oyinkansola, Kebede, Tadesse, Sakayo, Toadoum Sari, Nyatsine, Pamela, Sidume, Freedmore, Yousuf, Oreen, Oduwole, Mardiyyah, Tshinu, Tshinu, Kimanuka, Ussen, Diko, Thina, Nxakama, Siyanda, Nigusse, Sinodos, Johar, Abdulmejid, Mohamed, Shafie, Hassan, Fuad Mire, Mehamed, Moges Ahmed, Ngabire, Evrard, Jules, Jules, Ssenkungu, Ivan, and Stenetorp, Pontus
Subjects: Computer Science - Computation and Language
Abstract: African languages are severely under-represented in NLP research due to lack of datasets covering several NLP tasks. While there are individual language specific datasets that are being expanded to different tasks, only a handful of NLP tasks (e.g. named entity recognition and machine translation) have standardized benchmark datasets covering several geographical and typologically-diverse African languages. In this paper, we develop MasakhaNEWS -- a new benchmark dataset for news topic classification covering 16 languages widely spoken in Africa. We provide an evaluation of baseline models by training classical machine learning models and fine-tuning several language models. Furthermore, we explore several alternatives to full fine-tuning of language models that are better suited for zero-shot and few-shot learning such as cross-lingual parameter-efficient fine-tuning (like MAD-X), pattern exploiting training (PET), prompting language models (like ChatGPT), and prompt-free sentence transformer fine-tuning (SetFit and Cohere Embedding API). Our evaluation in zero-shot setting shows the potential of prompting ChatGPT for news topic classification in low-resource African languages, achieving an average performance of 70 F1 points without leveraging additional supervision like MAD-X. In few-shot setting, we show that with as little as 10 examples per label, we achieved more than 90\% (i.e. 86.0 F1 points) of the performance of full supervised training (92.6 F1 points) leveraging the PET approach., Comment: Accepted to IJCNLP-AACL 2023 (main conference)
Published: 2023

4. MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition

Author: Adelani, David Ifeoluwa, Neubig, Graham, Ruder, Sebastian, Rijhwani, Shruti, Beukman, Michael, Palen-Michel, Chester, Lignos, Constantine, Alabi, Jesujoba O., Muhammad, Shamsuddeen H., Nabende, Peter, Dione, Cheikh M. Bamba, Bukula, Andiswa, Mabuya, Rooweither, Dossou, Bonaventure F. P., Sibanda, Blessing, Buzaaba, Happy, Mukiibi, Jonathan, Kalipe, Godson, Mbaye, Derguene, Taylor, Amelia, Kabore, Fatoumata, Emezue, Chris Chinenye, Aremu, Anuoluwapo, Ogayo, Perez, Gitau, Catherine, Munkoh-Buabeng, Edwin, Koagne, Victoire M., Tapo, Allahsera Auguste, Macucwa, Tebogo, Marivate, Vukosi, Mboning, Elvis, Gwadabe, Tajuddeen, Adewumi, Tosin, Ahia, Orevaoghene, Nakatumba-Nabende, Joyce, Mokono, Neo L., Ezeani, Ignatius, Chukwuneke, Chiamaka, Adeyemi, Mofetoluwa, Hacheme, Gilles Q., Abdulmumin, Idris, Ogundepo, Odunayo, Yousuf, Oreen, Ngoli, Tatiana Moteu, and Klakow, Dietrich
Subjects: Computer Science - Computation and Language
Abstract: African languages are spoken by over a billion people, but are underrepresented in NLP research and development. The challenges impeding progress include the limited availability of annotated datasets, as well as a lack of understanding of the settings where current methods are effective. In this paper, we make progress towards solutions for these challenges, focusing on the task of named entity recognition (NER). We create the largest human-annotated NER dataset for 20 African languages, and we study the behavior of state-of-the-art cross-lingual transfer methods in an Africa-centric setting, demonstrating that the choice of source language significantly affects performance. We show that choosing the best transfer language improves zero-shot F1 scores by an average of 14 points across 20 languages compared to using English. Our results highlight the need for benchmark datasets and models that cover typologically-diverse African languages., Comment: Accepted to EMNLP 2022 (updated Github link)
Published: 2022

5. A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models for African News Translation

Author: Adelani, David Ifeoluwa, Alabi, Jesujoba Oluwadara, Fan, Angela, Kreutzer, Julia, Shen, Xiaoyu, Reid, Machel, Ruiter, Dana, Klakow, Dietrich, Nabende, Peter, Chang, Ernie, Gwadabe, Tajuddeen, Sackey, Freshia, Dossou, Bonaventure F. P., Emezue, Chris Chinenye, Leong, Colin, Beukman, Michael, Muhammad, Shamsuddeen Hassan, Jarso, Guyo Dub, Yousuf, Oreen, Rubungo, Andre Niyongabo, Hacheme, Gilles, Wairagala, Eric Peter, Nasir, Muhammad Umair, Ajibade, Benjamin Ayoade, Ajayi, Tunde Oluwaseyi, Gitau, Yvonne Wambui, Abbott, Jade, Ahmed, Mohamed, Ochieng, Millicent, Aremu, Anuoluwapo, Ogayo, Perez, Mukiibi, Jonathan, Kabore, Fatoumata Ouoba, Kalipe, Godson Koffi, Mbaye, Derguene, Tapo, Allahsera Auguste, Koagne, Victoire Memdjokam, Munkoh-Buabeng, Edwin, Wagner, Valencia, Abdulmumin, Idris, Awokoya, Ayodele, Buzaaba, Happy, Sibanda, Blessing, Bukula, Andiswa, and Manthalu, Sam
Subjects: Computer Science - Computation and Language
Abstract: Recent advances in the pre-training of language models leverage large-scale datasets to create multilingual models. However, low-resource languages are mostly left out in these datasets. This is primarily because many widely spoken languages are not well represented on the web and therefore excluded from the large-scale crawls used to create datasets. Furthermore, downstream users of these models are restricted to the selection of languages originally chosen for pre-training. This work investigates how to optimally leverage existing pre-trained models to create low-resource translation systems for 16 African languages. We focus on two questions: 1) How can pre-trained models be used for languages not included in the initial pre-training? and 2) How can the resulting translation models effectively transfer to new domains? To answer these questions, we create a new African news corpus covering 16 languages, of which eight languages are not part of any existing evaluation dataset. We demonstrate that the most effective strategy for transferring both to additional languages and to additional domains is to fine-tune large pre-trained models on small quantities of high-quality translation data., Comment: Accepted to NAACL 2022 (added evaluation data for amh, kin, nya, sna, xho)
Published: 2022

6. MasakhaNER: Named Entity Recognition for African Languages

Author: Adelani, David Ifeoluwa, Abbott, Jade, Neubig, Graham, D'souza, Daniel, Kreutzer, Julia, Lignos, Constantine, Palen-Michel, Chester, Buzaaba, Happy, Rijhwani, Shruti, Ruder, Sebastian, Mayhew, Stephen, Azime, Israel Abebe, Muhammad, Shamsuddeen, Emezue, Chris Chinenye, Nakatumba-Nabende, Joyce, Ogayo, Perez, Aremu, Anuoluwapo, Gitau, Catherine, Mbaye, Derguene, Alabi, Jesujoba, Yimam, Seid Muhie, Gwadabe, Tajuddeen, Ezeani, Ignatius, Niyongabo, Rubungo Andre, Mukiibi, Jonathan, Otiende, Verrah, Orife, Iroro, David, Davis, Ngom, Samba, Adewumi, Tosin, Rayson, Paul, Adeyemi, Mofetoluwa, Muriuki, Gerald, Anebi, Emmanuel, Chukwuneke, Chiamaka, Odu, Nkiruka, Wairagala, Eric Peter, Oyerinde, Samuel, Siro, Clemencia, Bateesa, Tobius Saul, Oloyede, Temilola, Wambui, Yvonne, Akinode, Victor, Nabagereka, Deborah, Katusiime, Maurice, Awokoya, Ayodele, MBOUP, Mouhamadane, Gebreyohannes, Dibora, Tilaye, Henok, Nwaike, Kelechi, Wolde, Degaga, Faye, Abdoulaye, Sibanda, Blessing, Ahia, Orevaoghene, Dossou, Bonaventure F. P., Ogueji, Kelechi, DIOP, Thierno Ibrahima, Diallo, Abdoulaye, Akinfaderin, Adewale, Marengereke, Tendai, and Osei, Salomey
Subjects: Computer Science - Computation and Language, Computer Science - Artificial Intelligence
Abstract: We take a step towards addressing the under-representation of the African continent in NLP research by creating the first large publicly available high-quality dataset for named entity recognition (NER) in ten African languages, bringing together a variety of stakeholders. We detail characteristics of the languages to help researchers understand the challenges that these languages pose for NER. We analyze our datasets and conduct an extensive empirical evaluation of state-of-the-art methods across both supervised and transfer learning settings. We release the data, code, and models in order to inspire future research on African NLP., Comment: Accepted to TACL 2021, pre-MIT Press publication version
Published: 2021

7. Participatory Research for Low-resourced Machine Translation: A Case Study in African Languages

Author: Nekoto, Wilhelmina, Marivate, Vukosi, Matsila, Tshinondiwa, Fasubaa, Timi, Kolawole, Tajudeen, Fagbohungbe, Taiwo, Akinola, Solomon Oluwole, Muhammad, Shamsuddeen Hassan, Kabongo, Salomon, Osei, Salomey, Freshia, Sackey, Niyongabo, Rubungo Andre, Macharm, Ricky, Ogayo, Perez, Ahia, Orevaoghene, Meressa, Musie, Adeyemi, Mofe, Mokgesi-Selinga, Masabata, Okegbemi, Lawrence, Martinus, Laura Jane, Tajudeen, Kolawole, Degila, Kevin, Ogueji, Kelechi, Siminyu, Kathleen, Kreutzer, Julia, Webster, Jason, Ali, Jamiil Toure, Abbott, Jade, Orife, Iroro, Ezeani, Ignatius, Dangana, Idris Abdulkabir, Kamper, Herman, Elsahar, Hady, Duru, Goodness, Kioko, Ghollah, Murhabazi, Espoir, van Biljon, Elan, Whitenack, Daniel, Onyefuluchi, Christopher, Emezue, Chris, Dossou, Bonaventure, Sibanda, Blessing, Bassey, Blessing Itoro, Olabiyi, Ayodele, Ramkilowan, Arshath, Öktem, Alp, Akinfaderin, Adewale, and Bashir, Abdallah
Subjects: Computer Science - Computation and Language, Computer Science - Artificial Intelligence, Computer Science - Machine Learning
Abstract: Research in NLP lacks geographic diversity, and the question of how NLP can be scaled to low-resourced languages has not yet been adequately solved. "Low-resourced"-ness is a complex problem going beyond data availability and reflects systemic problems in society. In this paper, we focus on the task of Machine Translation (MT), that plays a crucial role for information accessibility and communication worldwide. Despite immense improvements in MT over the past decade, MT is centered around a few high-resourced languages. As MT researchers cannot solve the problem of low-resourcedness alone, we propose participatory research as a means to involve all necessary agents required in the MT development process. We demonstrate the feasibility and scalability of participatory research with a case study on MT for African languages. Its implementation leads to a collection of novel translation datasets, MT benchmarks for over 30 languages, with human evaluations for a third of them, and enables participants without formal training to make a unique scientific contribution. Benchmarks, models, data, code, and evaluation results are released under https://github.com/masakhane-io/masakhane-mt., Comment: Findings of EMNLP 2020; updated benchmarks
Published: 2020

8. Masakhane -- Machine Translation For Africa

Author: Orife, Iroro, Kreutzer, Julia, Sibanda, Blessing, Whitenack, Daniel, Siminyu, Kathleen, Martinus, Laura, Ali, Jamiil Toure, Abbott, Jade, Marivate, Vukosi, Kabongo, Salomon, Meressa, Musie, Murhabazi, Espoir, Ahia, Orevaoghene, van Biljon, Elan, Ramkilowan, Arshath, Akinfaderin, Adewale, Öktem, Alp, Akin, Wole, Kioko, Ghollah, Degila, Kevin, Kamper, Herman, Dossou, Bonaventure, Emezue, Chris, Ogueji, Kelechi, and Bashir, Abdallah
Subjects: Computer Science - Computation and Language
Abstract: Africa has over 2000 languages. Despite this, African languages account for a small portion of available resources and publications in Natural Language Processing (NLP). This is due to multiple factors, including: a lack of focus from government and funding, discoverability, a lack of community, sheer language complexity, difficulty in reproducing papers and no benchmarks to compare techniques. To begin to address the identified problems, MASAKHANE, an open-source, continent-wide, distributed, online research effort for machine translation for African languages, was founded. In this paper, we discuss our methodology for building the community and spurring research from the African continent, as well as outline the success of the community in terms of addressing the identified problems affecting African NLP., Comment: Accepted for the AfricaNLP Workshop, ICLR 2020
Published: 2020

9. Consultative engagement of stakeholders toward a roadmap for African language technologies

Author: Siminyu, Kathleen, Abbott, Jade, Túbọ̀sún, Kọ́lá, Anuoluwapo, Aremu, Sibanda, Blessing K., Yeboah, Kofi, Adelani, David, Mokgesi-Selinga, Masabata, Apina, Frederick R., Mthembu, Angela Thandizwe, Ramkilowan, Arshath, and Oladimeji, Babatunde
Published: 2023
Full Text: View/download PDF

10. Systematic Review of Plant Pest and Disease Identification Strategies and Techniques in Mobile Apps

Author: Sibanda, Blessing K., Iyawa, Gloria E., Gamundani, Attlee M., Kacprzyk, Janusz, Series Editor, Pal, Nikhil R., Advisory Editor, Bello Perez, Rafael, Advisory Editor, Corchado, Emilio S., Advisory Editor, Hagras, Hani, Advisory Editor, Kóczy, László T., Advisory Editor, Kreinovich, Vladik, Advisory Editor, Lin, Chin-Teng, Advisory Editor, Lu, Jie, Advisory Editor, Melin, Patricia, Advisory Editor, Nedjah, Nadia, Advisory Editor, Nguyen, Ngoc Thanh, Advisory Editor, Wang, Jun, Advisory Editor, Rocha, Álvaro, editor, Adeli, Hojjat, editor, Dzemyda, Gintautas, editor, Moreira, Fernando, editor, and Ramalho Correia, Ana Maria, editor
Published: 2021
Full Text: View/download PDF

11. MasakhaNEWS:News Topic Classification for African languages

Author: Adelani, David Ifeoluwa, Chukwuneke, Chiamaka I., Masiak, Marek, Azime, Israel Abebe, Alabi, Jesujoba Oluwadara, Tonja, Atnafu Lambebo, Mwase, Christine, Ogundepo, Odunayo, Dossou, Bonaventure F. P., Oladipo, Akintunde, Nixdorf, Doreen, Emezue, Chris Chinenye, al-azzawi, Sana Sabah, Sibanda, Blessing K., David, Davis, Ndolela, Lolwethu, Mukiibi, Jonathan, Ajayi, Tunde Oluwaseyi, Ngoli, Tatiana Moteu, Odhiambo, Brian, Mbonu, Chinedu E., Owodunni, Abraham Toluwase, Obiefuna, Nnaemeka C., Muhammad, Shamsuddeen Hassan, Abdullahi, Saheed Salahudeen, Yigezu, Mesay Gemeda, Gwadabe, Tajuddeen, Abdulmumin, Idris, Bame, Mahlet Taye, Awoyomi, Oluwabusayo Olufunke, Shode, Iyanuoluwa, Adelani, Tolulope Anu, Kailani, Habiba Abdulganiy, Omotayo, Abdul-Hakeem, Adeeko, Adetola, Abeeb, Afolabi, Aremu, Anuoluwapo, Samuel, Olanrewaju, Siro, Clemencia, Kimotho, Wangari, Ogbu, Onyekachi Raphael, Fanijo, Samuel, Ojo, Jessica, Awosan, Oyinkansola F., Guge, Tadesse Kebede, Sari, Sakayo Toadoum, Nyatsine, Pamela, Sidume, Freedmore, Yousuf, Oreen, Oduwole, Mardiyyah, Kimanuka, Ussen, Tshinu, Kanda Patrick, Diko, Thina, Nxakama, Siyanda, Johar, Abdulmejid Tuni, Gebre, Sinodos, Mohamed, Muhidin, Mohamed, Shafie Abdi, Hassan, Fuad Mire, Mehamed, Moges Ahmed, Ngabire, Evrard, Stenetorp, Pontus, Adelani, David Ifeoluwa, Chukwuneke, Chiamaka I., Masiak, Marek, Azime, Israel Abebe, Alabi, Jesujoba Oluwadara, Tonja, Atnafu Lambebo, Mwase, Christine, Ogundepo, Odunayo, Dossou, Bonaventure F. P., Oladipo, Akintunde, Nixdorf, Doreen, Emezue, Chris Chinenye, al-azzawi, Sana Sabah, Sibanda, Blessing K., David, Davis, Ndolela, Lolwethu, Mukiibi, Jonathan, Ajayi, Tunde Oluwaseyi, Ngoli, Tatiana Moteu, Odhiambo, Brian, Mbonu, Chinedu E., Owodunni, Abraham Toluwase, Obiefuna, Nnaemeka C., Muhammad, Shamsuddeen Hassan, Abdullahi, Saheed Salahudeen, Yigezu, Mesay Gemeda, Gwadabe, Tajuddeen, Abdulmumin, Idris, Bame, Mahlet Taye, Awoyomi, Oluwabusayo Olufunke, Shode, Iyanuoluwa, Adelani, Tolulope Anu, Kailani, Habiba Abdulganiy, Omotayo, Abdul-Hakeem, Adeeko, Adetola, Abeeb, Afolabi, Aremu, Anuoluwapo, Samuel, Olanrewaju, Siro, Clemencia, Kimotho, Wangari, Ogbu, Onyekachi Raphael, Fanijo, Samuel, Ojo, Jessica, Awosan, Oyinkansola F., Guge, Tadesse Kebede, Sari, Sakayo Toadoum, Nyatsine, Pamela, Sidume, Freedmore, Yousuf, Oreen, Oduwole, Mardiyyah, Kimanuka, Ussen, Tshinu, Kanda Patrick, Diko, Thina, Nxakama, Siyanda, Johar, Abdulmejid Tuni, Gebre, Sinodos, Mohamed, Muhidin, Mohamed, Shafie Abdi, Hassan, Fuad Mire, Mehamed, Moges Ahmed, Ngabire, Evrard, and Stenetorp, Pontus
Abstract: African languages are severely under-represented in NLP research due to lack of datasets covering several NLP tasks. While there are individual language specific datasets that are being expanded to different tasks, only a handful of NLP tasks (e.g. named entity recognition and machine translation) have standardized benchmark datasets covering several geographical and typologically-diverse African languages. In this paper, we develop MasakhaNEWS -- a new benchmark dataset for news topic classification covering 16 languages widely spoken in Africa. We provide an evaluation of baseline models by training classical machine learning models and fine-tuning several language models. Furthermore, we explore several alternatives to full fine-tuning of language models that are better suited for zero-shot and few-shot learning such as cross-lingual parameter-efficient fine-tuning (like MAD-X), pattern exploiting training (PET), prompting language models (like ChatGPT), and prompt-free sentence transformer fine-tuning (SetFit and Cohere Embedding API). Our evaluation in zero-shot setting shows the potential of prompting ChatGPT for news topic classification in low-resource African languages, achieving an average performance of 70 F1 points without leveraging additional supervision like MAD-X. In few-shot setting, we show that with as little as 10 examples per label, we achieved more than 90\% (i.e. 86.0 F1 points) of the performance of full supervised training (92.6 F1 points) leveraging the PET approach.
Published: 2023

12. MasakhaPOS: Part-of-Speech Tagging for Typologically Diverse African languages

Author: Dione, Cheikh M. Bamba, primary, Adelani, David Ifeoluwa, additional, Nabende, Peter, additional, Alabi, Jesujoba, additional, Sindane, Thapelo, additional, Buzaaba, Happy, additional, Muhammad, Shamsuddeen Hassan, additional, Emezue, Chris Chinenye, additional, Ogayo, Perez, additional, Aremu, Anuoluwapo, additional, Gitau, Catherine, additional, Mbaye, Derguene, additional, Mukiibi, Jonathan, additional, Sibanda, Blessing, additional, Dossou, Bonaventure F. P., additional, Bukula, Andiswa, additional, Mabuya, Rooweither, additional, Tapo, Allahsera Auguste, additional, Munkoh-Buabeng, Edwin, additional, Memdjokam Koagne, Victoire, additional, Ouoba Kabore, Fatoumata, additional, Taylor, Amelia, additional, Kalipe, Godson, additional, Macucwa, Tebogo, additional, Marivate, Vukosi, additional, Gwadabe, Tajuddeen, additional, Elvis, Mboning Tchiaze, additional, Onyenwe, Ikechukwu, additional, Atindogbe, Gratien, additional, Adelani, Tolulope, additional, Akinade, Idris, additional, Samuel, Olanrewaju, additional, Nahimana, Marien, additional, Musabeyezu, Théogène, additional, Niyomutabazi, Emile, additional, Chimhenga, Ester, additional, Gotosa, Kudzai, additional, Mizha, Patrick, additional, Agbolo, Apelete, additional, Traore, Seydou, additional, Uchechukwu, Chinedu, additional, Yusuf, Aliyu, additional, Abdullahi, Muhammad, additional, and Klakow, Dietrich, additional
Published: 2023
Full Text: View/download PDF

13. A Few Thousand Translations Go A Long Way! Leveraging Pre-trained Models for African News Translation

Author: Adelani, David, Alabi, Jesujoba, Fan, Angela, Kreutzer, Julia, Shen, Xiaoyu, Reid, Machel, Ruiter, Dana, Klakow, Dietrich, Nabende, Peter, Chang, Ernie, Gwadabe, Tajuddeen, Sackey, Freshia, Dossou, Bonaventure F. P., Emezue, Chris, Leong, Colin, Beukman, Michael, Muhammad, Shamsuddeen, Jarso, Guyo, Yousuf, Oreen, Rubungo, Andre Niyongabo, Hacheme, Gilles, Wairagala, Eric Peter, Nasir, Muhammad Umair, Ajibade, Benjamin, Ajayi, Tunde, Gitau, Yvonne, Abbott, Jade, Ahmed, Mohamed, Ochieng, Millicent, Aremu, Anuoluwapo, Ogayo, Perez, Mukiibi, Jonathan, Kabore, Fatoumata Ouoba, Kalipe, Godson, Mbaye, Derguene, Tapo, Allahsera Auguste, Koagne, Victoire Memdjokam, Munkoh-Buabeng, Edwin, Wagner, Valencia, Abdulmumin, Idris, Awokoya, Ayodele, Buzaaba, Happy, Sibanda, Blessing, Bukula, Andiswa, Manthalu, Sam, Adelani, David, Alabi, Jesujoba, Fan, Angela, Kreutzer, Julia, Shen, Xiaoyu, Reid, Machel, Ruiter, Dana, Klakow, Dietrich, Nabende, Peter, Chang, Ernie, Gwadabe, Tajuddeen, Sackey, Freshia, Dossou, Bonaventure F. P., Emezue, Chris, Leong, Colin, Beukman, Michael, Muhammad, Shamsuddeen, Jarso, Guyo, Yousuf, Oreen, Rubungo, Andre Niyongabo, Hacheme, Gilles, Wairagala, Eric Peter, Nasir, Muhammad Umair, Ajibade, Benjamin, Ajayi, Tunde, Gitau, Yvonne, Abbott, Jade, Ahmed, Mohamed, Ochieng, Millicent, Aremu, Anuoluwapo, Ogayo, Perez, Mukiibi, Jonathan, Kabore, Fatoumata Ouoba, Kalipe, Godson, Mbaye, Derguene, Tapo, Allahsera Auguste, Koagne, Victoire Memdjokam, Munkoh-Buabeng, Edwin, Wagner, Valencia, Abdulmumin, Idris, Awokoya, Ayodele, Buzaaba, Happy, Sibanda, Blessing, Bukula, Andiswa, and Manthalu, Sam
Abstract: Recent advances in the pre-training of language models leverage large-scale datasets to create multilingual models. However, low-resource languages are mostly left out in these datasets. This is primarily because many widely spoken languages are not well represented on the web and therefore excluded from the large-scale crawls used to create datasets. Furthermore, downstream users of these models are restricted to the selection of languages originally chosen for pre-training. This work investigates how to optimally leverage existing pre-trained models to create low-resource translation systems for 16 African languages. We focus on two questions: 1) How can pre-trained models be used for languages not included in the initial pre-training? and 2) How can the resulting translation models effectively transfer to new domains? To answer these questions, we create a new African news corpus covering 16 languages, of which eight languages are not part of any existing evaluation dataset. We demonstrate that the most effective strategy for transferring both to additional languages and to additional domains is to fine-tune large pre-trained models on small quantities of high-quality translation data.
Published: 2022

14. MasakhaNER 2.0:Africa-centric Transfer Learning for Named Entity Recognition

Author: Adelani, David Ifeoluwa, Neubig, Graham, Ruder, Sebastian, Rijhwani, Shruti, Beukman, Michael, Palen-Michel, Chester, Lignos, Constantine, Alabi, Jesujoba O., Muhammad, Shamsuddeen Hassan, Nabende, Peter, Dione, Cheikh M. Bamba, Bukula, Andiswa, Mabuya, Rooweither, Dossou, Bonaventure F. P., Sibanda, Blessing, Buzaaba, Happy, Mukiibi, Jonathan, Kalipe, Godson, Mbaye, Derguene, Taylor, Amelia, Kabore, Fatoumata Ouoba, Emezue, Chris Chinenye, Anuoluwapo, Aremu, Ogayo, Perez, Gitau, Catherine, Munkoh-Buabeng, Edwin, Koagne, Victoire Memdjokam, Tapo, Allahsera Auguste, Macucwa, Tebogo, Marivate, Vukosi, Mboning, Elvis, Gwadabe, Tajuddeen, Adewumi, Tosin P., Ahia, Orevaoghene, Nakatumba-Nabende, Joyce, Mokono, Neo L., Ezeani, Ignatius, Chukwuneke, Chiamaka, Adeyemi, Mofetoluwa, Hacheme, Gilles, Abdulmumin, Idris, Ogundepo, Odunayo, Yousuf, Oreen, Ngoli, Tatiana Moteu, Klakow, Dietrich, Adelani, David Ifeoluwa, Neubig, Graham, Ruder, Sebastian, Rijhwani, Shruti, Beukman, Michael, Palen-Michel, Chester, Lignos, Constantine, Alabi, Jesujoba O., Muhammad, Shamsuddeen Hassan, Nabende, Peter, Dione, Cheikh M. Bamba, Bukula, Andiswa, Mabuya, Rooweither, Dossou, Bonaventure F. P., Sibanda, Blessing, Buzaaba, Happy, Mukiibi, Jonathan, Kalipe, Godson, Mbaye, Derguene, Taylor, Amelia, Kabore, Fatoumata Ouoba, Emezue, Chris Chinenye, Anuoluwapo, Aremu, Ogayo, Perez, Gitau, Catherine, Munkoh-Buabeng, Edwin, Koagne, Victoire Memdjokam, Tapo, Allahsera Auguste, Macucwa, Tebogo, Marivate, Vukosi, Mboning, Elvis, Gwadabe, Tajuddeen, Adewumi, Tosin P., Ahia, Orevaoghene, Nakatumba-Nabende, Joyce, Mokono, Neo L., Ezeani, Ignatius, Chukwuneke, Chiamaka, Adeyemi, Mofetoluwa, Hacheme, Gilles, Abdulmumin, Idris, Ogundepo, Odunayo, Yousuf, Oreen, Ngoli, Tatiana Moteu, and Klakow, Dietrich
Abstract: African languages are spoken by over a billion people, but are underrepresented in NLP research and development. The challenges impeding progress include the limited availability of annotated datasets, as well as a lack of understanding of the settings where current methods are effective. In this paper, we make progress towards solutions for these challenges, focusing on the task of named entity recognition (NER). We create the largest human-annotated NER dataset for 20 African languages, and we study the behavior of state-of-the-art cross-lingual transfer methods in an Africa-centric setting, demonstrating that the choice of source language significantly affects performance. We show that choosing the best transfer language improves zero-shot F1 scores by an average of 14 points across 20 languages compared to using English. Our results highlight the need for benchmark datasets and models that cover typologically-diverse African languages.
Published: 2022

15. Building Together - Towards a Roadmap for African Language Technologies

Author: Siminyu, Kathleen, primary, Abbott, Jade, additional, Tubosun, Kola, additional, Anuoluwapo, Aremu, additional, Sibanda, Blessing K., additional, Yeboah, Kofi, additional, Adelani, David, additional, Mokgesi-Selinga, Masabata, additional, Apina, Frederick R., additional, Mthembu, Angela Thandizwe, additional, Ramkilowan, Arshath, additional, and Oladimeji, Babatunde, additional
Published: 2022
Full Text: View/download PDF

16. MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition

Author: Adelani, David, primary, Neubig, Graham, additional, Ruder, Sebastian, additional, Rijhwani, Shruti, additional, Beukman, Michael, additional, Palen-Michel, Chester, additional, Lignos, Constantine, additional, Alabi, Jesujoba, additional, Muhammad, Shamsuddeen, additional, Nabende, Peter, additional, Dione, Cheikh M. Bamba, additional, Bukula, Andiswa, additional, Mabuya, Rooweither, additional, Dossou, Bonaventure F. P., additional, Sibanda, Blessing, additional, Buzaaba, Happy, additional, Mukiibi, Jonathan, additional, Kalipe, Godson, additional, Mbaye, Derguene, additional, Taylor, Amelia, additional, Kabore, Fatoumata, additional, Emezue, Chris Chinenye, additional, Aremu, Anuoluwapo, additional, Ogayo, Perez, additional, Gitau, Catherine, additional, Munkoh-Buabeng, Edwin, additional, Memdjokam Koagne, Victoire, additional, Tapo, Allahsera Auguste, additional, Macucwa, Tebogo, additional, Marivate, Vukosi, additional, Elvis, Mboning Tchiaze, additional, Gwadabe, Tajuddeen, additional, Adewumi, Tosin, additional, Ahia, Orevaoghene, additional, Nakatumba-Nabende, Joyce, additional, Mokono, Neo Lerato, additional, Ezeani, Ignatius, additional, Chukwuneke, Chiamaka, additional, Oluwaseun Adeyemi, Mofetoluwa, additional, Hacheme, Gilles Quentin, additional, Abdulmumin, Idris, additional, Ogundepo, Odunayo, additional, Yousuf, Oreen, additional, Moteu, Tatiana, additional, and Klakow, Dietrich, additional
Published: 2022
Full Text: View/download PDF

17. A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models for African News Translation

Author: Adelani, David, primary, Alabi, Jesujoba, additional, Fan, Angela, additional, Kreutzer, Julia, additional, Shen, Xiaoyu, additional, Reid, Machel, additional, Ruiter, Dana, additional, Klakow, Dietrich, additional, Nabende, Peter, additional, Chang, Ernie, additional, Gwadabe, Tajuddeen, additional, Sackey, Freshia, additional, Dossou, Bonaventure F. P., additional, Emezue, Chris, additional, Leong, Colin, additional, Beukman, Michael, additional, Muhammad, Shamsuddeen, additional, Jarso, Guyo, additional, Yousuf, Oreen, additional, Niyongabo Rubungo, Andre, additional, Hacheme, Gilles, additional, Wairagala, Eric Peter, additional, Nasir, Muhammad Umair, additional, Ajibade, Benjamin, additional, Ajayi, Tunde, additional, Gitau, Yvonne, additional, Abbott, Jade, additional, Ahmed, Mohamed, additional, Ochieng, Millicent, additional, Aremu, Anuoluwapo, additional, Ogayo, Perez, additional, Mukiibi, Jonathan, additional, Ouoba Kabore, Fatoumata, additional, Kalipe, Godson, additional, Mbaye, Derguene, additional, Tapo, Allahsera Auguste, additional, Memdjokam Koagne, Victoire, additional, Munkoh-Buabeng, Edwin, additional, Wagner, Valencia, additional, Abdulmumin, Idris, additional, Awokoya, Ayodele, additional, Buzaaba, Happy, additional, Sibanda, Blessing, additional, Bukula, Andiswa, additional, and Manthalu, Sam, additional
Published: 2022
Full Text: View/download PDF

18. Mobile apps utilising AI for plant disease identification: A systematic review of user reviews

Author: Sibanda, Blessing K., primary, Iyawa, Gloria E., additional, and Gamundani, Attlee M., additional
Published: 2021
Full Text: View/download PDF

19. Participatory Research for Low-resourced Machine Translation:A Case Study in African Languages

Author: Nekoto, Wilhelmina, Marivate, Vukosi, Matsila, Tshinondiwa, Fasubaa, Timi, Kolawole, Tajudeen, Fagbohungbe, Taiwo, Akinola, Solomon Oluwole, Muhammad, Shamsuddeen Hassan, Kabongo, Salomon, Osei, Salomey, Freshia, Sackey, Niyongabo, Rubungo Andre, Macharm, Ricky, Ogayo, Perez, Ahia, Orevaoghene, Meressa, Musie, Adeyemi, Mofe, Mokgesi-Selinga, Masabata, Okegbemi, Lawrence, Martinus, Laura Jane, Tajudeen, Kolawole, Degila, Kevin, Ogueji, Kelechi, Siminyu, Kathleen, Kreutzer, Julia, Webster, Jason, Ali, Jamiil Toure, Abbott, Jade, Orife, Iroro, Ezeani, Ignatius, Dangana, Idris Abdulkabir, Kamper, Herman, Elsahar, Hady, Duru, Goodness, Kioko, Ghollah, Murhabazi, Espoir, Biljon, Elan van, Whitenack, Daniel, Onyefuluchi, Christopher, Emezue, Chris, Dossou, Bonaventure, Sibanda, Blessing, Bassey, Blessing Itoro, Olabiyi, Ayodele, Ramkilowan, Arshath, Öktem, Alp, Akinfaderin, Adewale, Bashir, Abdallah, Nekoto, Wilhelmina, Marivate, Vukosi, Matsila, Tshinondiwa, Fasubaa, Timi, Kolawole, Tajudeen, Fagbohungbe, Taiwo, Akinola, Solomon Oluwole, Muhammad, Shamsuddeen Hassan, Kabongo, Salomon, Osei, Salomey, Freshia, Sackey, Niyongabo, Rubungo Andre, Macharm, Ricky, Ogayo, Perez, Ahia, Orevaoghene, Meressa, Musie, Adeyemi, Mofe, Mokgesi-Selinga, Masabata, Okegbemi, Lawrence, Martinus, Laura Jane, Tajudeen, Kolawole, Degila, Kevin, Ogueji, Kelechi, Siminyu, Kathleen, Kreutzer, Julia, Webster, Jason, Ali, Jamiil Toure, Abbott, Jade, Orife, Iroro, Ezeani, Ignatius, Dangana, Idris Abdulkabir, Kamper, Herman, Elsahar, Hady, Duru, Goodness, Kioko, Ghollah, Murhabazi, Espoir, Biljon, Elan van, Whitenack, Daniel, Onyefuluchi, Christopher, Emezue, Chris, Dossou, Bonaventure, Sibanda, Blessing, Bassey, Blessing Itoro, Olabiyi, Ayodele, Ramkilowan, Arshath, Öktem, Alp, Akinfaderin, Adewale, and Bashir, Abdallah
Abstract: Research in NLP lacks geographic diversity, and the question of how NLP can be scaled to low-resourced languages has not yet been adequately solved. "Low-resourced"-ness is a complex problem going beyond data availability and reflects systemic problems in society. In this paper, we focus on the task of Machine Translation (MT), that plays a crucial role for information accessibility and communication worldwide. Despite immense improvements in MT over the past decade, MT is centered around a few high-resourced languages. As MT researchers cannot solve the problem of low-resourcedness alone, we propose participatory research as a means to involve all necessary agents required in the MT development process. We demonstrate the feasibility and scalability of participatory research with a case study on MT for African languages. Its implementation leads to a collection of novel translation datasets, MT benchmarks for over 30 languages, with human evaluations for a third of them, and enables participants without formal training to make a unique scientific contribution. Benchmarks, models, data, code, and evaluation results are released under https://github.com/masakhane-io/masakhane-mt.
Published: 2020

20. MasakhaNER: Named Entity Recognition for African Languages

Author: Adelani, David Ifeoluwa, primary, Abbott, Jade, additional, Neubig, Graham, additional, D’souza, Daniel, additional, Kreutzer, Julia, additional, Lignos, Constantine, additional, Palen-Michel, Chester, additional, Buzaaba, Happy, additional, Rijhwani, Shruti, additional, Ruder, Sebastian, additional, Mayhew, Stephen, additional, Azime, Israel Abebe, additional, Muhammad, Shamsuddeen H., additional, Emezue, Chris Chinenye, additional, Nakatumba-Nabende, Joyce, additional, Ogayo, Perez, additional, Anuoluwapo, Aremu, additional, Gitau, Catherine, additional, Mbaye, Derguene, additional, Alabi, Jesujoba, additional, Yimam, Seid Muhie, additional, Gwadabe, Tajuddeen Rabiu, additional, Ezeani, Ignatius, additional, Niyongabo, Rubungo Andre, additional, Mukiibi, Jonathan, additional, Otiende, Verrah, additional, Orife, Iroro, additional, David, Davis, additional, Ngom, Samba, additional, Adewumi, Tosin, additional, Rayson, Paul, additional, Adeyemi, Mofetoluwa, additional, Muriuki, Gerald, additional, Anebi, Emmanuel, additional, Chukwuneke, Chiamaka, additional, Odu, Nkiruka, additional, Wairagala, Eric Peter, additional, Oyerinde, Samuel, additional, Siro, Clemencia, additional, Bateesa, Tobius Saul, additional, Oloyede, Temilola, additional, Wambui, Yvonne, additional, Akinode, Victor, additional, Nabagereka, Deborah, additional, Katusiime, Maurice, additional, Awokoya, Ayodele, additional, MBOUP, Mouhamadane, additional, Gebreyohannes, Dibora, additional, Tilaye, Henok, additional, Nwaike, Kelechi, additional, Wolde, Degaga, additional, Faye, Abdoulaye, additional, Sibanda, Blessing, additional, Ahia, Orevaoghene, additional, Dossou, Bonaventure F. P., additional, Ogueji, Kelechi, additional, DIOP, Thierno Ibrahima, additional, Diallo, Abdoulaye, additional, Akinfaderin, Adewale, additional, Marengereke, Tendai, additional, and Osei, Salomey, additional
Published: 2021
Full Text: View/download PDF

21. Participatory Research for Low-resourced Machine Translation: A Case Study in African Languages

Author: Nekoto, Wilhelmina, primary, Marivate, Vukosi, additional, Matsila, Tshinondiwa, additional, Fasubaa, Timi, additional, Fagbohungbe, Taiwo, additional, Akinola, Solomon Oluwole, additional, Muhammad, Shamsuddeen, additional, Kabongo Kabenamualu, Salomon, additional, Osei, Salomey, additional, Sackey, Freshia, additional, Niyongabo, Rubungo Andre, additional, Macharm, Ricky, additional, Ogayo, Perez, additional, Ahia, Orevaoghene, additional, Berhe, Musie Meressa, additional, Adeyemi, Mofetoluwa, additional, Mokgesi-Selinga, Masabata, additional, Okegbemi, Lawrence, additional, Martinus, Laura, additional, Tajudeen, Kolawole, additional, Degila, Kevin, additional, Ogueji, Kelechi, additional, Siminyu, Kathleen, additional, Kreutzer, Julia, additional, Webster, Jason, additional, Ali, Jamiil Toure, additional, Abbott, Jade, additional, Orife, Iroro, additional, Ezeani, Ignatius, additional, Dangana, Idris Abdulkadir, additional, Kamper, Herman, additional, Elsahar, Hady, additional, Duru, Goodness, additional, Kioko, Ghollah, additional, Espoir, Murhabazi, additional, van Biljon, Elan, additional, Whitenack, Daniel, additional, Onyefuluchi, Christopher, additional, Emezue, Chris Chinenye, additional, Dossou, Bonaventure F. P., additional, Sibanda, Blessing, additional, Bassey, Blessing, additional, Olabiyi, Ayodele, additional, Ramkilowan, Arshath, additional, Öktem, Alp, additional, Akinfaderin, Adewale, additional, and Bashir, Abdallah, additional
Published: 2020
Full Text: View/download PDF

Catalog

Books, media, physical & digital resources

See catalog results

Searchworks

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources

Refine your results

21 results on '"Sibanda, Blessing"'

1. IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models

2. MasakhaPOS: Part-of-Speech Tagging for Typologically Diverse African Languages

3. MasakhaNEWS: News Topic Classification for African languages

4. MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition

5. A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models for African News Translation

6. MasakhaNER: Named Entity Recognition for African Languages

7. Participatory Research for Low-resourced Machine Translation: A Case Study in African Languages

8. Masakhane -- Machine Translation For Africa

9. Consultative engagement of stakeholders toward a roadmap for African language technologies

10. Systematic Review of Plant Pest and Disease Identification Strategies and Techniques in Mobile Apps

11. MasakhaNEWS:News Topic Classification for African languages

12. MasakhaPOS: Part-of-Speech Tagging for Typologically Diverse African languages

13. A Few Thousand Translations Go A Long Way! Leveraging Pre-trained Models for African News Translation

14. MasakhaNER 2.0:Africa-centric Transfer Learning for Named Entity Recognition

15. Building Together - Towards a Roadmap for African Language Technologies

16. MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition

17. A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models for African News Translation

18. Mobile apps utilising AI for plant disease identification: A systematic review of user reviews

19. Participatory Research for Low-resourced Machine Translation:A Case Study in African Languages

20. MasakhaNER: Named Entity Recognition for African Languages

21. Participatory Research for Low-resourced Machine Translation: A Case Study in African Languages

Catalog

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Search

Search Constraints

Refine your results

Search Limiters

Topic

Publication Year Range

Language

Publication Type

Journal

Database

Publisher

21 results on '"Sibanda, Blessing"'

Search Results

Catalog

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources