1. A Comparative Study of ChatGPT-3.5 and Llama 3 in Swedish Sentiment Analysis
- Author
-
Diez Gonzalez, Alexander, Bälter, Linus, Diez Gonzalez, Alexander, and Bälter, Linus
- Abstract
This study investigates the capabilities of computer models that mimic natural human language, commonly known as large language models (LLMs), in classifying Swedish texts with binary labels. Specifically, the study compares the performance of OpenAI’s proprietary ChatGPT-3.5 and Meta AI's open source Llama 3 model, focusing on their ability to classify Swedish consumer reviews as having either positive or negative sentiments. Despite both models being primarily trained on English data, they both achieve accuracies of 97% in classifying Swedish texts. The study was conducted using a dataset consisting of ten thousand reviews from trustpilot.com. The models’ performance are analyzed using the metrics accuracy and F1 score. The discussion explores reliability and ethical concerns as well as nuances and challenges encountered during the classification process, including the handling of mixed sentiments and neutral expressions, which often lead to incorrect classifications. Future studies are suggested to explore the inclusion of a neutral sentiment and comparing performance with and without model fine-tuning. The study concludes that large language models, both proprietary and open source, can achieve high precision in sentiment analysis of Swedish texts., Denna studie undersöker förmågan hos datormodeller som efterliknar naturligt mänskligt språk, allmänt kända som språkmodeller (LLMs), att annotera svenska texter med en av två klasser. Mer specifikt jämför studien OpenAI:s proprietära ChatGPT-3.5:s och Meta AI:s öppna Llama 3:s förmåga att att klassificera svenska konsumentrecensioner som antingen positivt eller negativt laddade. Trots att båda modellerna är primärt tränade på engelskspråkig data uppnår de båda en precision på 97% för klassificeringarna. Studien genomfördes med ett dataset bestående av tiotusen recensioner från trustpilot.com. Modellernas prestanda analyserades med mätvärdena noggrannhet och F1-poäng. Bekymmer kring pålitlighet och etik diskuteras samt nyanser och utmaningar upptäckta under klassificeringsprocessen, inklusive hanteringen av blandade tonaliteter och neutrala uttryck, som ofta leder till inkorrekta klassificeringar. Framtida studier föreslås utforska inkluderingen av en klass för neutral tonalitet och att jämföra modellers prestanda med och utan finjustering av modellerna. Studien drar slutsatsen att språkmodeller, både proprietära och öppna, kan uppvisa hög precision för både positiva och negativa tonaliteter i svenska texter.
- Published
- 2024