Back to Search Start Over

Patolojik seslerin tanisi için derin ögrenme tabanli tibbi karar destek sisteminin gelistirilmesi

Authors :
Eroğul, Osman
Bigat, İrem
Eroğul, Osman
Bigat, İrem
Publication Year :
2023

Abstract

The disruption of normal speech flow due to pathological conditions is known as a voice disorder. Therefore, any existing disorder disrupts the speech production system's functioning and produces a distorted voice. Since some laryngeal pathologies are life-threatening, the early detection of voice disorders is important. For this purpose, there is a need to develop a decision support system in the detection of pathological voices. In recent years, machine learning methods have become an interesting research topic to determine pathological voices in order to obtain an individual-level answer, since statistical methods give a group-based result in the evaluation of features extracted from voices. However, since machine learning requires manual extraction of features, deep learning techniques, in which optimal features can be extracted automatically, have become one of the current research topics. However, there are only few research studies on the use of deep learning techniques in the detection of pathological voice disorders. In this thesis study, deep learning methods were used to identify pathological voices. The voice recordings of patients with pathologies causing organic dysphonia due to structural changes in the vocal cords were selected from the Saarbruecken Voice Database. These pathologies included laryngitis, leukoplakia, Reinke's edema, recurrent laryngeal nerve paralysis, vocal cord carcinoma, and vocal cord polyps. The sustained vowel /a/ at the neutral pitch of each individual was selected. The sample included a total of 760 recordings, of which 380 belonged to healthy voices and 380 belonged to pathological voices. The data were divided into training and test sets containing 75% and 25% of the samples, respectively. In the analysis of the samples, first, wavelet noise denoising was applied to the voice signals. Then, the spectrogram images of the voice signals were taken and utilized as inputs in four different Convolutional Neural Network (CNN) archi<br />Patolojik duruma bağlı olarak normal konuşma akışının bozulması, ses bozukluğu olarak bilinir. Bu nedenle, mevcut herhangi bir bozukluk, konuşma üretim sisteminin işleyişini bozar ve dolayısıyla bozuk bir ses üretir. Bazı laringeal patolojiler hayatı tehdit eder, bu nedenle ses bozukluğunun erken tespiti önemlidir. Patolojik seslerin tespitinde bir karar destek sisteminin geliştirilmesi hayati önem taşımaktadır. Patolojik seslerin belirlenmesi amacıyla seslerden çıkarılan özniteliklerin değerlendirilmesinde istatistiksel yöntemlerin grup bazında bir sonuç vermesi nedeniyle bireysel düzeyde bir cevap elde edilebilmesi amacıyla son yıllarda makine öğrenme yöntemleri araştırmacılar tarafından ilgi çekici bir konu olmuştur. Bununla birlikte makine öğrenmesinin özniteliklerin manuel çıkarılmasına ihtiyaç duyması nedeniyle optimal özniteliklerin otomatik olarak çıkarılabildiği derin öğrenme teknikleri araştırmacıların güncel araştırma konuları arasına girmiştir. Ancak henüz patolojik ses bozukluklarının tespiti alanında derin öğrenme tekniklerinin kullanımı ile ilgili az sayıda araştırma çalışması bulunmaktadır. Bu tez çalışmasında, patolojik seslerin belirlenmesi amacıyla derin öğrenme yöntemleri kullanılmıştır. Çalışmada Saarbruecken Ses Veritabanından vokal kordlardaki yapısal değişikliklerin neden olduğu organik disfoniye sebep olan patolojilere sahip hastaların ses kayıtları seçilmiştir. Bu patolojiler arasında larenjit, lökoplazi, Reinke ödemi, rekürren laringeal sinir felci, vokal kord karsinomu ve vokal kord polibi bulunmaktadır. Her bir bireyin nötr perdesinde sürekli sesli /a/ sesi kayıtları seçilmiştir. 380'i sağlıklı ve 380'i patolojik olmak üzere 760 ses kaydı kullanılmıştır. Veriler, sırasıyla %75 ve %25 örnek içeren eğitim seti ve test seti olarak ayrılmıştır. Ses sinyallerine öncelikle dalgacık gürültü giderme işlemi uygulanmıştır. Daha sonrasında ses sinyallerinin spektrogram görüntüleri alınarak dört faklı Evrişimsel Sinir Ağı (ESA) mimarisine girdi olar

Details

Database :
OAIster
Notes :
Turkish
Publication Type :
Electronic Resource
Accession number :
edsoai.on1427173395
Document Type :
Electronic Resource