1. Design and implementation of a platform independent automatic speech recognition system
- Author
-
Urgun, Doğan, Erden, Abdulkadir, Tora, Hakan, and Mekatronik Mühendisliği Anabilim Dalı
- Subjects
Mekatronik Mühendisliği ,Elektrik ve Elektronik Mühendisliği ,Mechatronics Engineering ,Computer Engineering and Computer Science and Control ,Electrical and Electronics Engineering ,Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol - Abstract
Bu tez içerisinde, 50 kelime ile sınırlı bir ayrık kelimeli hece tabanlı konuşma tanıma sistemi tasarlanmış ve test edilmiştir. Türkçenin sondan eklemeli yapısından dolayı kelime tabanlı bir yaklaşımın konuşma tanıma performansı üzerinde negatif etkisi olacaktır. Bu sebepten ötürü fonem tabanlı yapılar konuşma tanıma içinde geniş biçimde kullanılmaktadır ancak fonemlerin küçük boyutları onların tanınmasını zorlaştırmaktadır. Bu nedenle, bu tezde hece tabanlı bir yaklaşımın takip edilmesine karar verilmiştir.Bu tez kapsamında bir hece tespit etme algoritması tasarlanmıştır. Mel Frekansı Kepstral Katsayıları özellik çıkarmak üzere seçilmiştir ve Yapay Sinir Ağları hecelerin sınıflandırılmasında kullanılmıştır. Son olarak, Yapay Sinir Ağlarının sonuçları hece tabanlı sistem için tasarlanan dil modeli içerisinde işlenmiştir.Tasarlanan sistem 5 farklı kişiden 50 kelime için alınan 10 örnekle eğitilmiş ve test edilmiştir. Sistem yaklaşık %85 konuşma tanıma performansı göstermiştir. Ayrıca sistem eğitilmemiş bir konuşmacı tarafından da test edilmiş ve %75 konuşma tanıma performansı elde edilmiştir. In this thesis, an isolated word syllable based speech recognition system is designed and tested. The system is limited to 50 words in Turkish language. Because of the agglutinative nature of the Turkish language, a word based approach in speech recognition has a negative impact on system performance. For this reason, phoneme based structures are widely used in speech recognition but small unit size of phonemes introduces difficulty to their recognition. Hence it is decided to follow a syllable based approach in this thesis.In the scope of this study a syllable detection algorithm is designed. Mel Frequency Cepstral Coefficients are selected to extract features of the speech signal and Artificial Neural Networks are used to classify syllables. Finally, the results of the Artificial Neural Networks are processed in a language model which is designed for this syllable based system.The designed system is trained and tested with 10 samples of 5 different users for 50 different Turkish words. The system showed approximately 85% performance in recognition of speech. Moreover the system is tested for an untrained user and approximately 75% performance in recognition of speech is obtained. 76
- Published
- 2012