20 results on '"Laine, Unto K.'
Search Results
2. Blind Segmentation of Speech Using Non-Linear Filtering Methods
- Author
-
Räsänen, Okko, Laine, Unto K., Altosaar, Toomas, Räsänen, Okko, Laine, Unto K., and Altosaar, Toomas
- Published
- 2011
- Full Text
- View/download PDF
3. Ääntöväylän liikeradan arviointi käyttäen häviöllistä Kelly-Lochbaum mallia
- Author
-
Räsänen, Okko, Elektroniikan, tietoliikenteen ja automaation tiedekunta, Laine, Unto K., Rasilo, Heikki, Räsänen, Okko, Elektroniikan, tietoliikenteen ja automaation tiedekunta, Laine, Unto K., and Rasilo, Heikki
- Abstract
On esitetty teorioita, joiden mukaan puheen ymmärtämistä helpottaa aikaisempi kokemus puheen tuottamisesta. Muuntamalla akustinen puhesignaali hypoteesiksi puhujan artikulaatioeleistä voidaan saavuttaa puhujariippumattomampi ja äänteitä paremmin erotteleva kuvaus puheesta. Tämä työ esittelee metodin, jolla ääntöväylän liikeratoja voidaan arvioida suoraan puhesignaaleista. Tässä työssä luodaan Kelly-Lochbaum-tyyppinen ääntöväylämalli käyttäen apuna puheentuottamisen teoriaa. Malli on varustettu huulisäteilyllä ja säädettävällä huulten pituudella. Mallia käyttäen luodaan hakutaulukko, joka kuvaa vastaavuuksia puheen hetkellisten spektriominaisuuksien ja artikulatoristen muotojen välillä. Hakutaulukkoa voidaan käyttää mappaukseen akustisen ja artikulatorisen avaruuden välillä. Luotua mallia käytetään ääntöväylän liikeratojen arvioinnissa jatkuvan puheen aikana. Liikeradat löydetään käyttämällä yksinkertaista optimointialgoritmia, joka estimoi liikeradan minimoimalla artikulaatioon kuluvaa energiaa., There are theories that during speech perception, the understanding of speech is boosted by the knowledge of the articulatory gestures based on former speech production experience. By transforming an acoustic speech signal into a hypothesis about the articulatory gestures of the speaker, it is possible to obtain a more accurate, speaker-independent description of speech. This thesis introduces a method of estimating vocal tract trajectories from speech signals. Using the theory of speech production, a lossy Kelly-Lochbaum vocal tract model equipped with lip radiation impedance and variable lip rounding length is created. A lookup table consisting of correspondences between spectral qualities of instantaneous speech signals and articulatory shapes is created using this model. The lookup table can be used to perform acoustic-to-articulatory mapping. The obtained model is used in estimation of vocal tract shape trajectories in continuous speech. Smooth and minimum energy trajectories are found by using a simple optimization algorithm.
- Published
- 2010
4. Puheen segmentointi ja klusterointi uutta puheentunnistimen arkkitehtuuria varten
- Author
-
Laine, Unto K.; Prof., Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, Räsänen, Okko, Laine, Unto K.; Prof., Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, and Räsänen, Okko
- Abstract
Perinteiset automaattiset puheentunnistusmenetelmät eivät pärjää suorituskyvyssä ihmisen puheenhavaintokyvylle. Voidaksemme kuroa tämän eron umpeen, on kehitettävä täysin uudentyyppisiä arkkitehtuureja puheentunnistusta varten. Puhetta ja kieltä itsestään ihmisen lailla oppiva järjestelmä on yksi tällainen vaihtoehto. Tämä diplomityö esittelee erään lähtökohdan oppivalle järjestelmälle, koostuen uudenlaisesta sokeasta puheen segmentointialgoritmista, segmenttien piirteistyksestä, sekä menetelmistä vähittäiselle puhedatan luokittelulle klusteroinnin avulla. Kaikki metodit arvioitiin kattavilla kokeilla, ja itse arviontimenetelmien luonteeseen kiinnitettiin huomiota. Segmentoinnissa saavutettiin alan kirjallisuuteen nähden hyvät tulokset. Järjestelmän mahdollisia jatkokehityssuuntauksia on hahmoteltu muunmuassa mahdollisten muistiarkkitehtuurien ja älykkään top-down palautteen osalta., To reduce the gap between performance of traditional speech recognition systems and human speech recognition skills, a new architecture is required. A system that is capable of incremental learning offers one such solution to this problem. This thesis introduces a bottom-up approach for such a speech processing system, consisting of a novel blind speech segmentation algorithm, a segmental feature extraction methodology, and data classification by incremental clustering. All methods were evaluated by extensive experiments with a broad range of test material and the evaluation methodology was itself also scrutinized. The segmentation algorithm achieved above standard quality results compared to what is found in current literature regarding blind segmentation. Possibilities for follow-up research of memory structures and intelligent top-down feedback in speech processing are also outlined.
- Published
- 2007
5. Lintulajien automaattinen tunnistaminen äänien avulla
- Author
-
Härmä, Aki; TkT, Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K.; Prof., Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, Fagerlund, Seppo, Härmä, Aki; TkT, Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K.; Prof., Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, and Fagerlund, Seppo
- Abstract
Lintujen äänet jaetaan niiden tehtävän perusteella lauluihin ja kutsuääniin, jotka edelleen jaetaan hierarkisen tason perusteella virkkeisiin, tavuihin ja elementteihin. Näistä tavu on sopiva yksikkö lajitunnistukseen. Erityyppisten äänten kirjo linnuilla on laaja. Tässä työssä keskitytään ääniin, jotka määritellään epäharmonisiksi. Tässä työssä käytettävä lintulajien automaattinen tunnistusjärjestelmä sisältää seuraavat vaiheet: tavujen segmentointi, piirteiden irrotus sekä luokittelijan opetus ja arviointi. Kaikki lajitunnistuskokeilut perustuvat tavujen parametriseen esitykseen käyttäen 19:ta matalan tason äänisignaalin parametria. Tunnistuskokeet toteutettiin kuudella lajilla, jotka tuottavat usein epäharmonisia ääniä. Tulosten perusteella piirteet, jotka liittyvät äänten taajuuskaistaan ja -sisältöön luokittelevat hyvin nämä äänet., Bird sounds are divided by their function into songs and calls which are further divided into hierarchical levels of phrases, syllables and elements. It is shown that syllable is suitable unit for recognition of bird species. Diversity within different types of syllables birds are able to produce is large. In this thesis main focus is sounds that are defined inharmonic. Automatic recognition system for bird species used in this thesis consist of segmentation of syllables, feature generation, classifier design and classifier evaluation phases. Recognition experinments are based on parametric representation of syllables using a total of 19 low level acoustical signal parameters. Simulation experinments were executed with six species that regularly produce inharmonic sounds. Results shows that features related to the frequency band and content of the sound provide good discrimination ability within these sounds.
- Published
- 2007
6. A Review of Articulatory Speech Synthesis
- Author
-
Vainio, Martti, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., Palo, Pertti, Vainio, Martti, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., and Palo, Pertti
- Published
- 2006
7. Nykyisten suomenkielisten tekstistä puheeksi -järjestelmien auditorisen laadun selvittäminen
- Author
-
Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K.; Prof., Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, Ojala, Tino, Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K.; Prof., Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, and Ojala, Tino
- Abstract
Puhetta tuottavat tietokonejärjestelmät ovat kehittyneet niin eteviksi, että ne voivat lukea paljasta tekstisyötettä sujuvasti. Koska näillä tekstistä puheeksi -järjestelmillä kuitenkin mitä ilmeisimmin on eroja havaitussa äänenlaadussa, on tarvetta tutkia laatuun vaikuttavia tekijöitä ja saada kvantitatiivisia mittaustuloksia niistä. Synteettisen puheen tutkimus on perinteisesti tehty valtavirran kielillä. Lisäksi sellaiset tutkimukset ovat harvinaisia, jotka selvittävät järjestelmien yleistä kyvykkyyttä kommunikaatioon sen sijaan, että keskittyisivät puheentuoton yksityiskohtiin. Tässä työssä suomenkielisten tekstistä puheeksi -järjestelmien lauseymmärrettävyyttä testataan puheen ymmärrettävyyskynnys -testillä, joka on alunperin tarkoitettu mittaamaan ihmisten kuulovamman astetta. Testissä etsitään sellaista puheen voimakkuustasoa, joka on juuri ja juuri ymmärrettävissä kohinan seasta. "Puheen ymmärrettävyyskynnys" -testi pystyy tehokkaasti osoittamaan eron eri tekstistä puheeksi -järjestelmien välillä. Järjestelmä, joka tuottaa puhetta parametreista, paljastuu ymmärrettävämmäksi kuin järjestelmät, jotka tuottavat puhetta liittämällä ennalta äänitettyjä puhenäytteitä yhteen. Syinä tähän ovat parempi spektrisovitus kuuloon, juohevampi äänivirta, pienempi särö ja paremmat mahdollisuudet prosodian mallintamiseen., Speech-producing computer systems have evolved so intelligent, that they fluently can read plain text input. Since these text-to-speech systems apparently have differences in the perceived sound quality, there is a need for research into the factors that affect the quality, and a need for the quantitative measurements of those factors. Studies concerning synthetic speech have traditionally been conducted only for systems speaking languages of mainstream. In addition, there is only a limited amount of studies for the overall communicative capabilities of the systems, instead of concentrating into the details in speech production. In this work, the Finnish text-to-speech systems are evaluated for their sentence-level intelligibility in terms of "speech reception threshold" test, which was originally developed for testing the degree of hearing-impairment in humans. The test seeks for the speech presentation level that is barely intelligible in presence of noise. "Speech reception threshold" test can effectively tell the difference in text-to-speech systems. A system, which produces sound from parameters, is found more intelligible over the systems that produce speech by concatenating pre-recorded speech samples. Reasons to this are the better spectral fit into the human hearing, smoother continuity of audio flow, less distortion and better possibilities for prosody modelling.
- Published
- 2006
8. Maximum Entropy Modeling and Semantic Concept Detection
- Author
-
Iyengar, Giridharan, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., Argillander, Janne, Iyengar, Giridharan, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., and Argillander, Janne
- Abstract
Saatavilla olevan multimedian määrä on kasvanut niin suureksi, että sen hallinta ilman apuvälineitä on mahdotonta. Tätä hallintaa helpottavat hakumenetelmät, joiden avulla voidaan siirtyä multimediaesityksessä haluttuun kohtaan. Nämä hakumenetelmät perustuvat olemassa oleviin indekseihin, jotka on luotu käsin. Nykyään keskimääräisen käyttäjän kotikoneelta löytyy kuitenkin niin paljon multimediatiedostoja, että niiden manuaalinen läpikäyminen olisi liian työlästä. Tässä työssä haen ratkaisua tähän ongelmaan esittelemällä menetelmän, joka kykenee indeksoimaan multimediatiedostoja automaattisesti. Työssäni esittelemäni menetelmä käyttää hyödykseen sekä visuaalisia, että puheeseen perustuvia vihjeitä. Nämä vihjeet esitetään tilastolliselle maksimi-entropiaprosessille predikaattien avulla. Menetelmän suorituskyky on suoraan verrannollinen näiden predikaattien toimivuuteen. Tämän vuoksi predikaattien suunnittelu on yksi tämän työn keskeisimmistä kohdista. Tehdyt kokeet osoittavat, että multimodaalinen menetelmä toimii paremmin, kuin yhtä modaliteettia käyttävät menetelmät. Vertailu paljastaa myös, että esitetty menetelmä toimii vastaavalla tasolla TRECVID kilpailun voittaneen menetelmän kanssa. On myös huomioitava, että esitetty menetelmä on geneerinen ja TRECVID kilpailussa olleita menetelmiä huomattavasti yksinkertaisempi. Tämän vuoksi esitetty multimodaalinen menetelmä on lupaava ja jatkotutkimuksen arvoinen.
- Published
- 2005
9. Tutkielma revontuliin liittyvistä ääni- ja sähkökenttäilmiöistä
- Author
-
Laine, Unto K.; Prof., Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, Hautsalo, Janne, Laine, Unto K.; Prof., Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, and Hautsalo, Janne
- Abstract
Voimakkaiden revontulimyrskyjen aikana on kautta historian tehty havaintoja ääni-ilmiöistä. Koska näitä ääniä ei ole kyetty tallentamaan, on ilmiön todenperäisyys kyseenalaistettu. Toisaalta ääni-ilmiöiden kuulijahavaintoja käsittelevä tutkimus on tullut siihen lopputulokseen, että kyseessä on luultavasti todellinen, fysikaalinen ilmiö. Useat tutkimusryhmät ovat mitanneet revontulten aiheuttamia infraääniä, joita ihmiskorva ei kykene erottamaan. Harvat yritykset tallentaa kuultavaa ääntä ovat sen sijaan epäonnistuneet. Suurin yksittäinen syy epäonnistumisiin on se, että terve ihmiskorva on ollut yksinkertaisesti parempi väline hyvin heikkojen äänien rekisteröintiin kuin menneiden aikojen teknologia. Tämä diplomityö luo katsauksen aikaisempaan revontuliin liittyvien ääni-ilmiöiden tutkimukseen, joka on lähes täysin perustunut kuulijahavaintoihin. Työssä käsitellään myös Sodankylän geofysiikan observatorion ja Teknillisen korkeakoulun yhteistyössä järjestämän kuulijahavaintotutkimuksen tuloksia. Lisäksi revontuliin liittyvien ääni- ja sähkökenttäilmiöiden mittaamista varten kehitetty laitteisto esitellään. Mittalaitteiston avulla mitattuja datoja tutkitaan tilastollisten analyysimenetelmien avulla. Korrelaatiotulokset tukevat aikaisemmin mitattuja revontuliin liittyviä infraäänihavaintoja. Lisäksi mielenkiintoisimman äänitteen geomagneettisesti aktiivisimmassa jaksossa geomagneettinen aktiviteetti ja audiotaajuuksien ääniteho korreloivat, kun geomagneettista dataa on viivästetty suhteessa akustiseen dataan noin 0-70 sekuntia., Sounds that accompany intense auroral displays have been reported throughout history. Because there has been no instrumental evidence of the sounds, the idea that these sounds are the result of auroral processes has been questioned. At the same time, the research done on the observational material of the sounds has suggested that these sounds are real physical effects. Infrasound produced by aurora has been registered by a number of research teams. However, the few attempts to record audible aurora related sounds have failed. The biggest reason for the failure is that a healthy human ear has been a more sensitive instrument for the detection of faint sounds than the recording technology of the past. This thesis gives a review of the previous studies of aurora related sounds, which almost entirely deals with the observational reports. The results of the survey of aurora related sound reports by the public in Finland are presented, arranged as a co-operation between the Sodankylä Geophysical Observatory and Helsinki University of Technology. A measurement system for aurora related sound and electric field effects is introduced. The data collected by the introduced measurement set up is analyzed with the aid of statistical analyses. The correlation results lend support to the previous findings on auroral infrasounds. In addition, in the geomagnetically most active part of the most interesting measurement, a correlation is found between the geomagnetic activity and acoustic power in audible frequencies when the geomagnetic data is delayed about 0-70 seconds with respect to the acoustic data.
- Published
- 2005
10. Unsupervised segmentation of continuous speech using vectorautoregressive modeling
- Author
-
Laine, Unto K., Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Korhonen, Petri, Laine, Unto K., Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, and Korhonen, Petri
- Abstract
Tässä diplomityössä esitellään menetelmä jatkuvan puheen segmentoimiseen. Menetelmä perustuu vektoriautoregressiiviseen (VAR) mallinnukseen. VAR mallia käytetään aika-taajuus alueen muutoksien ennustamiseen. Ennustus tehdään sekä mallia edeltävälle datalle, että mallin jälkeen tulevalle osalle. Mallin antama ennustusvirhe kasvaa äännerajoilla. Näitä virhesignaaleja käytetään segmenttirajojen havaitsemiseen. Suurimmat muutokset antavat luotettavimman segmentoinnin. Itseohjaava menetelmä tuottaa segmenttejä, jotka koostuvat vaihtelevasta määrästä äänteitä. Menetelmän häiriönsietokykyä ja laatua testattiin käyttäen 201 suomen kielen lausetta. Puhujina oli kaksi miestä ja yksi nainen. Erityisesti klusiilien ja vokaalien väliset rajat havaittiin luotettavasti ja tarkasti.
- Published
- 2004
11. Implementation of speech user interface into IVR system
- Author
-
Vuoksinen, Jukka, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., Moilanen, Veli-Matti, Vuoksinen, Jukka, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., and Moilanen, Veli-Matti
- Published
- 2004
12. Frequency-Warped Linear Prediction and Speech Analysis
- Author
-
Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., Pohjalainen, Jouni, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., and Pohjalainen, Jouni
- Abstract
Lineaarinen ennustaminen on digitaalisessa signaalinkäsittelyssä paljon käytetty menetelmä spektrin verhokäyrän estimointiin. Spektrin verhokäyrämallit ovat käyttökelpoisia esimerkiksi monissa puheanalyysisovelluksissa, kuten automaattisen puheentunnistuksen piirteiden muodostusvaiheessa. Tavallisen lineaarisen ennustamisen käyttämä taajuusesitys voidaan muuntaa niin sanotuilla varppaustekniikoilla siten, että signaalinkäsittelyjärjestelmän taajuusresoluutio vastaa esimerkiksi ihmisen kuulon mukaista Bark-asteikkoa. Taajuusalueessa varpatulla lineaarisella ennustamisella voidaan täten tuottaa kuulon taajuusresoluutiota vastaavia spektrimalleja laajakaistaisista signaaleista. Menetelmän etuna on se, että auditorisesti olennainen informaatio voidaan kuvata pienemmällä määrällä malliparametreja. Tämä diplomityö käsittelee taajuusvarpatun lineaarisen ennustamisen toteutuksia erityisesti puheen spektrin mallintamisen kannalta. Työssä on kehitetty objektiivisia mallien laatumittoja, joilla on tarkasteltu tavallisen ja Bark-asteikolle varpatun lineaarisen ennustamisen keskeisiä eroja. Bark-asteikolle varpatulle lineaariselle ennustamiselle on määritetty näiden mittojen avulla puhekommunikaation kannalta sopivin alennettu asteluku eli malliparametrien määrä. Lisäksi työssä on tutkittu ja vertailtu keskenään kahta kehyspohjaista ja kahta laskennallisesti hieman tehokkaampaa adaptiivista menetelmää. Työssä on selvitetty, miten eri menetelmien aikaresoluutio voidaan parhaiten asettaa halutuksi.
- Published
- 2004
13. Triphone clustering in Finnish continuous speech recognition
- Author
-
Laine, Unto K., Teknillinen korkeakoulu, Helsinki University of Technology, Tietotekniikan osasto, Kurimo, Mikko, Ursin, Markku, Laine, Unto K., Teknillinen korkeakoulu, Helsinki University of Technology, Tietotekniikan osasto, Kurimo, Mikko, and Ursin, Markku
- Abstract
Tässä diplomityössä tutkitaan kontekstiriippuvien foneemimallien (trifonien) käyttöä suomenkielisen puhujariippuvan jatkuvan puheen tunnistimessa. Työn ensimmäisessä osassa tarkastellaan ihmisen puheentuotto- ja kuulojärjestelmiä, suomen kielen ominaisuuksia puheentunnistuksen kannalta sekä esitellään puheentunnistusjärjestelmien yleinen rakenne ja toiminta. Selostuksessa painotetaan foneemien kontekstiriippuvuutta sekä koartikulatorisia efektejä. Työn toisessa osassa opetetaan puhujariippuva tunnistin käyttäen kätkettyjä Markov-malleja (HMM) sekä Hidden Markov Model Toolkit (HTK)-ohjelmistoa. Trifoniklusteroinnissa kokeillaan datalähtöistä binääriseen päätöspuuhun perustuvaa menetelmää sekä menetelmiä, jotka käyttävät hyväkseen tietoa foneemien äännetyypeistä sekä ääntämispaikoista. Parhaat tunnistustulokset saavutetaan puuklusterointimenetelmällä, jolloin myös malleja on suurin määrä. Tunnistuskokeiden virheitä tarkastellaan laajasti. Foneemikohtaiset tyypilliset virheet ja eniten virheitä tuottaneet kontekstit analysoidaan.
- Published
- 2002
14. Implementation of isolated word speech recognizer on a digital sitnal processor
- Author
-
Lipasti, Lauri, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., Sääksjärvi, Joonas, Lipasti, Lauri, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., and Sääksjärvi, Joonas
- Abstract
Tässä diplomityössä tarkastellaan puheentunnistimen toteutusvaihtoehtoja. Tunnistin on erillään puhuttujen sanojen puheentunnistin, joka käyttää toimintoihinsa yhtä kiinteänpilkun laskentaa suorittavaa signaaliprosessoria. Toteutuksen tarvitseman signaaliprosessoriohjelman muistin määrä ja laskennan tarve ovat rajoitettuja, mikä on otettava huomioon vaihtoehtoja tarkasteltaessa. Kätkettyä Markov- paradigmaa (HMM) hyödyntävän tunnistimen toteuttamiseen valitaan kaksi eri Markov-mallin variaatiota. Diskreetti Markov- malli (DHMM) ja puolijatkuvan sekajakauman Markov- malli (SCHMM) vaikuttavat tunnistimen tarvitsemaan laskennan ja muistin määrään. Myös tunnistimen opetukseen tarvittavan datan määrä, ja siten tunnistimen käytettävyys, riippuu valitusta HMM-mallin tyypistä. Mallin ja sen parametroinnin ohella toinen puheentunnistimelle tärkeä toiminto on esikäsittely, jonka tarkoituksena on johtaa aikatason puhesignaalista piirrekuvaus, jonka luokittelu olisi mahdollisimman helppoa. Puheäänen laajan vaihtelevuuden takia tulisi piirrekuvauksen kyetä erottelemaan ne puhesignaalin ominaisuudet, jotka ovat kaikkein oleellisimpia tunnistuksen kannalta. Esikäsittelyn menetelminä työssä verrataan Mel-kepstrikertoimia (MFCC) ja Bark-kepstrikertoimia (BFCC), jotka molemmat hyödyntävät ihmisen kuuloaistia mallintavaa auditorista mallia. Puheentunnistimen toiminta huononee usein kuitenkin taustakohinan lisääntyessä. Taustakohinan ja -melun vaikutuksen vähentäminen on mahdollista joukolla kohinasietoisuutta parantavia menetelmiä. Tässä työssä kokeillaan kohinaspektrin vähennystä sekä puhuja-adaptaatiota MAP-menetelmällä. Parhaimman toteutusvaihtoehdon löytämiseksi arvioidaan kiinteänpilkun laskennan, sekä muisti- ja laskentakuorman tarve eri toteutusvaihtoehdoilla sekä tunnistimen toiminta mallinnetaan simulaatioiden avulla. Tulokset esitetään menetelmien vertailun, sekä tunnistimen käytettävyyttä parantavien lisäominaisuuksien, kuten sanahylkäyksen, osalta.
- Published
- 2002
15. Perceptual aspects and warped techniques in audio coding
- Author
-
Laine, Unto K., Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Karjalainen, Matti, Härmä, Aki, Laine, Unto K., Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Karjalainen, Matti, and Härmä, Aki
- Published
- 1997
16. Design and implementation of a real-time binaural room simulation system
- Author
-
Karjalainen, Matti, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkötekniikan osasto, Laine, Unto K., Huopaniemi, Jyri, Karjalainen, Matti, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkötekniikan osasto, Laine, Unto K., and Huopaniemi, Jyri
- Published
- 1995
17. Äänitasojen mittaaminen ja kuulovaurion riskin arvioiminen kuulokekuuntelussa
- Author
-
Teknillinen korkeakoulu, Helsinki University of Technology, Sähkötekniikan osasto, Laine, Unto K., Airo, Erkko, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkötekniikan osasto, Laine, Unto K., and Airo, Erkko
- Published
- 1995
18. The effects of bit-rate reduction on audio quality in broadcasting production technology
- Author
-
Sinkko, Raimo, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkötekniikan osasto, Laine, Unto K., Hahkio, Mikko, Sinkko, Raimo, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkötekniikan osasto, Laine, Unto K., and Hahkio, Mikko
- Published
- 1994
19. Real-Time Implementation Techniques for a Continuously Variable Digital Delay in Modeling Musical Instruments
- Author
-
Timo I. Laakso, Timo I. Laakso, Vesa Välimäki, Matti Karjalainen, Unto K. Laine, Timo I. Laakso, Timo I. Laakso, Vesa Välimäki, Matti Karjalainen, and Unto K. Laine
- Abstract
International Computer Music Conference Proceedings: vol. 1992, (dlps) bbp2372.1992.037, http://hdl.handle.net/2027/spo.bbp2372.1992.037, This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 3.0 License. Please contact mpub-help@umich.edu to use this work in a way not covered by the license.
- Published
- 1992
20. Transmission-Line Modeling and Real-Time Synthesis of String and Wind Instruments
- Author
-
Matti Karjalainen, Matti Karjalainen, Unto K. Laine, Timo Laakso, Vesa Valimaki, Matti Karjalainen, Matti Karjalainen, Unto K. Laine, Timo Laakso, and Vesa Valimaki
- Abstract
International Computer Music Conference Proceedings: vol. 1991, (dlps) bbp2372.1991.068, http://hdl.handle.net/2027/spo.bbp2372.1991.068, This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 3.0 License. Please contact mpub-help@umich.edu to use this work in a way not covered by the license.
- Published
- 1991
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.