Author: "Laine, Unto K. / Database: OAIster - Searchworks@Jio Institute Digital Library Search Results

Your search keyword '"Laine, Unto K.' showing total 20 results

Start Over Author "Laine, Unto K. Database OAIster

20 results on '"Laine, Unto K.'

1. Blind Segmentation of Speech Using Non-Linear Filtering Methods

Author: Räsänen, Okko, Laine, Unto K., Altosaar, Toomas, Räsänen, Okko, Laine, Unto K., and Altosaar, Toomas
Published: 2011
Full Text: View/download PDF

2. Blind Segmentation of Speech Using Non-Linear Filtering Methods

Author: Räsänen, Okko, Laine, Unto K., Altosaar, Toomas, Räsänen, Okko, Laine, Unto K., and Altosaar, Toomas
Published: 2011
Full Text: View/download PDF

3. Ääntöväylän liikeradan arviointi käyttäen häviöllistä Kelly-Lochbaum mallia

Author: Räsänen, Okko, Elektroniikan, tietoliikenteen ja automaation tiedekunta, Laine, Unto K., Rasilo, Heikki, Räsänen, Okko, Elektroniikan, tietoliikenteen ja automaation tiedekunta, Laine, Unto K., and Rasilo, Heikki
Abstract: On esitetty teorioita, joiden mukaan puheen ymmärtämistä helpottaa aikaisempi kokemus puheen tuottamisesta. Muuntamalla akustinen puhesignaali hypoteesiksi puhujan artikulaatioeleistä voidaan saavuttaa puhujariippumattomampi ja äänteitä paremmin erotteleva kuvaus puheesta. Tämä työ esittelee metodin, jolla ääntöväylän liikeratoja voidaan arvioida suoraan puhesignaaleista. Tässä työssä luodaan Kelly-Lochbaum-tyyppinen ääntöväylämalli käyttäen apuna puheentuottamisen teoriaa. Malli on varustettu huulisäteilyllä ja säädettävällä huulten pituudella. Mallia käyttäen luodaan hakutaulukko, joka kuvaa vastaavuuksia puheen hetkellisten spektriominaisuuksien ja artikulatoristen muotojen välillä. Hakutaulukkoa voidaan käyttää mappaukseen akustisen ja artikulatorisen avaruuden välillä. Luotua mallia käytetään ääntöväylän liikeratojen arvioinnissa jatkuvan puheen aikana. Liikeradat löydetään käyttämällä yksinkertaista optimointialgoritmia, joka estimoi liikeradan minimoimalla artikulaatioon kuluvaa energiaa., There are theories that during speech perception, the understanding of speech is boosted by the knowledge of the articulatory gestures based on former speech production experience. By transforming an acoustic speech signal into a hypothesis about the articulatory gestures of the speaker, it is possible to obtain a more accurate, speaker-independent description of speech. This thesis introduces a method of estimating vocal tract trajectories from speech signals. Using the theory of speech production, a lossy Kelly-Lochbaum vocal tract model equipped with lip radiation impedance and variable lip rounding length is created. A lookup table consisting of correspondences between spectral qualities of instantaneous speech signals and articulatory shapes is created using this model. The lookup table can be used to perform acoustic-to-articulatory mapping. The obtained model is used in estimation of vocal tract shape trajectories in continuous speech. Smooth and minimum energy trajectories are found by using a simple optimization algorithm.
Published: 2010

4. Puheen segmentointi ja klusterointi uutta puheentunnistimen arkkitehtuuria varten

Author: Laine, Unto K.; Prof., Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, Räsänen, Okko, Laine, Unto K.; Prof., Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, and Räsänen, Okko
Abstract: Perinteiset automaattiset puheentunnistusmenetelmät eivät pärjää suorituskyvyssä ihmisen puheenhavaintokyvylle. Voidaksemme kuroa tämän eron umpeen, on kehitettävä täysin uudentyyppisiä arkkitehtuureja puheentunnistusta varten. Puhetta ja kieltä itsestään ihmisen lailla oppiva järjestelmä on yksi tällainen vaihtoehto. Tämä diplomityö esittelee erään lähtökohdan oppivalle järjestelmälle, koostuen uudenlaisesta sokeasta puheen segmentointialgoritmista, segmenttien piirteistyksestä, sekä menetelmistä vähittäiselle puhedatan luokittelulle klusteroinnin avulla. Kaikki metodit arvioitiin kattavilla kokeilla, ja itse arviontimenetelmien luonteeseen kiinnitettiin huomiota. Segmentoinnissa saavutettiin alan kirjallisuuteen nähden hyvät tulokset. Järjestelmän mahdollisia jatkokehityssuuntauksia on hahmoteltu muunmuassa mahdollisten muistiarkkitehtuurien ja älykkään top-down palautteen osalta., To reduce the gap between performance of traditional speech recognition systems and human speech recognition skills, a new architecture is required. A system that is capable of incremental learning offers one such solution to this problem. This thesis introduces a bottom-up approach for such a speech processing system, consisting of a novel blind speech segmentation algorithm, a segmental feature extraction methodology, and data classification by incremental clustering. All methods were evaluated by extensive experiments with a broad range of test material and the evaluation methodology was itself also scrutinized. The segmentation algorithm achieved above standard quality results compared to what is found in current literature regarding blind segmentation. Possibilities for follow-up research of memory structures and intelligent top-down feedback in speech processing are also outlined.
Published: 2007

5. Lintulajien automaattinen tunnistaminen äänien avulla

Author: Härmä, Aki; TkT, Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K.; Prof., Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, Fagerlund, Seppo, Härmä, Aki; TkT, Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K.; Prof., Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, and Fagerlund, Seppo
Abstract: Lintujen äänet jaetaan niiden tehtävän perusteella lauluihin ja kutsuääniin, jotka edelleen jaetaan hierarkisen tason perusteella virkkeisiin, tavuihin ja elementteihin. Näistä tavu on sopiva yksikkö lajitunnistukseen. Erityyppisten äänten kirjo linnuilla on laaja. Tässä työssä keskitytään ääniin, jotka määritellään epäharmonisiksi. Tässä työssä käytettävä lintulajien automaattinen tunnistusjärjestelmä sisältää seuraavat vaiheet: tavujen segmentointi, piirteiden irrotus sekä luokittelijan opetus ja arviointi. Kaikki lajitunnistuskokeilut perustuvat tavujen parametriseen esitykseen käyttäen 19:ta matalan tason äänisignaalin parametria. Tunnistuskokeet toteutettiin kuudella lajilla, jotka tuottavat usein epäharmonisia ääniä. Tulosten perusteella piirteet, jotka liittyvät äänten taajuuskaistaan ja -sisältöön luokittelevat hyvin nämä äänet., Bird sounds are divided by their function into songs and calls which are further divided into hierarchical levels of phrases, syllables and elements. It is shown that syllable is suitable unit for recognition of bird species. Diversity within different types of syllables birds are able to produce is large. In this thesis main focus is sounds that are defined inharmonic. Automatic recognition system for bird species used in this thesis consist of segmentation of syllables, feature generation, classifier design and classifier evaluation phases. Recognition experinments are based on parametric representation of syllables using a total of 19 low level acoustical signal parameters. Simulation experinments were executed with six species that regularly produce inharmonic sounds. Results shows that features related to the frequency band and content of the sound provide good discrimination ability within these sounds.
Published: 2007

6. A Review of Articulatory Speech Synthesis

Author: Vainio, Martti, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., Palo, Pertti, Vainio, Martti, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., and Palo, Pertti
Published: 2006

7. Nykyisten suomenkielisten tekstistä puheeksi -järjestelmien auditorisen laadun selvittäminen

Author: Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K.; Prof., Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, Ojala, Tino, Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K.; Prof., Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, and Ojala, Tino
Abstract: Puhetta tuottavat tietokonejärjestelmät ovat kehittyneet niin eteviksi, että ne voivat lukea paljasta tekstisyötettä sujuvasti. Koska näillä tekstistä puheeksi -järjestelmillä kuitenkin mitä ilmeisimmin on eroja havaitussa äänenlaadussa, on tarvetta tutkia laatuun vaikuttavia tekijöitä ja saada kvantitatiivisia mittaustuloksia niistä. Synteettisen puheen tutkimus on perinteisesti tehty valtavirran kielillä. Lisäksi sellaiset tutkimukset ovat harvinaisia, jotka selvittävät järjestelmien yleistä kyvykkyyttä kommunikaatioon sen sijaan, että keskittyisivät puheentuoton yksityiskohtiin. Tässä työssä suomenkielisten tekstistä puheeksi -järjestelmien lauseymmärrettävyyttä testataan puheen ymmärrettävyyskynnys -testillä, joka on alunperin tarkoitettu mittaamaan ihmisten kuulovamman astetta. Testissä etsitään sellaista puheen voimakkuustasoa, joka on juuri ja juuri ymmärrettävissä kohinan seasta. "Puheen ymmärrettävyyskynnys" -testi pystyy tehokkaasti osoittamaan eron eri tekstistä puheeksi -järjestelmien välillä. Järjestelmä, joka tuottaa puhetta parametreista, paljastuu ymmärrettävämmäksi kuin järjestelmät, jotka tuottavat puhetta liittämällä ennalta äänitettyjä puhenäytteitä yhteen. Syinä tähän ovat parempi spektrisovitus kuuloon, juohevampi äänivirta, pienempi särö ja paremmat mahdollisuudet prosodian mallintamiseen., Speech-producing computer systems have evolved so intelligent, that they fluently can read plain text input. Since these text-to-speech systems apparently have differences in the perceived sound quality, there is a need for research into the factors that affect the quality, and a need for the quantitative measurements of those factors. Studies concerning synthetic speech have traditionally been conducted only for systems speaking languages of mainstream. In addition, there is only a limited amount of studies for the overall communicative capabilities of the systems, instead of concentrating into the details in speech production. In this work, the Finnish text-to-speech systems are evaluated for their sentence-level intelligibility in terms of "speech reception threshold" test, which was originally developed for testing the degree of hearing-impairment in humans. The test seeks for the speech presentation level that is barely intelligible in presence of noise. "Speech reception threshold" test can effectively tell the difference in text-to-speech systems. A system, which produces sound from parameters, is found more intelligible over the systems that produce speech by concatenating pre-recorded speech samples. Reasons to this are the better spectral fit into the human hearing, smoother continuity of audio flow, less distortion and better possibilities for prosody modelling.
Published: 2006

8. Maximum Entropy Modeling and Semantic Concept Detection

Author: Iyengar, Giridharan, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., Argillander, Janne, Iyengar, Giridharan, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., and Argillander, Janne
Abstract: Saatavilla olevan multimedian määrä on kasvanut niin suureksi, että sen hallinta ilman apuvälineitä on mahdotonta. Tätä hallintaa helpottavat hakumenetelmät, joiden avulla voidaan siirtyä multimediaesityksessä haluttuun kohtaan. Nämä hakumenetelmät perustuvat olemassa oleviin indekseihin, jotka on luotu käsin. Nykyään keskimääräisen käyttäjän kotikoneelta löytyy kuitenkin niin paljon multimediatiedostoja, että niiden manuaalinen läpikäyminen olisi liian työlästä. Tässä työssä haen ratkaisua tähän ongelmaan esittelemällä menetelmän, joka kykenee indeksoimaan multimediatiedostoja automaattisesti. Työssäni esittelemäni menetelmä käyttää hyödykseen sekä visuaalisia, että puheeseen perustuvia vihjeitä. Nämä vihjeet esitetään tilastolliselle maksimi-entropiaprosessille predikaattien avulla. Menetelmän suorituskyky on suoraan verrannollinen näiden predikaattien toimivuuteen. Tämän vuoksi predikaattien suunnittelu on yksi tämän työn keskeisimmistä kohdista. Tehdyt kokeet osoittavat, että multimodaalinen menetelmä toimii paremmin, kuin yhtä modaliteettia käyttävät menetelmät. Vertailu paljastaa myös, että esitetty menetelmä toimii vastaavalla tasolla TRECVID kilpailun voittaneen menetelmän kanssa. On myös huomioitava, että esitetty menetelmä on geneerinen ja TRECVID kilpailussa olleita menetelmiä huomattavasti yksinkertaisempi. Tämän vuoksi esitetty multimodaalinen menetelmä on lupaava ja jatkotutkimuksen arvoinen.
Published: 2005

9. Tutkielma revontuliin liittyvistä ääni- ja sähkökenttäilmiöistä

Author: Laine, Unto K.; Prof., Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, Hautsalo, Janne, Laine, Unto K.; Prof., Department of Electrical and Communications Engineering, Sähkö- ja tietoliikennetekniikan osasto, Laboratory of Acoustics and Audio Signal Processing, Akustiikan ja äänenkäsittelytekniikan laboratorio, and Hautsalo, Janne
Abstract: Voimakkaiden revontulimyrskyjen aikana on kautta historian tehty havaintoja ääni-ilmiöistä. Koska näitä ääniä ei ole kyetty tallentamaan, on ilmiön todenperäisyys kyseenalaistettu. Toisaalta ääni-ilmiöiden kuulijahavaintoja käsittelevä tutkimus on tullut siihen lopputulokseen, että kyseessä on luultavasti todellinen, fysikaalinen ilmiö. Useat tutkimusryhmät ovat mitanneet revontulten aiheuttamia infraääniä, joita ihmiskorva ei kykene erottamaan. Harvat yritykset tallentaa kuultavaa ääntä ovat sen sijaan epäonnistuneet. Suurin yksittäinen syy epäonnistumisiin on se, että terve ihmiskorva on ollut yksinkertaisesti parempi väline hyvin heikkojen äänien rekisteröintiin kuin menneiden aikojen teknologia. Tämä diplomityö luo katsauksen aikaisempaan revontuliin liittyvien ääni-ilmiöiden tutkimukseen, joka on lähes täysin perustunut kuulijahavaintoihin. Työssä käsitellään myös Sodankylän geofysiikan observatorion ja Teknillisen korkeakoulun yhteistyössä järjestämän kuulijahavaintotutkimuksen tuloksia. Lisäksi revontuliin liittyvien ääni- ja sähkökenttäilmiöiden mittaamista varten kehitetty laitteisto esitellään. Mittalaitteiston avulla mitattuja datoja tutkitaan tilastollisten analyysimenetelmien avulla. Korrelaatiotulokset tukevat aikaisemmin mitattuja revontuliin liittyviä infraäänihavaintoja. Lisäksi mielenkiintoisimman äänitteen geomagneettisesti aktiivisimmassa jaksossa geomagneettinen aktiviteetti ja audiotaajuuksien ääniteho korreloivat, kun geomagneettista dataa on viivästetty suhteessa akustiseen dataan noin 0-70 sekuntia., Sounds that accompany intense auroral displays have been reported throughout history. Because there has been no instrumental evidence of the sounds, the idea that these sounds are the result of auroral processes has been questioned. At the same time, the research done on the observational material of the sounds has suggested that these sounds are real physical effects. Infrasound produced by aurora has been registered by a number of research teams. However, the few attempts to record audible aurora related sounds have failed. The biggest reason for the failure is that a healthy human ear has been a more sensitive instrument for the detection of faint sounds than the recording technology of the past. This thesis gives a review of the previous studies of aurora related sounds, which almost entirely deals with the observational reports. The results of the survey of aurora related sound reports by the public in Finland are presented, arranged as a co-operation between the Sodankylä Geophysical Observatory and Helsinki University of Technology. A measurement system for aurora related sound and electric field effects is introduced. The data collected by the introduced measurement set up is analyzed with the aid of statistical analyses. The correlation results lend support to the previous findings on auroral infrasounds. In addition, in the geomagnetically most active part of the most interesting measurement, a correlation is found between the geomagnetic activity and acoustic power in audible frequencies when the geomagnetic data is delayed about 0-70 seconds with respect to the acoustic data.
Published: 2005

10. Unsupervised segmentation of continuous speech using vectorautoregressive modeling

Author: Laine, Unto K., Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Korhonen, Petri, Laine, Unto K., Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, and Korhonen, Petri
Abstract: Tässä diplomityössä esitellään menetelmä jatkuvan puheen segmentoimiseen. Menetelmä perustuu vektoriautoregressiiviseen (VAR) mallinnukseen. VAR mallia käytetään aika-taajuus alueen muutoksien ennustamiseen. Ennustus tehdään sekä mallia edeltävälle datalle, että mallin jälkeen tulevalle osalle. Mallin antama ennustusvirhe kasvaa äännerajoilla. Näitä virhesignaaleja käytetään segmenttirajojen havaitsemiseen. Suurimmat muutokset antavat luotettavimman segmentoinnin. Itseohjaava menetelmä tuottaa segmenttejä, jotka koostuvat vaihtelevasta määrästä äänteitä. Menetelmän häiriönsietokykyä ja laatua testattiin käyttäen 201 suomen kielen lausetta. Puhujina oli kaksi miestä ja yksi nainen. Erityisesti klusiilien ja vokaalien väliset rajat havaittiin luotettavasti ja tarkasti.
Published: 2004

11. Implementation of speech user interface into IVR system

Author: Vuoksinen, Jukka, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., Moilanen, Veli-Matti, Vuoksinen, Jukka, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., and Moilanen, Veli-Matti
Published: 2004

12. Frequency-Warped Linear Prediction and Speech Analysis

Author: Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., Pohjalainen, Jouni, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., and Pohjalainen, Jouni
Abstract: Lineaarinen ennustaminen on digitaalisessa signaalinkäsittelyssä paljon käytetty menetelmä spektrin verhokäyrän estimointiin. Spektrin verhokäyrämallit ovat käyttökelpoisia esimerkiksi monissa puheanalyysisovelluksissa, kuten automaattisen puheentunnistuksen piirteiden muodostusvaiheessa. Tavallisen lineaarisen ennustamisen käyttämä taajuusesitys voidaan muuntaa niin sanotuilla varppaustekniikoilla siten, että signaalinkäsittelyjärjestelmän taajuusresoluutio vastaa esimerkiksi ihmisen kuulon mukaista Bark-asteikkoa. Taajuusalueessa varpatulla lineaarisella ennustamisella voidaan täten tuottaa kuulon taajuusresoluutiota vastaavia spektrimalleja laajakaistaisista signaaleista. Menetelmän etuna on se, että auditorisesti olennainen informaatio voidaan kuvata pienemmällä määrällä malliparametreja. Tämä diplomityö käsittelee taajuusvarpatun lineaarisen ennustamisen toteutuksia erityisesti puheen spektrin mallintamisen kannalta. Työssä on kehitetty objektiivisia mallien laatumittoja, joilla on tarkasteltu tavallisen ja Bark-asteikolle varpatun lineaarisen ennustamisen keskeisiä eroja. Bark-asteikolle varpatulle lineaariselle ennustamiselle on määritetty näiden mittojen avulla puhekommunikaation kannalta sopivin alennettu asteluku eli malliparametrien määrä. Lisäksi työssä on tutkittu ja vertailtu keskenään kahta kehyspohjaista ja kahta laskennallisesti hieman tehokkaampaa adaptiivista menetelmää. Työssä on selvitetty, miten eri menetelmien aikaresoluutio voidaan parhaiten asettaa halutuksi.
Published: 2004

13. Triphone clustering in Finnish continuous speech recognition

Author: Laine, Unto K., Teknillinen korkeakoulu, Helsinki University of Technology, Tietotekniikan osasto, Kurimo, Mikko, Ursin, Markku, Laine, Unto K., Teknillinen korkeakoulu, Helsinki University of Technology, Tietotekniikan osasto, Kurimo, Mikko, and Ursin, Markku
Abstract: Tässä diplomityössä tutkitaan kontekstiriippuvien foneemimallien (trifonien) käyttöä suomenkielisen puhujariippuvan jatkuvan puheen tunnistimessa. Työn ensimmäisessä osassa tarkastellaan ihmisen puheentuotto- ja kuulojärjestelmiä, suomen kielen ominaisuuksia puheentunnistuksen kannalta sekä esitellään puheentunnistusjärjestelmien yleinen rakenne ja toiminta. Selostuksessa painotetaan foneemien kontekstiriippuvuutta sekä koartikulatorisia efektejä. Työn toisessa osassa opetetaan puhujariippuva tunnistin käyttäen kätkettyjä Markov-malleja (HMM) sekä Hidden Markov Model Toolkit (HTK)-ohjelmistoa. Trifoniklusteroinnissa kokeillaan datalähtöistä binääriseen päätöspuuhun perustuvaa menetelmää sekä menetelmiä, jotka käyttävät hyväkseen tietoa foneemien äännetyypeistä sekä ääntämispaikoista. Parhaat tunnistustulokset saavutetaan puuklusterointimenetelmällä, jolloin myös malleja on suurin määrä. Tunnistuskokeiden virheitä tarkastellaan laajasti. Foneemikohtaiset tyypilliset virheet ja eniten virheitä tuottaneet kontekstit analysoidaan.
Published: 2002

14. Implementation of isolated word speech recognizer on a digital sitnal processor

Author: Lipasti, Lauri, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., Sääksjärvi, Joonas, Lipasti, Lauri, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Laine, Unto K., and Sääksjärvi, Joonas
Abstract: Tässä diplomityössä tarkastellaan puheentunnistimen toteutusvaihtoehtoja. Tunnistin on erillään puhuttujen sanojen puheentunnistin, joka käyttää toimintoihinsa yhtä kiinteänpilkun laskentaa suorittavaa signaaliprosessoria. Toteutuksen tarvitseman signaaliprosessoriohjelman muistin määrä ja laskennan tarve ovat rajoitettuja, mikä on otettava huomioon vaihtoehtoja tarkasteltaessa. Kätkettyä Markov- paradigmaa (HMM) hyödyntävän tunnistimen toteuttamiseen valitaan kaksi eri Markov-mallin variaatiota. Diskreetti Markov- malli (DHMM) ja puolijatkuvan sekajakauman Markov- malli (SCHMM) vaikuttavat tunnistimen tarvitsemaan laskennan ja muistin määrään. Myös tunnistimen opetukseen tarvittavan datan määrä, ja siten tunnistimen käytettävyys, riippuu valitusta HMM-mallin tyypistä. Mallin ja sen parametroinnin ohella toinen puheentunnistimelle tärkeä toiminto on esikäsittely, jonka tarkoituksena on johtaa aikatason puhesignaalista piirrekuvaus, jonka luokittelu olisi mahdollisimman helppoa. Puheäänen laajan vaihtelevuuden takia tulisi piirrekuvauksen kyetä erottelemaan ne puhesignaalin ominaisuudet, jotka ovat kaikkein oleellisimpia tunnistuksen kannalta. Esikäsittelyn menetelminä työssä verrataan Mel-kepstrikertoimia (MFCC) ja Bark-kepstrikertoimia (BFCC), jotka molemmat hyödyntävät ihmisen kuuloaistia mallintavaa auditorista mallia. Puheentunnistimen toiminta huononee usein kuitenkin taustakohinan lisääntyessä. Taustakohinan ja -melun vaikutuksen vähentäminen on mahdollista joukolla kohinasietoisuutta parantavia menetelmiä. Tässä työssä kokeillaan kohinaspektrin vähennystä sekä puhuja-adaptaatiota MAP-menetelmällä. Parhaimman toteutusvaihtoehdon löytämiseksi arvioidaan kiinteänpilkun laskennan, sekä muisti- ja laskentakuorman tarve eri toteutusvaihtoehdoilla sekä tunnistimen toiminta mallinnetaan simulaatioiden avulla. Tulokset esitetään menetelmien vertailun, sekä tunnistimen käytettävyyttä parantavien lisäominaisuuksien, kuten sanahylkäyksen, osalta.
Published: 2002

15. Perceptual aspects and warped techniques in audio coding

Author: Laine, Unto K., Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Karjalainen, Matti, Härmä, Aki, Laine, Unto K., Teknillinen korkeakoulu, Helsinki University of Technology, Sähkö- ja tietoliikennetekniikan osasto, Karjalainen, Matti, and Härmä, Aki
Published: 1997

16. Design and implementation of a real-time binaural room simulation system

Author: Karjalainen, Matti, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkötekniikan osasto, Laine, Unto K., Huopaniemi, Jyri, Karjalainen, Matti, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkötekniikan osasto, Laine, Unto K., and Huopaniemi, Jyri
Published: 1995

17. Äänitasojen mittaaminen ja kuulovaurion riskin arvioiminen kuulokekuuntelussa

Author: Teknillinen korkeakoulu, Helsinki University of Technology, Sähkötekniikan osasto, Laine, Unto K., Airo, Erkko, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkötekniikan osasto, Laine, Unto K., and Airo, Erkko
Published: 1995

18. The effects of bit-rate reduction on audio quality in broadcasting production technology

Author: Sinkko, Raimo, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkötekniikan osasto, Laine, Unto K., Hahkio, Mikko, Sinkko, Raimo, Teknillinen korkeakoulu, Helsinki University of Technology, Sähkötekniikan osasto, Laine, Unto K., and Hahkio, Mikko
Published: 1994

19. Real-Time Implementation Techniques for a Continuously Variable Digital Delay in Modeling Musical Instruments

Author: Timo I. Laakso, Timo I. Laakso, Vesa Välimäki, Matti Karjalainen, Unto K. Laine, Timo I. Laakso, Timo I. Laakso, Vesa Välimäki, Matti Karjalainen, and Unto K. Laine
Abstract: International Computer Music Conference Proceedings: vol. 1992, (dlps) bbp2372.1992.037, http://hdl.handle.net/2027/spo.bbp2372.1992.037, This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 3.0 License. Please contact mpub-help@umich.edu to use this work in a way not covered by the license.
Published: 1992

20. Transmission-Line Modeling and Real-Time Synthesis of String and Wind Instruments

Author: Matti Karjalainen, Matti Karjalainen, Unto K. Laine, Timo Laakso, Vesa Valimaki, Matti Karjalainen, Matti Karjalainen, Unto K. Laine, Timo Laakso, and Vesa Valimaki
Abstract: International Computer Music Conference Proceedings: vol. 1991, (dlps) bbp2372.1991.068, http://hdl.handle.net/2027/spo.bbp2372.1991.068, This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 3.0 License. Please contact mpub-help@umich.edu to use this work in a way not covered by the license.
Published: 1991

Catalog

Books, media, physical & digital resources

See catalog results

Searchworks

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources

Refine your results

20 results on '"Laine, Unto K.'

1. Blind Segmentation of Speech Using Non-Linear Filtering Methods

2. Blind Segmentation of Speech Using Non-Linear Filtering Methods

3. Ääntöväylän liikeradan arviointi käyttäen häviöllistä Kelly-Lochbaum mallia

4. Puheen segmentointi ja klusterointi uutta puheentunnistimen arkkitehtuuria varten

5. Lintulajien automaattinen tunnistaminen äänien avulla

6. A Review of Articulatory Speech Synthesis

7. Nykyisten suomenkielisten tekstistä puheeksi -järjestelmien auditorisen laadun selvittäminen

8. Maximum Entropy Modeling and Semantic Concept Detection

9. Tutkielma revontuliin liittyvistä ääni- ja sähkökenttäilmiöistä

10. Unsupervised segmentation of continuous speech using vectorautoregressive modeling

11. Implementation of speech user interface into IVR system

12. Frequency-Warped Linear Prediction and Speech Analysis

13. Triphone clustering in Finnish continuous speech recognition

14. Implementation of isolated word speech recognizer on a digital sitnal processor

15. Perceptual aspects and warped techniques in audio coding

16. Design and implementation of a real-time binaural room simulation system

17. Äänitasojen mittaaminen ja kuulovaurion riskin arvioiminen kuulokekuuntelussa

18. The effects of bit-rate reduction on audio quality in broadcasting production technology

19. Real-Time Implementation Techniques for a Continuously Variable Digital Delay in Modeling Musical Instruments

20. Transmission-Line Modeling and Real-Time Synthesis of String and Wind Instruments

Catalog

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Search

Search Constraints

Refine your results

Search Limiters

Publication Year Range

Publication Type

Database

Publisher

20 results on '"Laine, Unto K.'

Search Results

Catalog

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources