Should recognizers have ears?Hynek Hermanskya,b,c,*aOregon Graduate Institute of Science & Technology, Portland, OR, USAbInternational Computer Science Institute, Berkeley, California, USAcTechnical University, Brno, Czech RepublicReceived 1 September 1997; received in revised form 1 January 1998; accepted 1 March 1998AbstractRecently, techniques motivated by human auditory perception are being applied in main-stream speech technologyand there seems to be renewed interest in implementing more knowledge of human speech communication into a designof a speech recognizer. The paper discusses the author's experience with applying auditory knowledge to automaticrecognition of speech. It advances the notion that the reason for applying of such a knowledge in speech engineeringshould be the ability of perception to suppress some parts of the irrelevant information in the speech message andargues against the blind implementation of scattered accidental knowledge which may be irrelevant to a speech rec-ognition task. The following three properties of human speech perception are discussed in some detail:· limited spectral resolution,· use of information from about syllable-length segments,· ability to ignore corrupted or irrelevant components of speech.It shows by referring to published works that selective use of auditory knowledge, optimized on and in some casesderived from real speech data, can be consistent with current stochastic approaches to ASR and could yield advantagesin practical engineering applications. Ó 1998 Elsevier Science B.V. All rights reserved.ZusammenfassungIn jungster Zeit werden in vielen Bereichen der Sprachverarbeitung Techniken verwendet, die sich an der Vera-rbeitung im menschlichen Gehor und den Erkenntnissen des menschlichen Sprachverstehens orientieren. Beim Entwurfvon Spracherkennungssystemen scheint wieder ein verstarktes Interesse vorhanden zu sein, Wissenuber das mens-chliche Sprachverstehen ein¯iessen zu lassen. Dieser Artikel gibt die Erfahrungen des Authors bei der Anwendungderartigen Wissens zur automatischen Spracherkennung wieder. Als Grund fur die Anwendung solcher Erkenntnisse imBereich der Sprachverarbeitung ist die Fahigkeit des menschlichen Sprachverstehens zu nennen, einige unwesentlicheInformationsanteile in einer sprachlichen Nachricht zu unterdrucken. Es sollten nicht nur vereinzelt weniger wichtigeErkenntnisse verwendet werden, die moglicherweise keine grosse Bedeutung fur die Spracherkennung besitzen. DreiEigenschaften des menschlichen Sprachverstehens werden detailliert erlautert:· die begrenzte spektrale Au¯osung,· die Verwendung von Informationenuber sprachliche Abschnitte, die etwa der Dauer von Silben entsprechen,· Die Fahigkeit, gestorte oder unwesentliche Merkmale des Sprachsignals nicht auszuwerten.Speech Communication 25 (1998) 3±27*Corresponding author. Address: Oregon Graduate Institute of Science and Technology, 20000 NW Walker Road, Beaverton, OR97006, USA. Tel.: +1 503 690 1136; fax: +1 503 690 1406; e-mail: [email protected]/98/$ ± see front matter Ó 1998 Elsevier Science B.V. All rights reserved.PII: S 0 1 6 7 - 6 3 9 3 ( 9 8 ) 0 0 0 2 7 - 2Mit Hinweis auf bereits veroentlichte Arbeiten wird aufgezeigt, daû die selektive Verwendung des Wissensuber dasmenschliche Sprachverstehen in Einklang steht mit den derzeitigen stochastischen Ansatzen zur automatischen Spracherkennung und dass dies von Vorteil sein kann in praktischen Anwendungen. Dieses Wissen wird abgeleitet von realenSprachdaten und mit Hilfe dieser Daten zur weiteren Optimierung verwendet. Ó 1998 Elsevier Science B.V. All rightsreserved.ReÂsumeÂRecemment, des techniques motivees par la perception auditive, sont appliquees dans de principales technologiescourantes de la parole. Il semble y avoir un regain d'inter^eta l'exploitation de plus de connaissance du processus de laparole humaine dans la conception de systemes de reconnaissance de la parole. Le papier discute l'experience de l'auteurdans l'application de connaissances auditivesa la reconnaissance automatique de la parole. Il avance l'ide que la raisond'appliquer des connaissances de la perception auditive humainea l'ingenierie de la parole devrait^etre la capacite de laperceptiona supprimer quelques parties de l'information contenue dans le message de la parole. L'article plaide contrel'exploitation aveugle de connaissance accidentelle dispersee qui peut^etre non pertinente pour une t^ache de recon-naissance de la parole. Trois proprietes de perception humaine de la parole sont discutees:· resolution spectrale limitee,· utilisation de l'information contenue dans des segments de longueur d'une syllabe environ,· possibilite d'ignorer les composantes alterees ou non pertinentes de la parole.L'auteur montre, en se referanta certains travaux publies, que l'utilisation selective de la connaissance auditive opt-imisee en fonction et dans certains cas provenant de vraies donnees de parole, peut^etre compatible avec les approchesstochastiques actuelles de la reconnaissance automatique de la parole et pourrait avoir des avantages pour des appli-cations pratiques d'ingenierie. Ó 1998 Elsevier Science B.V. All rights reserved.Keywords: Auditory modeling; Human-like processing; Modulation frequency; Automatic speech recognition1. Introduction1.1. Knowledge-based ASR ± Again?Human speech communication is a highly spe-cialized task constrained by speci®c organs in-volved in the process. Speech production andperception has been and is being studied. How-ever, not much of the acquired knowledge is seenin the design of current automatic speech recog-nizers (ASRs).There is no doubt that ASR technology needsfurther improvement and some believe that theimprovement could come from using more speech-speci®c knowledge in the design of ASR. Whetherthis is true is a topic of discussion.Most of successful stochastic ASRs derive theircapabilities from extensive training data. Rela-tively little permanent knowledge is built into theuntrained recognizer. Any new application domainrequires new training data.To know more may mean having to learn less.The knowledge built into a design of a recognizeris the knowledge which does not have to be re-acquired from the data every time the recognizer isused for a new task.1.1.1. Some historyEarly attempts for large vocabulary
View Full Document