Uma abordagem híbrida CNN-HMM para reconhecimento de fala tolerante a ruídos de ambiente

(1)

Uma abordagem híbrida CNN-HMM

para reonheimento de fala tolerante a

ruídos de ambiente

(2)

Uma abordagem híbrida CNN-HMM

para reonheimento de fala tolerante a

ruídos de ambiente

Dissertação apresentada ao Programa de

Pós-graduaçãoemCiêniadaComputação

da Universidade Federal de Sergipe omo

requisito parialparaobtenção dograu de

Mestre em Ciêniada Computação.

Orientador: Leonardo NogueiraMatos

Coorientador: Hendrik Teixeira Maedo

(3)

FICHA CATALOGRÁFICA ELABORADA PELA BIBLIOTECA CENTRAL

UNIVERSIDADE FEDERAL DE SERGIPE

Santos, Rafael Menêses

S237u

Uma abordagem híbrida CNN-HMM para reconhecimento de

fala tolerante a ruídos de ambiente / Rafael Menêses Santos;

orientador Leonardo Nogueira Matos. – São Cristóvão, 2016.

37 f.: il.

Dissertação (Mestrado em Ciência da Computação) -

Universidade Federal de Sergipe, 2016.

O

1. Computação.

2. Redes

neurais

(Computação).

3. Reconhecimento automático de voz. 4. Markov, Processos de

_.

I. Matos, Leonardo Nogueira. II. Título

(4)

(5)

Um dos maiores desaos no reonheimento de fala atualmente é usá-lo no ontexto

diário, no qual distorções no sinal da fala e ruídos no ambiente estão presentes e

re-duzem a qualidade do reonheimento. Nos últimos trinta anos, entenas de métodos

parareonheimento robustoao ruídoforampropostos,ada umom suasvantagense

desvantagens. Este trabalho propõe o uso de uma redeneural onvoluional no papel

demodeloaústioemsistemasdereonheimento automátiodefala,omouma

alter-nativaaométodoslássiosdereonheimento baseadoemmodelosoultosdeMarkov

(HMM, do inglês, Hidden Markov Models) sem a apliação de um método robusto ao

ruído. Experimentos foram realizados om áudios modiados om ruídos aditivos e

reais,emostraramqueométodopropostoreduzoEqualErrorRate(EER)eaumentaa

auráiadalassiação deomandode vozquando omparadoa modelostradiionais

de lassiação, evideniando a robustezdaabordagem apresentada.

(6)

One ofthe biggest hallenges inspeeh reognition todayis itsuseon a dailybasis,in

whih distortionand noiseinthe environment are present and hinderthis task. Inthe

last thirtyyears,hundreds ofmethods fornoise-robustreognitionwereproposed, eah

with its own advantages and disadvantages. In this thesis, the use of Convolutional

Neural Networks (CNN) as aousti models in automati speeh reognition systems

(ASR) is proposed as an alternative to the lassial reognition methods based on

HiddenMarkovModels(HMM)withoutanynoise-robustmethodapplied. Experiments

were performedwith a audioset modied by additive and natural noises, and showed

that the presented method redues the Equal Error Rate (EER) and improves the

auray of speeh reognition in noisy environments when ompared to traditional

models of lassiation,indiating therobustness of theapproah.

(7)

2.1 Arquiteturade umsistemaASR.Adpatadode (Rabiner,1989) . . . 6

2.2 Arquiteturade umaCNN . . . 7

2.3 Camadas deonvolução e subamostragem . . . 8

3.1 Modelo híbrido CNN-HMM(Abdel-Hamid et al.,2012). . . 10

3.2 Exemplos de reonheimento de imagem que apresentam robustez ao ruído. Fonte: LeCun etal.(1998) . . . 12

4.1 Espetogramas de áudio do omando avane(a) e om ruídoaditivo de onversa(b) . . . 14

4.2 Espetogramas de áudio da palavra zero (a) e om ruído natural de onversa(b) . . . 14

4.3 Diagrama doproesso de treinamento . . . 15

4.4 Tela dopraat, utilizado para a auxiliarnaanotação fonétia . . . 15

4.5 Diagrama doproesso de teste. . . 16

4.6 CurvaROC paraabasemodiadaom ruídode onversa . . . 20

5.1 Tela iniial . . . 23

5.2 Exemplode fasedo jogo . . . 23

5.3 Tela iniial . . . 25

(8)

4.1

SN R

dB

por loutorda basenuméria . . . 17

4.2 Resultados doprimeiro experimento om CNNDTW . . . 18

4.3 EER doprimeiro experimento omanotação fonétia . . . 19

4.4 Auráia do primeiro experimento om anotaçãofonétia . . . 19

4.5 Resultados dosegundo experimento independentede loutor . . . 20

(9)

ASR Automati Speeh Reognition

CNN Convolutional Neural Networks

GMM Gaussian MixtureModels

HMM HiddenMarkov Models

SVM Support Vetor Mahines

DTW Dynami TimeWarping

EAE Evento Aústio Elementar

(10)

1 Introdução 1 1.1 Problema . . . 1 1.2 Trabalhos Relaionados . . . 2 1.3 Objetivos . . . 3 1.4 Organização da Dissertação . . . 3 2 Referenial Teório 5 2.1 Reonheimento de Fala . . . 5

2.2 Redes NeuraisConvoluionais . . . 6

3 Modelo Proposto 9 3.1 ModeloCNN-HMM. . . 9 3.2 Detalhamento da Hipótese . . . 9 4 Experimentos e Resultados 13 4.1 Cenários de Experimentação . . . 13 4.1.1 Treinamento . . . 14 4.1.2 Teste . . . 16 4.2 Base de dados . . . 16 4.3 Métrias . . . 17 4.4 Resultados. . . 18 4.4.1 Primeiro Experimento . . . 18 4.4.2 Segundo Experimento . . . 20 5 Apliações 22 5.1 JogoCálulo de Aventura . . . 22

5.2 JogoBreakerAraaju . . . 25

(11)

Introdução

1.1 Problema

Nos últimos anos, smartphones têm sido os dispositivos de omuniação mais usados

nomundo. SegundoSmith(2015),em2015,aproximadamente64%dapopulaçãonorte ameriana possuíaumsmartphone,um aumento de quase100% quandoomparado os

35%deusuáriosnoiníiode 2011. Suaresenteapaidade omputaionalombinada

om sua alta abrangênia zeram om que as pessoaspermaneessem ompletamente

onetadas e onstantemente disponíveis. A interfae entre o usuário e o smartphone

é realizada por meio de toques na tela, o que muitas vezes se torna pouo intuitivo

e natural. Por se tratar de uma forma mais natural de interação, muitas empresas

omeçaram a permitir de forma mais limitada até o momento, o uso da interfae de

voz om o smartphone, omo meio mais natural de forneer omandos. Este é mais

um novo desaopara a áreade Reonheimento Automátio de Fala (Automati

Spe-eh Reognition, ASR)devido àsdiversasdiuldades referentes ao usoda voz, omo:

ruídos no ambiente, tamanho e forma do trato voal, respiração, et. A ténia mais

omumusadaparaamodelagemaústia emsistemasASR éumaombinação de

mo-delos oultosde Markov (Hidden Markov Models, HMM),responsáveis por modelar a

estruturasequenialdosinaldevoz,emodelosdemisturasGaussianas(Gaussian

Mix-tureModels,GMM)paramodelararepresentação aústiade araterístiasextraídas

a partirdosinal(Abdel-Hamid etal.,2012). Estaabordagem éfailmenteafetadapor variaçõesda falaemonversasdiárias.

Para realizar tarefas de reonheimento de fala, extratores de araterístias são

usadosomoobjetivo derepresentarosdadosdeentradaemumaformamais

onveni-ente. Nosúltimos 50 anos, pesquisadores nessa área vêm desenvolvendo várias formas

de representação om bases em araterístias anatmias, psiológias e aústias da

falahumana, para seremusadasomoaraterístias noreonheimento defala. Entre

elas, as mais usadas são: bano de ltros (Fbank), Coeientes Mel-Cepstrais

(Mel-frequenyCepstrum Coeients,MFCC)(DavisandMermelstein,1980) eCoeientes PLP (Pereptual LinearPredition)(Hermansky,1990). Essasaraterístias possuem

(12)

redução da dimensionalidade do sinal e a preservação de uma quantidade de

informa-çãosuiente paratarefasdelassiação, ompouaperdanodesempenho. Contudo,

elasnão apresentam robustezao ruídoedependemdaavaliaçãoeinterpretação do

res-ponsável por parametrizar e esolher o tipo de extrator de araterístia. Uma forma

de abordar este tipo de problema envolve o usode uma das entenas de ténias que

foram estabeleidas para o tratamento de ruído (Li et al.,2014). Essa deisão requer onheimento dospróse ontrasque ada método pode ofereer.

Ultimamente, redes neuraisprofundas (Deep Neural Networks) têm sidopropostas

omo substitutas do HMM na modelagem aústia (Hinton et al., 2012). Entre as redesneuraisprofundasmaisonheidas,asredesneuraisonvoluionais(Convolutional

Neural Network, CNN) têm provado que podem ser treinadas de forma mais rápida,

além de onseguirem exelentes resultados, entre eles, a menor taxa de erro na base

MNISTatéomomento(Ciresanetal.,2011,2012). AsCNNssãousadasprinipalmente para tarefas na área de visão omputaional (LeCun et al., 2004) e em problemas de sérietemporal(Leeetal.,2009),nosquaissãofeitasltragensbaseadasemonvoluções atravésdoeixotemporal,realizandoumaextraçãoimplíitadearaterístiasdosdados

de entrada na forma natural (Abdel-Hamid et al.,2012). Como mostra o trabalho de

LeCun et al. (1998), as CNNs são apazes de extrair impliitamente araterístias dosdados na suaforma natural, lidando de maneira robusta om a ruídos e variações

presentesnosdados.

Neste trabalho, é levantada a hipótese, detalhada na Seção 3.2, de que o uso de redes neurais onvoluionais omo modelo aústio emuma abordagem híbrida omo

HMM,éumasoluçãorobusta parasuperarproblemasausadosporruídosdeambiente

e variações produzidas pela voz. Estas variações oorrem devido ao uso do

reonhe-imento de fala em ambientes não ontrolados, ou seja, a utilização da interfae de

voz no ontexto do dia a dia. O foo deste estudo foi direionado ao reonheimento

de palavras isoladas do português brasileiro, levando em onsideração a inuênia de

diferentes tipos de ruídos no desempenho da solução proposta. Destaforma, o

traba-lho apresenta umaabordagem ao reonheimento de fala que ombina CNN e HMM,

baseada notrabalho de Abdel-Hamid etal. (2012), e veria arobustez da mesmaem áudios modiados omruídos aditivose naturais.

1.2 Trabalhos Relaionados

Nos últimos ino anos, o reonheimento de fala om CNN tem sido o foo de

vá-rios estudos. Contudo, foram enontrados pouos estudos que tratam diretamente da

inuêniado ruídono desempenho dalassiação oma CNN.

Umaversão modiadadoCNNhamadade GaborConvolutionalNeural Network

(GCNN) é apresentada no trabalho de Chang and Morgan (2014). A rede inorpora funções Gabor nos ltros do kernel de onvolução. A partir do treinamento da rede

usandoversõeslimpaseruidosasdabaseWallStreetJournal,oestudoapresentouuma

(13)

de reonheimento na baseAurora4 no estudo de Mitra etal. (2014). Issoé reforçado por Huang etal.(2015) quemostraaindaa CNNomo modelomaisapropriado que a DBN parao reonheimento defala.

Por último, CNN é apliada no ontexto de deteção de frases e omparada ao

GMM e MLP. No seu estudo, (Soltau et al., 2013) utiliza uma base de áudio limpo queé distoridapelatransmissãoemoitoanais diferentes derádio. Apartir disto,ele

realiza o treinamento usando tanto dados limpos, omo modiados. CNN onseguiu

melhores resultados em anais ruidosos, mas não melhorou as taxas de desempenho

onheidas para esta base em situações mais ontroladas, ou seja, om ruido menos

intenso.

1.3 Objetivos

OobjetivogeraldestetrabalhoédenireavaliaromodelohíbridoentreoCNNeHMM

para reonheimento de fala em amostras de áudio modiadas om ruído aditivo e

ruídosnaturaisdaprópriagravação. Paraalançar oobjetivogeral,foramidentiados

osseguintes objetivosespeíos:

Analisar os métodos mais usados para realizar o reonheimento automátio de

fala;

Apresentar e avaliar uma abordagem para reonheimento de fala, ombinando

redesneuraisprofundas,dotipoonvoluional, emodelosoultosdeMarkovpara

modelagem dinâmiado sinalde fala;

Realizar experimentos emdados de áudioadquiridosatravésde dispositivos

mó-veis,ompresença deruídodeambienteeomruídossimuladosapósaaquisição,

visandoavaliaro desempenho da abordagem emsituaçõesde usoreal.

1.4 Organização da Dissertação

A dissertação foi dividida em ino apítulos. O primeiro apítulo é a introdução do

trabalho e osdemaisapítulos sãodesritosomo sesegue:

Capítulo2: Apresenta oneitosfundamentaisqueenvolvemotrabalhorealizado.

A prinípio, uma introdução ao reonheimento automátio de fala é feita, om

o intuitode forneer umbomeslareimento dosprinipaisomponentes deuma

arquiteturaASR generalizada. Em seguidasãoapresentadosoneitosdasRedes

NeuraisConvoluionais, quesãoo foo da dissertação.

Capítulo3: DisuteaidéiaportrásdemodelohíbridoentreHMMeRNAeomoa

CNNfaráopapeldeumaMLPtradiionalnestemodelo. Oapítuloenerraom

uma disussão da hipótese levantada neste trabalho, disutindo araterístias

(14)

Capítulo 4: Detalha os experimentos que foram realizados, bem omo as bases

e métrias usadas. Além disso, apresenta resultados dos experimentos e uma

disussão.

Capítulo 5: Apresenta projetos que utilizamo modelo desenvolvido neste

traba-lho.

Capítulo6: Oúltimoapítuloonluiotrabalhodestaando prinipais

ontribui-ções, limitações de pesquisa e sugestões de novos aminhos a seremseguidos em

(15)

Referenial Teório

Neste apítulo sãoapresentados oneitos fundamentais utilizados no trabalho. A

pri-meira seção fornee uma visão geral sobre a arquitetura de um sistemaASR, seguida

pelaseção quetrata dasredesneuraisonvoluionais.

2.1 Reonheimento de Fala

No proesso de reonheimento de voz, o sinal de voz é primeiramente preproessado

no hamado front-end do sistema, que extrai as araterístias que serão usadas. A

maioria dossistemas ASR usaumaabordagem baseada emframes do áudio, que

on-vertemosinaldeentradaemsequêniasdeframesdearaterístiasomigualduração.

CaraterístiasomoMFCCseFbankssãoalgunsexemplosdepossíveisrepresentações

quepodemserusadas nesteproesso (DavisandMermelstein,1980). Na Figura2.1,é apresentadoumdiagrama quemostrauma arquiteturagenériade umsistemaASR.

Odeodiadoréomódulodosistemaqueproessaosinalaústio,

transrevendo-o emumasentençaesrita. É ompostobasiamente pelosmodelos aústios,modelos

linguístiose o diionário.

Omodeloaústioéummodeloestatístiobaseado nasaraterístias omputadas

no front-end. Normalmente, esse modelo é usado para alular a verossimilhança da

geração de observaçõesaústias a nível de fonemas. Geralmente são usados Modelos

Oultos de Markov e Modelos de Misturas Gaussianas omo omponentes do modelo

aústio (Rabiner,1989).

Odiionário mapeiaada palavra de uma determinada língua à suarepresentação

fonétia, ou seja, uma sequênia de fonemas. Uma palavra pode ter algumas

alterna-tivas de pronúnia, sendo dessa forma neessário que no diionário existam múltiplas

entradasparaapalavra. Odiionárioéusadoomoumaformaderestringiraspossíveis

sequêniasde fonemas,poissem omesmo, ertamentenão seriapossívelproduziruma

deodiação onável dosinal.

(16)

Figura2.1: Arquiteturade umsistemaASR.Adpatado de(Rabiner,1989)

idioma. Segundo Jurafsky and Martin (2000), a maioria dos sistemas ASR utiliza o modelo N-gram,devido à failidade deombinação omoutros omponentes.

2.2 Redes Neurais Convoluionais

Com base no trabalho de Hubel and Wiesel (1968) sobre órtexvisual dos gatos, po-demos saberque essa estruturaontém umarranjo omplexo de élulas. Essas élulas

sãosensitivasempequenasregiõesdoampodevisão,hamadasdeamposreeptivos.

Dois tipos de élulas foram denidas: (i) As élulas simples, que são sensíveis a

padrõesespeíosomformadeborda,e(ii)asélulasomplexas,quepossuemampos

reeptivosmaiores e sãoloalmente invariantes àposição exata dopadrão.

Oórtexvisual animalé umdossistemasde proessamento maispoderosos

onhe-idos, e por isso, pesquisadores tentamsimular seu funionamento artiialmente.

Al-gunsexemplosdemodelosdesenvolvidossão: NeoCognitron(Fukushima,1980),HMAX (Serre etal.,2007) e RedesNeurais Convoluionais (LeCunetal., 1998).

Redes Neurais Convoluionais são variações de redes Pereptron Multiamadas

(Multilayer Pereptron Networks, MLP) ompostas por suessivas amadas de

on-volução e subamostragem que realizam uma etapa de preproessamento dos dadosde

entrada, e umaamada queorresponde a umaMLP,responsável por alular asaída

da CNN.Asuaestrutura émodeladapara tirar vantagem de problemas queenvolvem

padrões bidimensionais, tais quais imagens e sinais de fala em espetrograma.

Espe-trogramas são representações visuaisdo espetro de frequêniaem sinais emrelaçãoa

suavariação notempo.

(17)

dosamposreeptivosenontradosnosistemavisualdeorganismosvivos(LeCunetal.,

1998). Osltrosde adamapa dearaterístias,tambémonheidos omokernels de onvolução, são entrelaçados e agrupados de tal forma que todo ampo de entrada

possa ser representado, além de onsiderar orrelação entre neurnios vizinhos. Essa

propriedade é onheida omo onetividade loal e introduz robusteza desloamento

e distorçõesemamostras demesma lasse.

Outra propriedade importante da amada de onvolução são os pesos

omparti-lhados, denida omo sendo o ompartilhamento de pesos entre os kernels do mesmo

mapa de araterístias. Graças a esse ompartilhamento de pesos, os mapas de

a-raterístias podem detetar padrões independentemente da loalização no ampo de

entrada. Os pesos são estimados usando o treinamento om algoritmo de bakprop

a-gation modiadoomo sugere Abdel-Hamid etal. (2014), permitindo que ada mapa de araterístia possa enontrar um tipo partiular de araterístiaque é aprendida

durantea fasede treinamento.

Apósaamadadeonvolução,asativaçõessãopassadasparaumasegundaamada,

a amadade subamostragem. Essaamadapodealularo valormáximo oumédio de

umaáreadetamanhopredenido,gerandoumarepresentaçãodaentradaemresolução

reduzida. Essa etapa melhora a invariânia a translação, onsequentemente,

aumen-tando a auráia da lassiação LeCun et al. (1998). A arquitetura de uma CNN é apresentadana Figura 2.2.

Figura 2.2: Arquitetura deuma CNN

UmaCNNpodeonterumaoumaisamadasdeonvoluçãoesubamostragem,

on-formepreferêniaeajustesneessáriosrelaionadosaoproblemadelassiação. Como

entrada, a CNN reebe uma matriz real

m

×

n

que é proessadapor umaamada de onvolução. Em seguida, a amada de onvolução é formada por

k

mapas de ara-terístias om

c

×

c

kernels, onde

c < n

. Dado o kernel

w

, a saída

y

ij

do mapa de araterístias

m

é aluladapelaonvolução daentrada

x

e

w

,

(18)

yi,j

=

m

X

a

=−

m

X

b

=−

m

w

a,b

x

(

i

−

a,j

−

b

)

onde o tamanho do kernel é igual a

(2

m

+ 1)

×

(2

m

+ 1)

(Abdel-Hamid et al.,2012). Após a onvolução, uma função de ativação não linear é apliada em ada mapa de

araterístias somada aum peso, denidoomo viés.

Opróximopassoéproessarasaídadeadamapadearaterístiasatravésdeuma

amadadesubamostragem,quepodeusarumltrodemédiaoudevalormáximonuma

áreapredenida de tamanho

r

×

r

. NaFigura2.3,umarepresentaçãodasamadas de onvolução esubamostragem é apresentada.

Figura2.3: Camadasde onvolução esubamostragem

Finalmente, oresultadodasamadasiniiaisé apresentadoaumaMLPtotalmente

(19)

Modelo Proposto

3.1 Modelo CNN-HMM

Redes neurais podemser usadas para lassiar diversos padrões, entre eles, fonemas

e palavras, mapeando umpadrãotemporal emespaial (Bourlard and Morgan, 1994). Entretanto, asredes neuraissão limitadasem seupoder delassiar sequênias, pois

as mesmas podem variar innitamente de tamanho. Por outro lado, o HMM possui

umaestrutura apazde lidar omsequêniasde tamanho indenido.

Pensandonisso,ummodelohíbridoNN-HMMfoiriado,noqualaredeneuraltem

o papel de modelar uma representação aústia dos frames da fala, enquanto que o

HMM modela a estrutura temporal e as dependênias entre frames adjaentes. Cada

entradapararedeéformadaporumasequêniade

T

frames

O

t

,entralizadosnotempo

t

. A saída da rede orresponde à probabilidade a posteriori

P

(

s

|

O

t

)

que representa o estado

s

do HMM no tempo

t

(Bourlard and Morgan, 1994). As probabilidades dos estadosdo HMM sãoaluladasna saída darede pelafunção softmax

P

(

s

|

O

t

) =

exp

(

y

t

)

PT

i

=1

exp

(

y

i

)

,

onde

y

t

éa saídadoneurnio

t

. Destaforma,umHMM treinadoenontraasequênia de estados

s

1

,s

2

, . . . ,s

n

quemelhorexplia asequêniade observações

O

1

,O

2

, . . . ,O

n

. Nestetrabalho,aredeneuralMLPésubstituídaporumaredeneuralonvoluional.

Esse modelo foidenido por Abdel-Hamid et al. (2012) e adpatado para o reonhei-mento defalaonforme apresentado naFigura3.1.

3.2 Detalhamento da Hipótese

A hipótese tratada neste trabalho está relaionada ao usode Redes Neurais

Convolu-ionais eomo elas podemmelhorar astaxasde aertosno reonheimento de falaem

(20)

(21)

iso-no desempenho da solução proposta. A partir dos problemas menionados na Seção

1.1,surgeo questionamento: omosuperarosproblemas ausadospelos ruídosdo am-biente e variação do sinal da fala, sem que haja dependênia do proesso de extração

de araterístias, utilizando diretamente osdados emsuaformanatural?

No domínio da frequênia, ossinais da fala sãorepresentado por onentrações de

energias em diferente bandas de frequênia. Quando um sinal de fala é analisado a

nível fonétio, é possível veriar que o fonema pode ser lassiado a partir de sua

representaçãoespetral. Napresençade ruído,osinalontinuabastanterepresentativo

devido ao ruído estar onentrado apenas em algumas partes do espetro. De aordo

omAbdel-Hamidetal.(2012),espetronaesalaMel,bano deltroseespetro line-ares sãorepresentaçõesadequadasdaentradanodomíniodafrequênia quepreservam

informaçõesespaiais.

Umavez que CNNssãoespeializadas emproblemas que envolvem orrelações

es-paiais, éesperadoqueosframes dosinaldefalano domíniodafrequênia possamser

usados omo entrada para umaCNN,que por suavez vaigerar umasequênia de

ob-servações ou probabilidades usadas pelo HMM.Em ambientes ruidosos, a CNN ainda

pode extrair araterístias representativas, porque os pesos ompartilhados de ada

mapa de araterístias são repliados por todo o espaço da entrada, permitindo que

araterístias possamserenontradasindependente desualoalização,asovenhama

ser distoridaspeloruído.

Em seu trabalho, LeCun et al. (1998) mostra omo a CNN é apaz de superar variações e ruídos no reonheimento de dígitos manusritos. A Figura 3.2 inlui exemplos de robustez da CNN sob ondições de ruídos diversos. Sem o uso de CNN,

seria neessário submeter métodos de extração de araterístias e segmentação da

imagem.

Nomodeloapresentado, aCNN étreinada para estimar asprobabilidadesde

emis-sões do HMM. Além de reeber o frame que será lassiado a nível fonétio, a CNN

reebe frames anteriores e posteriores, permitindo queela possa aprender informações

(22)

Figura3.2: Exemplosdereonheimentodeimagemqueapresentamrobustezaoruído.

(23)

Experimentos e Resultados

4.1 Cenários de Experimentação

Paraavaliarométodo proposto,foionduzido umexperimento que envolve o

reonhe-imento de palavrasisoladas omruído aditivo. Oexperimento é baseado notrabalho

de Almeida(2014),noqualo reonheimento de palavrasdependentedeloutoréav a-liadoemumbanodedadosmodiadoomtrêsruídosdabaseNOISEX-92: onversa,

volvo (denominação dada pelos autores ao ruído produzido pelo motor de um veíulo

espeío ) e fábria (Vargaand Steeneken,1993).

Testesforam onduzidospara determinar a melhoronguração para omodelo. A

onguraçãoenontradaéompostaporduasamadasdeonvoluçãoesubamostragem.

As amadas de onvolução possuem kernels de tamanho

3 ×

3

seguidas por amadas de subamostragem om ltros de tamanho

2 ×

2

. Na primeira amada, 20 mapas de araterístiassãousadose,nasegunda,50. AúltimaamadaéformadaporumaMLP

om 200 neurnios na amada oulta. Cada neurnio de saída representa um fonema

que formaumapalavra a serlassiada.

O primeiro experimento trata basiamente de uma omparação mais direta entre

CNN-HMMommodelosdelassiaçãotradiionais(SVMeGMM).OSVMeGMM,

nesse ontexto, são apliados na modelagem aústia dos sinais, assumindo o papel

da CNN e utilizando o HMM para a modelagem sequenial. Além disso, é feita uma

avaliaçãodasaraterístias geradaspeloCNNemomparaçãoomEventosAústios

Elementares, araterístias propostas por Almeida (2014). Entretanto, este experi-mento difere bastante do quepoderiaser enontradoem situaçõesde usootidiano de

umsistemaASR.Os prinipaismotivossão:

A utilização de treinamento e teste dependente de loutor: O experimento não

veriaomoaabordagemseomportarianumenáriomaisdiversiado,emque

osloutorespresentesnabasedetestesãoompletamentediferentesdaquelesque

partiiparam da onstruçãoda basede treinamento.

(24)

Figura 4.1: Espetogramas de áudio do omando avane (a) e om ruído aditivo de

onversa (b)

Figura4.2: Espetogramasdeáudiodapalavrazero(a)eomruídonaturaldeonversa

(b)

ruidosos, osloutorestendem aseomuniar diferentemente, aumentandoo tom

davoz,formadepronúniaeduraçãodasílabasepalavras, et. Essatendêniaé

onheidaomoefeitoLombardi(Junqua,1996). AsFiguras4.1e4.2apresentam espetogramas de áudio om e sem ruídos. O exemplo apresentado na Figura

4.2, om ruído natural, mostra forte alteração em onentrações de energia, se omparado omo exemplo daFigura 4.1,om ruídoaditivo.

Após essa onstatação, um segundo experimento foiidealizado. Nele é usada uma

segundabase,desritanaSeção4.2,quepossuiáudiosomtrêsruídossimuladosdurante agravação. Destaforma,pretende-seavaliar omodeloCNN eoslassiadoresSVMe

GMMemondição de independênia de loutore ruídoreal.

4.1.1 Treinamento

O proesso de treinamento dos modelos é estruturado onforme diagrama da Figura

4.3.

A primeira etapa dotreinamento onsistiuem realizar anotações fonétias nas

ba-ses de áudio. Foi realizada uma anotação fonétia semiautomátia a partir do plugin

EasyAlignparaoPraat(Goldman,2011). Aanotaçãoésemiautomátiapoiso EasyA-lignaabaonfundidoasmaraçõesdefonemas namaioria dosáudio, oqueexigeuma

(25)

Figura4.3: Diagrama do proesso detreinamento

Figura4.4: Tela dopraat, utilizado para a auxiliarna anotaçãofonétia

terfaedoPraatomaanotaçãofeitaparaapalavraavane. Cadafonemaédelimitado

e, emseguida,anotado numarquivoparaser usadopelosripts detreinamento.

Logo em seguida é realizado o treinamento da CNN.A CNN foi implementada na

linguagem Python 3.4 om o auxílio das biblioteas Numpy 1.8.1 (Jones et al., 01 ) e Theano 0.6 (Theano Development Team, 2016). O treinamento onsiste em forneer framesde áudio dasbasese osrótulos obtidos oma anotaçãofonétia. A abordagem

proposta não usa modelo de rejeição na lassiação. A CNN treinada serve para

gerar as probabilidadesque serão usadas no treinamento dosmodelos HMMusando o

algoritmo de BaumWelh (Rabiner, 1989). Para ada palavra, é treinado um HMM que irá aprender a estrutura sequenial da palavra. Foram utilizados apenas modelos

(26)

Figura4.5: Diagrama doproesso de teste

4.1.2 Teste

Aetapade teste,representadana Figura4.5,utiliza osmodelosonstruídos parafazer a avaliaçãoda abordagemproposta.

4.2 Base de dados

Oprimeiro experimento foirealizado na baseBiohaves

1

que é formado por ino

o-mandos pronuniados emportuguês brasileiro(avane", direita", esquerda",pare"e

reue"). Osomandossãorepetidos10vezespor 8loutores(6homens e2mulheres).

As gravações foram realizadas em ambiente não ontrolados, a partir de dispostivos

móveis a uma taxa de 8 Khz e quantização de 16 bits(Raulino et al., 2013). A base foi anotada fonetiamente para este trabalho através de um proesso semiautomátio

usandoopluginEasyAlignparaoPraat(Goldman,2011). Foramusadosos15fonemas queformamosomandos, além de maisumalasseque representa frames de silênio.

Os resultados foram omparadosomAlmeida (2014),no experimento que envolve o reonheimento de palavras isoladas om ruídos aditivos: onversa, volvo e fábria.

Paraarealizaçãodoexperimento,abasefoidivididaemduasbasesdetreinamentoede

teste,om70%dasamostrasparatreinamentoeorestanteparateste. Osruídosaditivos

foramapliadosnabaselimpamantendoumarelaçãosinal-ruído,SNR,doinglês

signal-to-noise ratio de 6dB. Seguindo os mesmos ritérios apliados por Almeida (2014), a rede foitreinada omtodosos loutores, araterizando o problemaomo dependente

de loutor. Em seguida, a base de teste foi modiada pelos ruídos aditivos, gerando

assim,outras três bases.

A segunda base utilizada no segundo experimento foi onstruída pelo grupo de

pesquisadoqualoautordestetrabalhofazparte. Abaseéformadapordígitosdezeroa

noveegravadapor13loutores,sendo6homense7mulheres. Foramusadasasmesmas

onguraçõesde gravação da baseBiohaves e anotação fonétia semiautomátia om

(27)

Tabela4.1:

SN R

dB

por loutor da basenuméria

SN RdB

Loutores Chuva Conversa Rua

Homem 1 6,37dB -0,26dB -1,02dB

Homem 2 3,36dB 1,68dB 1,43dB

Mulher 1 1,64dB -1,45dB 0,15dB

Mulher 2 5,43dB 2,94dB 0,89dB

o Praat. Foramesolhidos18 fonemase umsímbolode silênio,formando umtotal de

19 rótulosparaa lassiação.

Quatro loutores, 2 homens e 2 mulheres, repetiram suas gravaçõesoutras 3 vezes

paraabasedeteste,omumruídodeambientediferenteemadagravação. Osruídos

utilizados foram: onversa,huva e rua. Essesquatros loutoresforam utilizadospara

teste,omoobjetivodeavaliarapropostadeformaindependentedeloutor. Ossinais

omruídos mantiveram diferentesSNRpara ada loutore ruído, omopode servisto

na Tabela4.1.

Para ada eloução, uma etapa de extração de araterístias produziu vetores de

40 oeientesde banodeltrosnaesalaMel. Abdel-Hamid etal. (2014) armaque MFCC onvenional nãoé adequado paraserusado naCNN porque a transforma

dis-retadoossenoprojetaaenergiaespetralparaumanovabasequepodenãopreservar

informaçõesespaiaisnosáudios. Aextraçãofoirealizada emframesde 25

milissegun-dosom10milissegundosdeentrelaçamentoentreeles. Osoeientesforamagrupados

em15framesonseutivosparaserviremomoentradanarede. Aentradafoirotulada

de aordoom oframe da oitava posição.

4.3 Métrias

Em Almeida (2014), foram usados vetores de araterístias num proesso de alinha-mento temporal onheido omo Dynami Time Warping (DTW). Portanto, foi mais

apropriado em seu trabalho, analisar o problema omo um problema de deteção, ao

invésdeumproblemadelassiação. Destaforma,amétriaEqualErrorRate (EER)

foiusadaomoformaderepresentarosresultados naomparaçãoomAlmeida(2014). EERorresponde aoponto naurvaROCondeataxade falsospositivosefalsos

nega-tivossãoiguais. Outra métriausadafoia auráia da lassiação, apliadatanto no

primeiro omo nosegundoexperimento. A auráia é denidoomoa proporçãoentre

aquantidadedeaertoseaquantidadetotaldeamostrasnabasedeteste. Naavaliação

da auráia, os modelos foram submetidos a umproesso de validação ruzada k-fold

om

k

= 10

.

Osextratoresomparados emAlmeida(2014) foramMFCC,ZCPA(Zero-Crossing with Peak Amplitudes) e eventos aústios elementares (Elementary Aousti Events,

(28)

papelde extrator de araterístias, avaliando umapossívelrepresentação do

espeto-gramanatural omoentrada, osoeientesFbank. Entretanto, éimportanteressaltar

queomodeloGMM-HMMtradiional(Rabiner,1989) assimomooCNN-HMMdeste trabalho, realizam extração de araterístias e deteção de sinal de forma onjunta.

Além disso, paraoCNN-HMMproposto, foineessário usarumabase anotada

foneti-amente, emontrasteom otrabalho de Almeida(2014),quenão dispõe deanotação fonétia, apenasde anotação daeloução.

4.4 Resultados

4.4.1 Primeiro Experimento

Noprimeiro experimento,aCNNfoiavaliadaomoumextrator dearaterístiaspara

realizar a omparação de resultados om o EAE e demais araterístias na base

Bio-haves. Destaforma,o reonheimento dos omandos foifeito através de umproesso

de alinhamento temporal entre duas matrizesde probabilidades geradas pela CNN. A

primeira matriz serve omo sinal de referênia, enquanto que a segunda é um sinal

desonheido que pode ser ou não da mesma lasse. O problema passa a ser um

pro-blema de deteção, no qual se pode extrair medidas de EER para serem omparadas

aosresultados de Almeida (2014). O método de alinhamento dareferênia usadofoio DTW, que mede a similaridade entre duas sequênias temporais (Itakura, 1975). Na Tabela 4.2, são apresentados os resultados dos experimentos da CNN e DTW. Todos osmétodosforamavaliadosnasbases modiadas enão modiadas.

O modelo CNN-DTW obteve os melhores resultados em todas as bases, quando

omparados ao EAE em Almeida (2014). É importante notar que o CNN-DTW foio úniotreinado omajuda daanotação fonétia da basede áudios.

Os resultados da Tabela 4.2 sugerem que anotação semiautomátia dos fonemas teve grande inuênia na melhoria de desempenho, por dispor da supervisão humana

durante a fase de treinamento. Portanto, dado que os lassiadores GMM e SVM

(Support Vetor Mahines) podem ser treinados om anotação, ambos lassiadores

foram avaliados no mesmo experimento para averiguar a inuênia da anotação no

proesso. Várias ongurações foram testadas para GMM em busa do número de

Gaussianasqueforneeomelhordesempenhoonformeapontadanadesriçãodatabela

de resultados 4.3. Para o SVM, um kernel polinomial de grau

d

= 3

alançou os

Tabela 4.2: Resultados do primeiro experimento om CNNDTW

Equal errorrate (EER)(%)

Métodos Baselimpa Conversa Volvo Fábria

MFCC-DTW 7.30% 11.70% 8.20% 13.10%

ZCPA-DTW 8.20% 10.50% 8.40% 12.20%

(29)

Tabela 4.3: EER doprimeiro experimento omanotação fonétia

Equal error rate(EER)(%)

Métodos Base limpa Conversa Volvo Fábria

GMM-HMM(1) 19,20% 28,27% 19,23% 23,20%

GMM-HMM(3) 4,27% 27,93% 4,20% 20,20%

GMM-HMM(5) 1,07% 29,33% 1,07% 14,67%

SVM-HMM 0,00% 20,27% 0,00% 15,13%

CNN-HMM 0,13% 3.47% 0,27% 2,67%

melhores resultados. Oslassiadoresforamimplementadospeloprojetosikit-learn

2

,

uma bibliotea de ódigo aberto omimplementações de algoritmospara aprendizado

demáquinanalinguagemPython(Pedregosaetal.,2011). Osdoislassiadoresgeram sequênias deobservaçõesparao treinamento deHMM disreto.

A Tabela 4.3 mostra os resultados da CNN omparados om GMM e SVM. O número ao lado dos GMMs india a quantidade de Gaussianas na mistura. O SVM

obteve resultados um pouo melhores na base limpa e om ruído volvo, mas o CNN

ontinuou om melhores resultados nas demais situações. Os modelos também foram

avaliadosusando validação ruzadak-fold daauráia om

k

= 10

. Na Tabela 4.4são apresentadasasmédiasdaauráiadeadatesteseguidaspelodesviopadrãoparaada

situação.

Tabela 4.4: Auráia doprimeiro experimento om anotaçãofonétia

Auráia (%)

Métodos Baselimpa Conversa Volvo Fábria

GMM-HMM(1) 79,20%

±

2,14 57,80%

±

7,39 78,40%

±

1,95 71,40%

±

3,40 GMM-HMM(3) 94,50%

±

1,17 63,80%

±

11,33 94,50%

±

1,17 76,80%

±

3,42 GMM-HMM(5) 99,80%

±

0,42 64,20%

±

13,18 99,80%

±

0,42 82,40%

±

4,29 SVM-HMM 100,00% 77,40%

±

4,22 100,00% 83,20%

±

3,29 CNN-HMM 99,67%

±

1,02 88,91%

±

5,43 99,67%

±

1,02 94,86%

±

4,53

SVMe GMMtiveram seusdesempenhosafetados pelas basesmodiadasom

ruí-dos de onversa e de fábria. Por serem ruídos mais espalhados em diversas faixas de

frequênias, todas as máquinas de aprendizado foram afetadas. Contudo, foi possível

notar que CNN-HMM foi menos inueniado por tais ruídos, indiando desta forma

que o modelo tem um nível maior de robustez a variações omuns em ambientes não

ontrolados. A Figura 4.6 apresenta a urva ROC para o CNN-HMM om ruído de onversa.

(30)

PSfragreplaements

EER

Figura4.6: Curva ROCpara abasemodiada omruído deonversa

4.4.2 Segundo Experimento

A Tabela 4.5, apresenta os resultados do segundo experimento realizado na base nu-méria. O desempenho do CNN-HMMfoi omparado novamente om SVM e GMM.

Para o GMM, apenas foi onsiderada a onguração om ino gaussianas que havia

apresentado melhor desempenho anteriormente. Os modelos foram avaliados também

numontextodereonheimento defaladependentedeloutoreseusdesempenhossão

apresentados naTabela4.6.

Tabela 4.5: Resultadosdo segundoexperimento independentede loutor

Auráia (%)

Métodos Base limpa Chuva Conversa Rua

GMM-HMM(5) 40,00%

±

7,71 10,00% 9,50%

±

1,00 11,50%

±

1,91 SVM-HMM 44,40%

±

8,98 18,50%

±

6,40 16,00%

±

9,52 10,50%

±

1,00 CNN-HMM 59,79%

±

13,54 32,50%

±

7,00 34,00%

±

10,19 23,00%

±

4,76

Tabela 4.6: Resultados dosegundo experimento dependentede loutor

Auráia (%)

Métodos Base limpa Chuva Conversa Rua

GMM-HMM(5) 95,80%

±

4,04 12,50%

±

3,00 9,50%

±

1,00 12,00%

±

1,63 SVM-HMM 99,80%

±

0,63 18,50%

±

7,72 12,00%

±

4,00 15,00 %

±

2,00 CNN-HMM 100,00% 52,00%

±

4,61 30,50%

±

7,54 18,00%

±

3,26

OsresultadosapontamnovamenteoCNN-HMMomoamelhoralternativaentreos

modelostestados. Apesardetersidomenosafetadoqueosdemais,oCNN-HMMobteve

(31)

tratar deumabaseompouaquantidadedeamostras,diultandoageneralizaçãodo

aprendizadodaCNN,ruialnoreonheimento deumpadrãotãodiversiadoomoa

fala. Outroponto importantefoiautilizaçãoderuídos muitointensosduranteaoleta

dedadosomopodeservistonaSeção4.2. Asdistorçõesausadas poressesruídosnão foram ltradas omo muitas vezes oorre durante a aptura de áudio, o que pode ter

levadoaodesempenhoinferioraoexperimentoanterior. Osmodelosobtiverammelhores

resultados no reonheimento dependente de loutor, onforme Tabela 4.6, mas ainda assim nãoonseguem mantero desempenho nasbases afetadaspor ruídos.

(32)

Apliações

OmodeloCNN-HMM treinadoa partir dosomandos da base Biohaves foiutilizado

para o desenvolvimento de dois jogos pelo grupo de pesquisa de reonheimento de

fala. Osjogosforamdesenvolvidos naversãogratuitadomotor dejogosUnity3D.Essa

ferramenta é um editor poderoso que permite riação dos mesmos em 2D e 3D om

físia própria, apliando-a para simular as leis físias atuante no mundo real, grande

doumentação etutoriais disponíveis.

OssriptspodemserfeitosemC#ouJavasript,sendoesolhidonesteprojetooC#

por haver maior doumentação e tutoriais disponíveis. Desenvolver om unity ainda

permite a failidade de ter projetos multiplataforma omo Android, IOS, Windows

Phone, Windows,Ma OSX, Linux, Samsung TV, Playstation,Xboxet. Além disso,

podeusarosserviçosintegradosdeUnityparaaelerarseuproessodedesenvolvimento

e otimizarseu jogo omo reursosde monetização, networking paramultiplayer, loud

building, asset store e demais. A asset store é uma loja da Unityom vários reursos

gratuitos e pagos para desenvolvimento. Esses reursos são modelos 3D, animações,

áudios,modelosdeprojetos,spritesheet,texturas,paotesdeefeitosdeâmeras,plugins

quepermitemextensibilidade daengine omopara o sensordemovimentos Kinet.

Um jogo é baseado em sistema de turnos do RPG, e o outro requer resposta em

temporeal. Essesjogosforamfeitospara analisaroimpatodessetipodereonheedor

emambas assituações.

5.1 Jogo Cálulo de Aventura

O jogo Cálulo de Aventura é um jogo de aventura om temátia medieval e possui

músia ambientada. Tanto as músias omo ossprites foram baixados na asset store.

AsFiguras5.1 e5.2apresentam telasdoCálulo deAventura. A prototipação dojogo seguiu osseguintespassos:

(33)

(34)

estilodeores,ambientação, jogabilidade,regrasdojogo,ontrolesdojogo(botão

touh paraenvio do áudio),esboçosde telas;

Esolha da engine;

Busardoumentação daengine ejogos relaionadosomreonheedor defala;

Implementação;

Testesde usabilidade.

EssejogoqueestáemdesenvolvimentoéumRPGsingleplayer 2Ddetabuadapara

rianças entre 7 a 9 anos. Ele possui 6 fases, sendo a última o boss nal da história.

O personagem é um guerreiro que busa enontrar a prinesa desapareida e salvar

o vale do ataque de um Dragão, Tiamátia. O dragão é ontrolado pelo Mestre dos

Cálulos que passa os desaos para o jogador. Desde o ataque do Dragão, a prinesa

haviasumido.

Em ada faseariança deveaertar odesaodo mestreparaganharlevel, derrotar

osdragõesmenores eseguirseudestinoatéo astelo. Odesaodo mestreonsiste em

alular algumas operações matemátias de soma, subtração, multipliação e divisão

de dois ou três termos positivos de 2 algarismos, a depender da diuldade . O jogo

apresenta quatro opções de resposta, sendo apenas uma verdadeira. Não é permitido

hutar, pois se aertar ou errar, sempre é gerada uma nova pergunta. Cada opção de

respostageraumaaçãonopersonagem,sendoessasações: ataqueomespada quando

falaravane,defesaomesudo quandofalarreue, 'usarpoçãodeura quandofalar

direita eusar magia de fogo quando falaresquerda.

Para responder os desaos, o jogador deve apertar no botão do mirofone, que

fará o liente ar aberto ouvindo por 2 segundos. Após os 2 segundos, ele feha o

mirofone,iniiaeestabeleeonexãoomoservidor,enviaoáudioeaguardaareposta

da palavra reonheida. Em seguida, é omputado se a resposta foi erta ou errada,

alémdeexeutaraaçãomapeada paraaquelapalavra. Searespostaforerrada, aação

do personagem é exeutada, porém oorrerá o miss, dando ataque de oportunidade

doinimigo. Ataquedeoportunidade éonheido noRPGomosendoumabrehapara

ataque doinimigo que anteipa suaação.

A proposta da exeução de uma ação vem para fazer a riança interagir mais no

mundo do jogo, onde ela deve pensar qual seria a ação neessária para ombater

aqueledragão. Cadaoperaçãomatemátiatem 30segundospara serrespondida, antes

de gerar nova pergunta. Otempo estipulado foi feito levando em onta o tempo de 5

segundos parareonheimento da palavra e o tempo observado que umariança de 7

anosdemora parafazerasontas usandoosdedosdasmãos.

Cada faseexigeumnúmerode aertospara seguirparaa próxima fase,e ojogador

não é penalizado om dano ou perda de pontos quando erra, apenas deixa de ganhar

level. Oboss nal, Tiamátia,éumdragãode quatro abeçasrepresentandoasquatro

(35)

ope-vida doinimigo, ojogadortem aopção dematar odragão, ou noautear. Ressaltando

queporsetratar de umRPG, ada açãotemumaonsequênia,e asoesolhamatar,

terá salvo o reino mas nuna terá notíias sobre a prinesa desapareida. Se esolher

noautear,seráreveladaedesfeitaamaldiçãosobreo dragão,ondeelesetransformará

na prinesa desapareida. O enanto só poderia ser quebrado quando um guerreiro

orajosoejusto derrotasseo dragãosemmatá-lo, e épreisofazera esolheertapara

desobrir ou jogarnovamente.

Ogamedesignfoifeitopensandonumapropostalúdiaeeduativa,sendoasegunda

baseada no omportamento operante dopsiólogo Skinnerqueoneitualiza o reforço,

punição e extinção de omportamentos para aprendizado de uma tarefa. Esse jogo

requer que o jogador já tenha onheimentos de tabuada, e serve para a prátia da

mesma deforma interativa.

5.2 Jogo Breaker Araaju

O jogo é baseado em um lássio dos games, ujo nome é Break Ball. No entanto,

este é nomeado omo Break Araaju, igualmente, houve uma personalização nele, no

lugar dabolafoiusadoumaju,frutatípiade Araaju-SE. Autilizaçãodeomandos

é feita através da voz para ontrolar a plataforma, pois o objetivo desse jogo é não

deixar o aju air no hão para isto não aonteer, preisa-se ontrolar a plataforma

feita de folha, ela deve-se mover para direita, esquerda ou parar de aordo om o

aju. Simultaneamente deve-se destruir os bloos de madeiras aima da plataforma,

para onseguir maior pontuação e vener. O jogo foi pensado e onstruindo tendo no

momento umafase. A Figura 5.3 apresenta a tela iniial e a Figura5.4 a tela padrão do jogo.

Figura5.3: Tela iniial

O botão verde om simbolo do mirofone, ao ser apertado, ativa o liente do jogo

que ativa a aptação do áudio pelo mirofone da plataforma na qual o jogo esta

(36)

Figura5.4: Exemplo defase dojogo

EsquerdaePare). Deaordoomada palavraaplataformasemovimenta. Aonaldo

jogo,mostra-sea pontuação,sendoesta baseadanoseguintealulo,númerode bloos

(37)

Conlusão

Este trabalho apresentou ummodelo híbrido entre CNN eHMM parareonheimento

de fala

OsresultadosdosexperimentosmostraramqueomodeloCNN-HMMonsegue

me-lhorar o reonheimento de palavras mesmo na presença de ruído. Mesmo sendo um

modelo que não usa nenhum método adiional para o tratamento do ruído, a CNN

é apaz de normalizar algumas variações aústias que podem oorrer em ambiente

não ontrolados. Essa melhoria pode ter sido inueniada pela anotação fonétia da

base, ontudo, omo visto nos resultados, a pequena variação entre as taxas de EER

enontradas entreasbases mostram a robustezdaabordagem.

Outrapropriedadeimportantedomodeloéaapaidadedeusararedeomo

front-end do sistema ASR. Através das amadas de onvolução e subamostragem, a CNN

onseguerealizarumaextraçãoimplíitadearaterístias dosdadosdeentrada. Além

disso, propriedades omoompartilhamento de pesos eonetividade loalintroduzem

umerto nívelde invariânia adistorções presentes emsituaçõesreais. Asamadas de

subamostragemsãoapazesdetratarpequenosdesloamentosnodomíniodafrequênia

que sãobemomuns emsinaisde fala.

Omodelo, nesta abordagem, possui adesvantagem de neessitarde uma anotação

fonétia daspalavras para quepossa ser treinado. Esse tipo de anotação nem sempre

estádisponívelembasesdetreinamento,edemandam detempo paraseremrealizadas.

Além disso, alguns fonemas são bastante urtos, podendo riar onfusão durante o

trabalho de anotação e onsequentemente alguns fonemas podem ter sua rotulação

equivoada.

Como extensãodeste trabalho,pretende-se realizar osseguintes trabalhos:

Adaptaçãodo modeloparaoreonheimento de falaontínua emamplo

voabu-lário;

Analisar e propormétodospararealizar a anotaçãofonétia de bases defala;

(38)

Abdel-Hamid, O.,Mohamed, A.-r., Jiang, H., Deng, L., Penn, G., and Yu,D. (2014).

Convolutional neural networksfor speehreognition. Audio, Speeh, andLanguage

Proessing, IEEE/ACM Transations on, 22(10):15331545.

Abdel-Hamid,O.,Mohamed, A.-r., Jiang, H.,andPenn,G. (2012). Applying

onvolu-tional neuralnetworks onepts to hybrid nn-hmm modelfor speeh reognition. In

Aoustis, Speeh andSignal Proessing (ICASSP),2012IEEE International

Confe-rene on,pages 42774280. IEEE.

Almeida, C. R. (2014). Extratores de araterístias aústias inspirados no sistema

perifério auditivo. Master's thesis, Federal Universityof Sergipe,São Cristóvão.

Bourlard, H. A. and Morgan, N. (1994). Connetionist speeh reognition: a hybrid

approah, volume 247. Springer Siene &BusinessMedia.

Chang, S.-Y.andMorgan,N.(2014). Robustnn-based speehreognition withgabor

lter kernels. InFifteenth Annual Conferene of the InternationalSpeeh

Communi-ation Assoiation.

Ciresan,D.,Meier,U.,andShmidhuber,J.(2012).Multi-olumndeepneuralnetworks

for imagelassiation. InComputerVision andPattern Reognition(CVPR),2012

IEEE Conferene on, pages36423649. IEEE.

Ciresan, D. C., Meier, U., Masi, J., Maria Gambardella, L., and Shmidhuber, J.

(2011).Flexible,highperformaneonvolutionalneuralnetworksforimage

lassia-tion. InIJCAI Proeedings-International Joint Conferene on Artiial Intelligene,

volume 22,page 1237.

Davis, S. and Mermelstein, P. (1980). Comparison of parametri representations for

monosyllabi word reognition inontinuously spoken sentenes. Aoustis, Speeh

and Signal Proessing, IEEE Transations on,28(4):357366.

Fukushima,K.(1980).Neoognitron: Aself-organizingneuralnetworkmodelfora

(39)

Goldman, J.-P. (2011). Easyalign: an automati phoneti alignment toolunder praat.

Interspeeh'11, 12thAnnualConferene ofthe International SpeehCommuniation

Assoiation.

Hermansky,H.(1990).Pereptuallinearpreditive(plp)analysisofspeeh.theJournal

of the Aoustial Soiety of Ameria,87(4):17381752.

Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A.-r., Jaitly, N., Senior, A.,

Vanhouke, V., Nguyen, P., Sainath,T. N., etal. (2012). Deep neural networks for

aousti modeling inspeeh reognition: The shared views of four researh groups.

Signal Proessing Magazine,IEEE, 29(6):8297.

Huang,J.-T.,Li,J.,andGong,Y.(2015). Ananalysisofonvolutionalneuralnetworks

forspeehreognition. In ICASSP.

Hubel, D.H. andWiesel, T. N.(1968). Reeptive eldsand funtional arhiteture of

monkey striateortex. The Journal of physiology,195(1):215243.

Itakura,F.(1975).Minimumpreditionresidualprinipleappliedtospeehreognition.

IEEE Transations on Aoustis, Speeh, andSignal Proessing,23(1):6772.

Jones,E.,Oliphant,T.,Peterson, P.,etal.(2001). SiPy: Opensouresientitools

forPython. [Online; aessed2016-05-17℄.

Junqua,J.-C.(1996).Theinueneofaoustisonspeehprodution: Anoise-indued

stressphenomenonknownasthelombardreex.SpeehCommuniation,20(1):1322.

Jurafsky,D.andMartin,J.H.(2000).Speeh&languageproessing.PearsonEduation

India.

LeCun, Y., Bottou, L., Bengio, Y., and Haner, P. (1998). Gradient-based learning

appliedto doument reognition. Proeedingsof the IEEE,86(11):22782324.

LeCun, Y., Huang, F. J., and Bottou, L.(2004). Learning methods for generiobjet

reognition with invariane to pose and lighting. In Computer Vision and Pattern

Reognition, 2004. CVPR 2004. Proeedings of the 2004 IEEE Computer Soiety

Conferene on,volume 2,pagesII97.IEEE.

Lee, H., Pham, P., Largman, Y.,and Ng,A. Y.(2009). Unsupervised feature learning

for audio lassiation using onvolutional deep belief networks. In Advanes in

neural information proessing systems,pages10961104.

Li, J., Deng, L., Gong, Y., andHaeb-Umbah, R.(2014). An overviewof noise-robust

(40)

Lan-Mitra,V.,Wang,W.,Frano,H., Lei,Y.,Bartels,C.,andGraiarena,M.(2014).

Eva-luating robust features ondeep neural networks for speeh reognition innoisyand

hannelmismathed onditions. InFifteenthAnnual Conferene ofthe International

Speeh Communiation Assoiation.

Pedregosa, F.,Varoquaux, G.,Gramfort,A., Mihel, V., Thirion,B.,Grisel, O.,

Blon-del,M.,Prettenhofer,P.,Weiss,R.,Dubourg,V.,Vanderplas,J.,Passos,A.,

Courna-peau,D., Bruher,M., Perrot, M.,and Duhesnay,E. (2011). Sikit-learn: Mahine

learning inPython. Journalof MahineLearning Researh, 12:28252830.

Rabiner, L. (1989). A tutorial on hidden markov models and seleted appliations in

speeh reognition. Proeedings of the IEEE,77(2):257286.

Raulino, C., Duarte, D., and Montalvão, J. (2013). Análise de espetro através da

deteção de eventos aústios elementares no plano tempo-frequênia. In Simpósio

Brasileiro de Automação Inteligente.

Serre,T.,Wolf,L.,Bileshi,S.,Riesenhuber,M.,andPoggio,T.(2007). Robustobjet

reognition withortex-likemehanisms. PatternAnalysisandMahineIntelligene,

IEEE Transations on,29(3):411426.

Smith,A. (2015). U.s.smartphoneusein2015. Pew ResearhCenter.

Soltau, H., Kuo, H.-K., Mangu, L., Saon, G., and Beran, T. (2013). Neural network

aousti models forthe darparatsprogram. InINTERSPEECH, pages30923096.

TheanoDevelopmentTeam(2016).Theano: APythonframeworkforfastomputation

of mathematial expressions. arXiv e-prints,abs/1605.02688.

Varga, A. and Steeneken, H. J.(1993). Assessment for automati speeh reognition:

Ii. noisex-92: A database and an experiment to study theeet of additive noiseon