Processamento de sinal de áudio

Processamento de sinal de áudio é uma subárea do processamento de sinais que se dedica à manipulação eletrônica de sinais de áudio. Esses sinais são representações eletrônicas de ondas sonoras — ondas longitudinais que se propagam pelo ar, compostas por compressões e rarefações. A energia contida nos sinais de áudio, ou nível de potência sonora ou acústica, é geralmente medida em decibels. Os sinais de áudio podem ser representados em formato digital [en] ou analógico, e o processamento pode ocorrer em qualquer um desses domínios. Processadores analógicos atuam diretamente sobre o sinal elétrico, enquanto os digitais operam matematicamente sobre sua representação digital.
História
[editar | editar código-fonte]O interesse pelo processamento de sinal de áudio surgiu no início do século XX com invenções como o telefone, o fonógrafo e o rádio, que possibilitaram a transmissão e o armazenamento de sinais de áudio. O processamento de áudio foi essencial para as primeiras transmissões de rádio [en], devido aos desafios com as ligações estúdio-transmissor [en].[1] A teoria do processamento de sinais e sua aplicação ao áudio foi amplamente desenvolvida nos Bell Labs em meados do século XX. O trabalho inicial de Claude Shannon e Harry Nyquist em teoria da comunicação, teoria de amostragem e modulação por código de pulso (PCM) estabeleceu as bases para o campo. Em 1957, Max Mathews [en] tornou-se a primeira pessoa a sintetizar áudio a partir de um computador, dando origem à música por computador.
Avanços significativos em codificação de áudio digital e compressão de dados de áudio incluem a modulação por código de pulso diferencial [en] (DPCM) por C. Chapin Cutler [en] nos Bell Labs em 1950,[2] a codificação preditiva linear [en] (LPC) por Fumitada Itakura [en] (Universidade de Nagoya) e Shuzo Saito (Nippon Telegraph and Telephone) em 1966,[3] a DPCM adaptativa (ADPCM) por P. Cummiskey, Nikil S. Jayant [en] e James L. Flanagan nos Bell Labs em 1973,[4][5] a transformada discreta de cosseno (DCT) por Nasir Ahmed [en], T. Natarajan e K. R. Rao [en] em 1974,[6] e a transformada discreta de cosseno modificada [en] (MDCT) por J. P. Princen, A. W. Johnson e A. B. Bradley na Universidade de Surrey em 1987.[7] A LPC é a base para a codificação perceptual e é amplamente utilizada em codificação de fala [en],[8] enquanto a MDCT é amplamente usada em formatos modernos de codificação de áudio [en], como MP3[9] e Advanced Audio Coding (AAC).[10]
Tipos
[editar | editar código-fonte]Analógico
[editar | editar código-fonte]Um sinal de áudio analógico é um sinal contínuo representado por uma tensão ou corrente elétrica que é análoga às ondas sonoras no ar. O processamento de sinal analógico envolve a alteração física do sinal contínuo por meio de circuitos elétricos, modificando a tensão, corrente ou carga.
Historicamente, antes da ampla adoção da tecnologia digital, o processamento analógico era o único método disponível para manipular sinais. Desde então, com o avanço de computadores e softwares mais acessíveis e capazes, o processamento digital de sinais tornou-se predominante. No entanto, em aplicações musicais, a tecnologia analógica ainda é valorizada por produzir respostas não lineares que são difíceis de replicar com filtros digitais.
Digital
[editar | editar código-fonte]Uma representação digital expressa a forma de onda de áudio como uma sequência de símbolos, geralmente números binários. Isso permite o processamento de sinais utilizando circuitos digitais, como processadores de sinal digital, microprocessadores e computadores de uso geral. A maioria dos sistemas de áudio modernos adota uma abordagem digital, pois as técnicas de processamento de sinal digital são muito mais poderosas e eficientes do que as do domínio analógico.[11]
Aplicações
[editar | editar código-fonte]Os métodos de processamento e áreas de aplicação incluem armazenamento de áudio, compressão de dados de áudio, recuperação de informações musicais [en], processamento de fala [en], localização acústica, detecção acústica, transmissão [en], cancelamento de ruído, impressão digital acústica [en], reconhecimento de som [en], síntese e aprimoramento (como equalização [en], filtragem [en], compressão de nível, remoção ou adição de eco e reverberação, entre outros).
Radiodifusão de áudio
[editar | editar código-fonte]O processamento de sinal de áudio é utilizado na radiodifusão para melhorar a fidelidade dos sinais, otimizar a largura de banda ou reduzir a latência. Nesse contexto, o processamento mais crítico ocorre imediatamente antes do transmissor. O processador de áudio deve evitar ou minimizar a sobremodulação [en], compensar transmissores não lineares (um problema potencial em transmissões de onda média e onda curta) e ajustar o volume geral ao nível desejado.
Controle ativo de ruído
[editar | editar código-fonte]O controle ativo de ruído é uma técnica projetada para reduzir sons indesejados. Ao criar um sinal idêntico ao ruído indesejado, mas com polaridade oposta, os dois sinais se cancelam por meio de interferência destrutiva.
Síntese de áudio
[editar | editar código-fonte]A síntese de áudio é a geração eletrônica de sinais de áudio. Um instrumento musical que realiza essa tarefa é chamado de sintetizador. Os sintetizadores podem imitar sons ou gerar novos. A síntese de áudio também é usada para gerar fala humana por meio da síntese de fala.
Efeitos de áudio
[editar | editar código-fonte]Os efeitos de áudio alteram o som de um instrumento musical ou outra fonte de áudio. Efeitos comuns incluem distorção, frequentemente usada com guitarra elétrica em blues elétrico e rock; efeitos dinâmicos, como pedal de volume e compressores, que afetam o volume; filtros, como pedal wah-wah [en] e equalizadores gráficos [en], que modificam faixas de frequência; efeitos de modulação, como chorus, flanger [en] e phasers [en]; efeitos de altura, como alteradores de altura; e efeitos temporais, como reverberação e delay, que criam ecos e emulam o som de diferentes espaços.
Músicos, engenheiros de áudio e produtores usam unidades de efeitos durante apresentações ao vivo ou em estúdio, geralmente com guitarra elétrica, baixo, teclado eletrônico ou piano elétrico. Embora os efeitos sejam mais comuns com instrumentos elétricos ou eletrônicos, eles podem ser aplicados a qualquer fonte de áudio, como instrumentos acústicos, bateria e vocais.[12][13]
Audição computacional
[editar | editar código-fonte]A audição computacional (CA) ou escuta por máquina é o campo geral de estudo de algoritmos e sistemas para interpretação de áudio por máquinas.[14][15] Como o conceito de uma máquina "ouvir" é amplo e vago, a audição computacional reúne várias disciplinas que originalmente abordavam problemas específicos ou tinham aplicações concretas em mente. O engenheiro Paris Smaragdis [en], em entrevista à Technology Review, descreve esses sistemas como:
"softwares que usam som para localizar pessoas se movendo em salas, monitorar máquinas para detectar falhas iminentes ou acionar câmeras de tráfego para gravar acidentes."[16]
Inspirada por modelos de audição humana, a CA aborda questões de representação, transdução [en], agrupamento, uso de conhecimento musical e semântica geral do som para realizar operações inteligentes em sinais de áudio e música por computadores. Tecnicamente, isso exige uma combinação de métodos de processamento de sinais, modelagem auditiva, percepção musical e cognição, reconhecimento de padrões e aprendizado de máquina, além de métodos tradicionais de inteligência artificial para representação de conhecimento musical.[17][18]
Ver também
[editar | editar código-fonte]Referências
[editar | editar código-fonte]- ↑ Atti, Andreas Spanias, Ted Painter, Venkatraman (2006). Audio signal processing and coding [Online-Ausg.] ed. Hoboken, NJ: John Wiley & Sons. 464 páginas. ISBN 0-471-79147-4
- ↑ patent 5254836, Okada, Yuuji; Kobayashi, Toshihiko; Sasabe, Hiroshi; Aoki, Yoshimitsu; Nishizawa, Makoto; Endo, Shunji, "Method of arc welding with a ferrite stainless steel welding rod", publicado 19/10/1993
- ↑ Gray, Robert M. (2010). «A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol» (PDF). Found. Trends Signal Process. 3 (4): 203–303. ISSN 1932-8346. doi:10.1561/2000000036
. Cópia arquivada (PDF) em 9 de Outubro de 2022
- ↑ P. Cummiskey, Nikil S. Jayant, and J. L. Flanagan, "Adaptive quantization in differential PCM coding of speech", Bell Syst. Tech. J., vol. 52, pp. 1105—1118, Set. 1973
- ↑ Cummiskey, P.; Jayant, Nikil S.; Flanagan, J. L. (1973). «Adaptive quantization in differential PCM coding of speech». The Bell System Technical Journal. 52 (7): 1105–1118. ISSN 0005-8580. doi:10.1002/j.1538-7305.1973.tb02007.x
- ↑ Nasir Ahmed; T. Natarajan; Kamisetty Ramamohan Rao (Janeiro de 1974). «Discrete Cosine Transform» (PDF). IEEE Transactions on Computers. C–23 (1): 90–93. doi:10.1109/T-C.1974.223784. Cópia arquivada (PDF) em 9 de Outubro de 2022
- ↑ J. P. Princen, A. W. Johnson und A. B. Bradley: Subband/transform coding using filter bank designs based on time domain aliasing cancellation, IEEE Proc. Intl. Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2161–2164, 1987.
- ↑ Schroeder, Manfred R. (2014). «Bell Laboratories». Acoustics, Information, and Communication: Memorial Volume in Honor of Manfred R. Schroeder. [S.l.]: Springer. p. 388. ISBN 9783319056609
- ↑ Guckert, John (Primavera 2012). «The Use of FFT and MDCT in MP3 Audio Compression» (PDF). Universidade de Utah. Consultado em 14 de Julho de 2019. Cópia arquivada (PDF) em 9 de Outubro de 2022
- ↑ Brandenburg, Karlheinz (1999). «MP3 and AAC Explained» (PDF). Cópia arquivada (PDF) em 13 de Fevereiro de 2017
- ↑ Zölzer, Udo (1997). Digital Audio Signal Processing. [S.l.]: John Wiley and Sons. ISBN 0-471-97226-6
- ↑ Horne, Greg (2000). Complete Acoustic Guitar Method: Mastering Acoustic Guitar c. [S.l.]: Alfred Music. p. 92. ISBN 9781457415043
- ↑ Yakabuski, Jim (2001). Professional Sound Reinforcement Techniques: Tips and Tricks of a Concert Sound Engineer. [S.l.]: Hal Leonard. p. 139. ISBN 9781931140065
- ↑ Machine Audition: Principles, Algorithms and Systems. [S.l.]: IGI Global. 2011. ISBN 9781615209194
- ↑ «Machine Audition: Principles, Algorithms and Systems» (PDF)
- ↑ Paris Smaragdis taught computers how to play more life-like music
- ↑ Tanguiane (Tangian), Andranick (1993). Artificial Perception and Music Recognition. Col: Lecture Notes in Artificial Intelligence. 746. Berlin-Heidelberg: Springer. ISBN 978-3-540-57394-4
- ↑ Tanguiane (Tanguiane), Andranick (1994). «A principle of correlativity of perception and its application to music recognition». Music Perception. 11 (4): 465–502. JSTOR 40285634. doi:10.2307/40285634
Leitura adicional
[editar | editar código-fonte]- Rocchesso, Davide (20 de Março de 2003). Introdução ao Processamento de Som (PDF). [S.l.: s.n.]
- Wilmering, Thomas; Moffat, David; Milo, Alessia; Sandler, Mark B. (2020). «Uma História dos Efeitos de Áudio». Applied Sciences. 10 (3): 791. doi:10.3390/app10030791
. hdl:10026.1/15335