MP3

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
MPEG-1 Audio Layer 3
VLC mp3.png
Extensão do arquivo .mp3
Desenvolvido por Instituto Fraunhofer

O MP3 (MPEG-1/2 Audio Layer 3) foi um dos primeiros tipos de compressão de áudio com perdas quase imperceptíveis ao ouvido humano. O seu bitrate (taxa de bits) é da ordem de kbps (quilobits por segundo), sendo 128 kbps a taxa-padrão, na qual a redução do tamanho do arquivo é de cerca de 90%, ou seja, o tamanho do arquivo passa a ser 1/10 do tamanho original. A taxa de bits pode chegar a até 320 kbps (cerca de 2,3 MB/min de áudio), gerando a máxima qualidade sonora do formato, na qual a redução do tamanho do arquivo é de cerca de 75%, ou seja, o tamanho do arquivo passa a ser cerca de 1/4 do original. Há também outras taxas intermediárias, como 192 kbps e 256 kbps, cuja escolha depende da relação custo-benefício desejada, onde o tamanho do arquivo pode ser reduzido em detrimento da qualidade/fidelidade do som. Para efeitos de comparação, as músicas de um CD de áudio comum possuem uma taxa de amostra de dados de 1411,2 kbps.[1] [2]

O Moving Picture Experts Group, acrônimo MPEG, formalmente designado como ISO / IEC JTC 1/SC 29/WG 11, denominação de codificação de imagens em movimento e áudio, é uma comissão técnica, formada pela ISO e IEC, encarregada de estabelecer normas para a representação de áudio digital, vídeo e outros tipos de mídia para atenderem a uma ampla variedade de aplicações. O Comité foi instituído em janeiro de 1988 por Leonardo Chiariglione e se reuniu pela primeira vez nos dias 10, 11 e 12 de maio de 1988. Normalmente, reuniam-se, em média, quatro vezes por ano. Na primeira reunião houve participação de 25 membros, enquanto que, atualmente, as reuniões são frequentadas por mais de 350 membros que representam mais de 200 empresas e organizações de 20 países ao redor do mundo.

O método de compressão com perdas empregado na compressão do MP3 consiste em retirar do áudio tudo aquilo que o ouvido humano normalmente não conseguiria perceber, devido a fenômenos de mascaramento de sons e de limitações da audição humana (embora pessoas com ouvido absoluto possam perceber tais perdas). O ouvido humano consegue captar frequências de 20 Hz até 20 kHz[3] .

O tamanho dos arquivos em MP3 será tanto maior quanto maior for a sua duração. Para efeito de exemplo, consideremos uma música com 5 minutos de duração. Para armazená-la a uma taxa de 320 kbps, será necessário um espaço de 2,3 MB/min x 5 min = 11,5 MB. Na qualidade-padrão, de 128 kbps, serão necessários 0,92 MB/min de áudio para o armazenamento da mesma música. Um CD-R comum pode armazenar até mais de 12 horas de áudio em MP3 de 128 kbps.

O significado da sigla[editar | editar código-fonte]

Question book.svg
Seção não cita fontes fiáveis e independentes (desde Julho de 2008). Por favor, adicione referências e insira-as no texto ou no rodapé, conforme o livro de estilo. Conteúdo sem fontes poderá ser removido.
Encontre fontes: Google (notícias, livros, acadêmico)Yahoo!Bing.

MP3 é uma abreviação de MPEG 1 Layer-3. Trata-se de um padrão de arquivos digitais de áudio estabelecido pelo Moving Picture Experts Group (MPEG), grupo de trabalho de especialistas de Tecnologia da Informação vinculado à ISO e à CEI. As camadas referem-se ao esquema de compressão de áudio do MPEG-1. Foram projetadas em número de 3, cada uma com finalidades e capacidades diferentes. Enquanto a camada 1, que dá menor compressão, se destina à utilização em ambientes de áudio profissional (estúdios, emissoras de TV etc), onde o nível de perda de qualidade deve ser mínimo devido à necessidade de reprocessamento, a camada 3 se destina ao áudio que será usado pelo cliente final. Como se espera que esse áudio não sofrerá novos ciclos de processamento, a compressão pode ser menos conservadora e aproveitar melhor as características psicoacústicas do som, limitando-se apenas pela qualidade desejada para o ouvido humano.

A compressão típica da camada 1 é de 4:1; a camada 2 é de 8:1, enquanto a da camada 3 é de 11:1. É importante lembrar que essa diferença de compressão não tem a ver com uma camada ser tecnologicamente mais avançada que a outra, mas sim com o objetivo da aplicação do áudio a ser processado.

Um erro comum é confundir MP3 com MPEG-3. MPEG-3 é um formato morto, pois o formato MPEG-4 o suplantou com muitas vantagens. Enquanto o MPEG-3 deveria ter sido um formato para compressão tanto de áudio como de vídeo, o MP3 responde apenas pela terceira camada de compressão de áudio do MPEG-1.

História[editar | editar código-fonte]

Início de 1970: O professor Dieter Seitzer, da Universidade Erlangen-Nuremberg na Alemanha, depara-se com o problema de transmitir fala em alta qualidade através de linhas telefônicas. Ele inicia, então, um grupo de pesquisa em codificação de áudio.

Fim de 1970: Em virtude do surgimento do ISDN (Integrated Service Digital Network) e de cabos de fibra óptica para telecomunicações, melhorar a codificação de voz pareceu pouco importante. Então o professor Seitzer iniciou a pesquisa em codificação de sinais de música.

1979: O grupo do professor Seitzer desenvolveu o primeiro processador de sinais digitais capaz de realizar a compressão de áudio. Um dos estudantes, Karlheinz Brandenburg, começou a implementar princípios da psicoacústica na codificação de áudio.

1987: A Universidade Erlangen-Nuremberg realizou uma parceria com o Instituto Fraunhofer.

1988: Estabeleceu-se o MPEG (Moving Picture Experts Group), grupo de trabalho da ISO (International Organization for Standardization), responsável por desenvolver padrões para a compressão de áudio e vídeo digitais.

1989: Brandenburg finalizou sua tese de doutorado, onde apresentava o algoritmo OCF (Optimum Coding in the Frequency Domain). Tal codec possuía várias características da atual tecnologia MP3 e era um sistema de tempo real.

1991: Melhoras no algoritmo OCF, somadas a contribuições da Universidade de Hannover, dentre outras, produziram um novo codec de áudio, chamado ASPEC (Adaptative Spectral Perceptual Entropy Coding). O ASPEC foi um dos 14 trabalhos enviados para a ISO como proposta de codificação de áudio. Após testes rigorosos, a ISO sugeriu que a codificação de áudio apresentasse 3 abordagens em escala de complexidade e eficiência:

Layer 1 e Layer 2, mais simples, baseadas em um outro codec enviado à ISO, o MUSICAN,

Layer 3, de alta eficiência e maior complexidade, baseada no ASPEC.

O ASPEC evolui, então, para o codec MP3 - MPEG-1 Layer 3.

1995: Os pesquisadores de Fraunhofer votaram ' .mp3 ' como a extensão de arquivos MPEG Layer 3. Disponibilizou-se o codec do Layer 3 como shareware.

1997: Michael Robertson constrói o site 'mp3.com', onde disponibiliza informações e tudo o mais relacionado à tecnologia MP3.

1997: A SONY Company cria um formato padrão de MP3 (ARQUIVO) que todas as empresas do mundo adotaram.

1998: Surgem os primeiros players portáteis de MP3, usando memória flash.

2000: Surgem, no mercado dos EUA, CD players com funcionalidades de mp3.

2006: Na Alemanha, MP3 gera mais de 10.000 postos de trabalho e aproximadamente 300 milhões de euros de impostos. Os alemães gastam em média 1,5 bilhões de euros em MP3 players e produtos relacionados.[carece de fontes?]

Após a grandiosa fama na Internet, o MP3 causou grande revolução no mundo do entretenimento. Assim como o LP de vinil, o cassete de áudio e o CD, o MP3 se fortaleceu como um popular meio de distribuição de canções. A questão-chave para entender todo o sucesso do MP3 se baseia no fato de que, antes dele ser desenvolvido, uma música no computador era armazenada no formato WAV, que é o formato-padrão para arquivo de som em PCs, chegando a ocupar dezenas de megabytes em disco.

Na média, um minuto de música corresponde a 10 MB, para uma gravação de som de 16 bits estéreo com 44,1 KHz, o que resulta numa grande complicação a distribuição de músicas por computadores, principalmente pela Internet. Com o surgimento do MP3, essa história mudou, pois o formato permite armazenar músicas no computador sem ocupar muito espaço e sem tirar a qualidade sonora das canções. Geralmente, um minuto de música corresponde a cerca de 1 MB em MP3. O MP3 (MPEG-1/2 Audio Layer 3) foi um dos primeiros tipos de arquivos a comprimir áudio com perda de dados, eficientemente, de forma quase imperceptível ao ouvido humano.

Ao se popularizar, o formato MP3 deixou, consequentemente, a indústria fonográfica preocupada com seus lucros. O MP3 alcançou um sucesso tão grande que, quando as gravadoras se deram conta, o formato já estava presente em milhões de computadores em todo o mundo.

A cantora americana Suzanne Vega é considerada a "mãe" do mp3. Um artigo[4] publicado pelo New York Times, escrito pela própria cantora, revela que sua voz, na canção a cappella Tom's Diner, de 1986, serviu de referência auditiva para Brandenburg realizar os ajustes finais nos parâmetros de compressão do mp3. Ou seja, os mesmos parâmetros empregados para que a voz de Suzanne Vega fosse ouvida de maneira satisfatória por Brandenburg na canção Tom's Diner são os parâmetros empregados para a compressão de todo o áudio no formato mp3 até hoje.

Princípios[editar | editar código-fonte]

As taxas de compressão alcançadas pelo MP3 chegam a até 12 vezes, dependendo da qualidade desejada. Para fazer isso, o MP3 utiliza-se, além das técnicas habituais de compressão, de estudos de psicoacústica, sendo que estes permitem aproveitar-se das limitações e imperfeições da audição humana.

A utilização dos limites da audição humana baseia-se em três princípios básicos:

  1. Faixa de frequência audível dos seres humanos;
  2. Limiar de audição na faixa de frequência audível;
  3. Mascaramento em frequência e mascaramento temporal.
  • Faixa de frequência audível humana: O ouvido humano, devido às suas limitações físicas, é capaz de detectar sons em uma faixa de frequência que varia de 20 Hz a 20 KHz, sendo que estes valores podem variar de indivíduo para indivíduo e também com a idade (com o envelhecimento perdemos a capacidade de ouvir frequências mais altas). Desta forma, não faz sentido armazenar dados referentes a sons fora desta faixa de frequência, pois, ao serem reproduzidos, os mesmos não serão percebidos por um ser humano. Esta é a primeira limitação da audição humana do qual o sistema MP3 faz uso para alcançar altas taxas de compressão. De acordo com o Teorema de Nyquist, para garantir a reprodução de um sinal, temos de amostrá-lo pelo menos a duas vezes sua frequência máxima. Ou seja, neste caso, como a frequência máxima de interesse é 20 KHz, basta amostrar a 40 KHz. Utilizam-se 44.100 Hz como taxa de amostragem, pois levam-se em consideração 10% de tolerância e busca-se um valor, produto dos quatro primeiros números primos. (Obs. (2x3x5x7)^2 = 44100). Desta forma, esta taxa de amostragem funciona como um filtro passa-baixas, que remove todos os componentes de frequência fora da faixa de interesse, neste caso, acima de 20 Khz.
  • Limiar de audição na faixa de frequência audível: Outro fator utilizado pela codificação MP3 é a curva de percepção da audição humana dentro da faixa de frequências audíveis, ou limiar de audição. Apesar da faixa de audição humana variar entre 20 Hz e 20 KHz, a sensibilidade para sons dentro desta faixa não é uniforme. Ou seja, a percepção da intensidade de um som varia com a frequência em que este se encontra. Desta forma, o MP3 utiliza-se desta propriedade para obter compressão em arquivos de áudios. Esta abordagem é bastante intuitiva, sendo que o que se faz é descartar amostras que se encontrem abaixo deste limiar.
  • Mascaramento em frequência e mascaramento temporal: Por fim, uma última propriedade da audição humana, ainda utilizada pelo método, é o chamado mascaramento auditivo, ou “audiabilidade diminuída de um som devido à presença de outro”, podendo este ser em frequência ou no tempo. O mascaramento em frequência ocorre quando um som, que normalmente poderia ser ouvido, é mascarado por outro, de maior intensidade, que se encontra em uma frequência próxima. Ou seja, o limiar de audição é modificado (aumentado) na região próxima à frequência do som que causa o ocorrência do mascaramento, sendo que isto se deve à limitação da percepção de frequências do ouvido humano. O mascaramento em frequência depende da frequência em que o sinal se encontra, podendo variar de 100 Hz a 4 KHz. Em função deste comportamento, o que o método de compressão do MP3 faz é identificar casos de mascaramento em frequência e descartar sinais que não serão audíveis devido a este fenômeno. Além do mascaramento em frequência, temos ainda o mascaramento no tempo, sendo que este ocorre quando um som forte é precedido por um mais fraco que se encontra em uma frequência próxima à do primeiro. Se o intervalo de tempo entre os dois for suficientemente pequeno, este som mais fraco não será percebido pela audição humana. Se um som é mascarado após um som mais forte, temos o chamado pós-mascaramento. No caso de um som ser mascarado antes do som mais forte, temos o que chamamos de pré-mascaramento. O pré-mascaramento existe só por um curto momento, cerca de 20ms, enquanto que o pós-mascaramento tem efeito por até 200ms. O método de compressão do MP3 utiliza-se portanto deste fenômeno, identificando casos onde o mesmo ocorre, e descartando sons que seriam mascarados, o que permite reduzir, consideravelmente, a informação de áudio, sem mudança audível.

Licenças e patentes[editar | editar código-fonte]

A Thomson Consumer Electronics controla o licenciamento da patente do MPEG-1/2 Layer 3 nos poucos países que reconhecem patentes de software, tais como Estados Unidos e Japão.

Em setembro de 1998, o Instituto Fraunhofer enviou um comunicado a diversos desenvolvedores de programas MP3, exigindo cobrança de royalties por essa patente. O comunicado informava que o licenciamento era necessário para "distribuir e/ou vender decodificadores e/ou codificadores", e que os produtos não licenciados infringiam os "direitos sobre a patente do Instituto Fraunhofer e da Thomson. Para produzir, vender e/ou distribuir produtos que se utilizem do padrão MPEG-1/2 Audio Layer 3 e, portanto, de suas respectivas patentes, é necessário obter uma licença."

Tal iniciativa revelou a necessidade de promover formatos realmente livres, como o padrão ogg vorbis.

Note-se que, passados 20 anos da existência do MPEG-1, e consequentemente do MP3, a licença passará a ser livre, tornando-se este codificador propriedade da humanidade.

Streaming[editar | editar código-fonte]

O sistema empregado pelo MP3 também possibilita transmissões por streaming, onde o arquivo pode ser interpretado à medida que é feito o download ou em que é baixado (não é necessário que o arquivo chegue inteiro para iniciar a reprodução).

Ver também[editar | editar código-fonte]

Referências

  1. MP3 File Format Specification
  2. How MP3 Works: Inside the Codec
  3. https://en.wikipedia.org/wiki/Ear#Function
  4. Vega, Suzanne. Tom’s Essay (em inglês) New York Times. 23 de setembro de 2008. Página visitada em 11 de setembro de 2009.