Bioconductor

Origem: Wikipédia, a enciclopédia livre.
Bioconductor
Bioconductor logo.svg
Página oficial www.bioconductor.org

O Bioconductor é um projeto de software livre, de código aberto e de desenvolvimento aberto para análise e compreensão de dados genômicos gerados por experimentos em laboratórios na área de biologia molecular.

O Bioconductor é baseado principalmente na linguagem de programação estatística R, mas também contém contribuições em outras linguagens de programação. Ele tem dois lançamentos a cada ano que seguem os lançamentos semestrais do R. A qualquer momento, há uma versão de lançamento, que corresponde à versão lançada do R, e uma versão de desenvolvimento, que corresponde à versão de desenvolvimento do R. Além disso, existem muitos pacotes de anotação de genoma disponíveis que são principalmente, mas não exclusivamente, orientados para diferentes tipos de microarranjos.

Enquanto métodos computacionais continuam a ser desenvolvidos para interpretar dados biológicos, o projeto Bioconductor é um repositório de software de código aberto que hospeda uma ampla gama de ferramentas estatísticas desenvolvidas no ambiente de programação R. Utilizando uma rica variedade de recursos estatísticos e gráficos em R, muitos pacotes do Bioconductor foram desenvolvidos para atender a várias necessidades de análise de dados. O uso desses pacotes fornece uma compreensão básica da linguagem de programação/comando R. Como resultado, o R e os pacotes do Bioconductor, que têm um forte histórico de computação, são usados pela maioria dos biólogos que se beneficiarão significativamente de sua capacidade de analisar conjuntos de dados. Todos esses resultados fornecem aos biólogos acesso fácil à análise de dados genômicos sem a necessidade de experiência em programação.

O projeto foi iniciado no outono de 2001 e é supervisionado pela equipe principal do Bioconductor, baseada principalmente no Fred Hutchinson Cancer Research Center, com outros membros vindos de instituições internacionais.

Pacotes[editar | editar código-fonte]

A maioria dos componentes do Bioconductor são distribuídos como pacotes R, que são módulos complementares para R. Inicialmente, a maioria dos pacotes de software do Bioconductor se concentrava na análise de Affymetrix de canal único e dois ou mais microarranjos de cDNA / Oligo . À medida que o projeto amadureceu, o escopo funcional dos pacotes de software foi ampliado para incluir a análise de todos os tipos de dados genômicos, como SAGE, sequência ou dados SNP.

Objetivos[editar | editar código-fonte]

Os objetivos gerais dos projetos são:

  • Fornecer acesso generalizado à uma ampla gama de poderosos métodos estatísticos e gráficos para a análise de dados genômicos.
  • Facilitar a inclusão de metadados biológicos na análise de dados genômicos, por exemplo, dados de literatura do PubMed, dados de anotação do LocusLink/Entrez .
  • Fornecer uma plataforma de software comum que permita o rápido desenvolvimento e implantação de software plugável, escalável e interoperável .
  • Aumentar a compreensão científica produzindo documentação de alta qualidade e pesquisa reprodutível.
  • Treinar pesquisadores em métodos computacionais e estatísticos para a análise de dados genômicos.

Principais características[editar | editar código-fonte]

  • Documentação e pesquisa reprodutível. Cada pacote do Bioconductor contém pelo menos uma vinheta, que é um documento que fornece uma descrição textual e orientada da funcionalidade do pacote. Essas vinhetas vêm em várias formas. Muitas são simples instruções para demonstrar como uma tarefa específica pode ser realizada com o software desse pacote. Outras fornecem uma visão mais completa do pacote ou podem até discutir questões gerais relacionadas ao pacote. No futuro, o projeto Bioconductor pretende fornecer vinhetas que não sejam especificamente vinculadas a um pacote, mas que demonstrem conceitos mais complexos. Assim como em todos os aspectos do projeto Bioconductor, os usuários são incentivados a participar desse esforço.
  • Métodos estatísticos e gráficos. O projeto Bioconductor visa fornecer acesso a uma ampla gama de poderosos métodos estatísticos e gráficos para a análise de dados genômicos. Pacotes de análise estão disponíveis para: pré-processamento Affymetrix e Illumina, dados de arranjos de cDNA ; identificação de genes diferencialmente expressos; análises teóricas de gráficos; plotagem de dados genômicos. Além disso, o próprio sistema do pacote R fornece implementações para uma ampla variedade de técnicas estatísticas e gráficas de última geração, incluindo modelagem linear e não linear, análise de cluster, predição, reamostragem, análise de sobrevivência e análise de séries temporais.
  • Anotação de genoma. O projeto Bioconductor fornece software para associar dados de microarranjos e outros dados genômicos em tempo real a metadados biológicos de bancos de dados da web, como GenBank, LocusLink e PubMed (pacote de anotações). Também são fornecidas funções para incorporar os resultados da análise estatística em relatórios HTML com links para recursos de anotação WWW. Ferramentas de software estão disponíveis para montar e processar dados de anotação genômica, de bancos de dados como GenBank, Gene Ontology Consortium, LocusLink, UniGene, UCSC Human Genome Project e outros com o pacote AnnotationDbi. Pacotes de dados são distribuídos para fornecer mapeamentos entre diferentes identificadores de sonda (por exemplo, Affy IDs, LocusLink, PubMed). Bibliotecas de anotações personalizadas também podem ser montadas.
  • Código aberto. O projeto Bioconductor tem um compromisso com a disciplina de código aberto completo, com distribuição por meio de uma plataforma semelhante à SourceForge.net . Espera-se que todas as contribuições existam sob uma licença de código aberto, como Artistic 2.0, GPL2 ou BSD. Existem muitas razões diferentes pelas quais o software de código aberto é benéfico para a análise de dados de microarranjo e para a biologia computacional em geral. As razões incluem:
    • Fornecer acesso total aos algoritmos e sua implementação
    • Facilitar melhorias de software por meio de correção de bugs e plug-ins
    • Incentivar boas práticas de computação científica e estatística, fornecendo ferramentas e instruções apropriadas
    • Fornecer uma bancada de ferramentas que permita aos pesquisadores explorar e expandir os métodos usados para analisar dados biológicos
    • Garantir que a comunidade científica internacional seja proprietária das ferramentas de software necessárias para realizar pesquisas
    • Liderar e incentivar o suporte comercial e o desenvolvimento dessas ferramentas que são bem-sucedidas
    • Promover pesquisas reprodutíveis, fornecendo ferramentas abertas e acessíveis para realizar essa pesquisa (pesquisa reprodutível é diferente de verificação independente)
  • Desenvolvimento aberto. Os usuários são encorajados a se tornarem desenvolvedores, contribuindo com pacotes ou documentação compatível com o Bioconductor. Além disso, o Bioconductor fornece um mecanismo para vincular diferentes grupos com objetivos comuns para promover a colaboração em software, possivelmente no nível de desenvolvimento compartilhado.

Marcos[editar | editar código-fonte]

Cada versão do Bioconductor é desenvolvida para funcionar melhor com uma versão escolhida do R.[1] Além de correções de bugs e atualizações, uma nova versão geralmente adiciona pacotes. A tabela abaixo mapeia uma versão do Bioconductor para uma versão R e mostra o número de pacotes de software do Bioconductor disponíveis para essa versão.

Versão Data de lançamento Número de pacotes Versão R
3.17 26 de abril de 2023 2230 R 4.3
3.16 2 de novembro de 2022 2183 R 4.2
3.14 27 de outubro de 2021 2083 R 4.1
3.11 28 de abril de 2020 1903 R 4.0
3.10 30 de outubro de 2019 1823 R 3.6
3.8 31 de outubro de 2018 1649 R 3.5
3.6 31 de outubro de 2017 1473 R 3.4
3.4 18 de outubro de 2016 1296 R 3.3
3.2 14 de outubro de 2015 1104 R 3.2
3.0 14 de outubro de 2014 934 R 3.1
2.13 15 de outubro de 2013 749 R 3.0
2.11 3 de outubro de 2012 610 R 2.15
2.9 1 de novembro de 2011 517 R 2.14
2.8 14 de abril de 2011 466 R 2.13
2.7 18 de novembro de 2010 418 R 2.12
2.6 23 de abril de 2010 389 R 2.11
2.5 28 de outubro de 2009 352 R 2.10
2.4 21 de abril de 2009 320 R 2.9
2.3 22 de outubro de 2008 294 R 2.8
2.2 1 de maio de 2008 260 R 2.7
2.1 8 de outubro de 2007 233 R 2.6
2.0 26 de abril de 2007 214 R 2.5
1.9 4 de outubro de 2006 188 R 2.4
1.8 27 de abril de 2006 172 R 2.3
1.7 14 de outubro de 2005 141 R 2.2
1.6 18 de maio de 2005 123 R 2.1
1.5 25 de outubro de 2004 100 R 2.0
1.4 17 de maio de 2004 81 R 1.9
1.3 30 de outubro de 2003 49 R 1.8
1.2 29 de maio de 2003 30 R 1.7
1.1 19 de outubro de 2002 20 R 1.6
1.0 1 de maio de 2002 15 R 1.5

Recursos[editar | editar código-fonte]

Veja também[editar | editar código-fonte]

Referências

  1. «Bioconductor – Release Announcements». bioconductor.org. Bioconductor. Consultado em 2 de junho de 2023