Bioconductor
Bioconductor | |
---|---|
Bioconductor logo.svg | |
Página oficial | www |
O Bioconductor é um projeto de software livre, de código aberto e de desenvolvimento aberto para análise e compreensão de dados genômicos gerados por experimentos em laboratórios na área de biologia molecular.
O Bioconductor é baseado principalmente na linguagem de programação estatística R, mas também contém contribuições em outras linguagens de programação. Ele tem dois lançamentos a cada ano que seguem os lançamentos semestrais do R. A qualquer momento, há uma versão de lançamento, que corresponde à versão lançada do R, e uma versão de desenvolvimento, que corresponde à versão de desenvolvimento do R. Além disso, existem muitos pacotes de anotação de genoma disponíveis que são principalmente, mas não exclusivamente, orientados para diferentes tipos de microarranjos.
Enquanto métodos computacionais continuam a ser desenvolvidos para interpretar dados biológicos, o projeto Bioconductor é um repositório de software de código aberto que hospeda uma ampla gama de ferramentas estatísticas desenvolvidas no ambiente de programação R. Utilizando uma rica variedade de recursos estatísticos e gráficos em R, muitos pacotes do Bioconductor foram desenvolvidos para atender a várias necessidades de análise de dados. O uso desses pacotes fornece uma compreensão básica da linguagem de programação/comando R. Como resultado, o R e os pacotes do Bioconductor, que têm um forte histórico de computação, são usados pela maioria dos biólogos que se beneficiarão significativamente de sua capacidade de analisar conjuntos de dados. Todos esses resultados fornecem aos biólogos acesso fácil à análise de dados genômicos sem a necessidade de experiência em programação.
O projeto foi iniciado no outono de 2001 e é supervisionado pela equipe principal do Bioconductor, baseada principalmente no Fred Hutchinson Cancer Research Center, com outros membros vindos de instituições internacionais.
Pacotes[editar | editar código-fonte]
A maioria dos componentes do Bioconductor são distribuídos como pacotes R, que são módulos complementares para R. Inicialmente, a maioria dos pacotes de software do Bioconductor se concentrava na análise de Affymetrix de canal único e dois ou mais microarranjos de cDNA / Oligo . À medida que o projeto amadureceu, o escopo funcional dos pacotes de software foi ampliado para incluir a análise de todos os tipos de dados genômicos, como SAGE, sequência ou dados SNP.
Objetivos[editar | editar código-fonte]
Os objetivos gerais dos projetos são:
- Fornecer acesso generalizado à uma ampla gama de poderosos métodos estatísticos e gráficos para a análise de dados genômicos.
- Facilitar a inclusão de metadados biológicos na análise de dados genômicos, por exemplo, dados de literatura do PubMed, dados de anotação do LocusLink/Entrez .
- Fornecer uma plataforma de software comum que permita o rápido desenvolvimento e implantação de software plugável, escalável e interoperável .
- Aumentar a compreensão científica produzindo documentação de alta qualidade e pesquisa reprodutível.
- Treinar pesquisadores em métodos computacionais e estatísticos para a análise de dados genômicos.
Principais características[editar | editar código-fonte]
- Documentação e pesquisa reprodutível. Cada pacote do Bioconductor contém pelo menos uma vinheta, que é um documento que fornece uma descrição textual e orientada da funcionalidade do pacote. Essas vinhetas vêm em várias formas. Muitas são simples instruções para demonstrar como uma tarefa específica pode ser realizada com o software desse pacote. Outras fornecem uma visão mais completa do pacote ou podem até discutir questões gerais relacionadas ao pacote. No futuro, o projeto Bioconductor pretende fornecer vinhetas que não sejam especificamente vinculadas a um pacote, mas que demonstrem conceitos mais complexos. Assim como em todos os aspectos do projeto Bioconductor, os usuários são incentivados a participar desse esforço.
- Métodos estatísticos e gráficos. O projeto Bioconductor visa fornecer acesso a uma ampla gama de poderosos métodos estatísticos e gráficos para a análise de dados genômicos. Pacotes de análise estão disponíveis para: pré-processamento Affymetrix e Illumina, dados de arranjos de cDNA ; identificação de genes diferencialmente expressos; análises teóricas de gráficos; plotagem de dados genômicos. Além disso, o próprio sistema do pacote R fornece implementações para uma ampla variedade de técnicas estatísticas e gráficas de última geração, incluindo modelagem linear e não linear, análise de cluster, predição, reamostragem, análise de sobrevivência e análise de séries temporais.
- Anotação de genoma. O projeto Bioconductor fornece software para associar dados de microarranjos e outros dados genômicos em tempo real a metadados biológicos de bancos de dados da web, como GenBank, LocusLink e PubMed (pacote de anotações). Também são fornecidas funções para incorporar os resultados da análise estatística em relatórios HTML com links para recursos de anotação WWW. Ferramentas de software estão disponíveis para montar e processar dados de anotação genômica, de bancos de dados como GenBank, Gene Ontology Consortium, LocusLink, UniGene, UCSC Human Genome Project e outros com o pacote AnnotationDbi. Pacotes de dados são distribuídos para fornecer mapeamentos entre diferentes identificadores de sonda (por exemplo, Affy IDs, LocusLink, PubMed). Bibliotecas de anotações personalizadas também podem ser montadas.
- Código aberto. O projeto Bioconductor tem um compromisso com a disciplina de código aberto completo, com distribuição por meio de uma plataforma semelhante à SourceForge.net . Espera-se que todas as contribuições existam sob uma licença de código aberto, como Artistic 2.0, GPL2 ou BSD. Existem muitas razões diferentes pelas quais o software de código aberto é benéfico para a análise de dados de microarranjo e para a biologia computacional em geral. As razões incluem:
- Fornecer acesso total aos algoritmos e sua implementação
- Facilitar melhorias de software por meio de correção de bugs e plug-ins
- Incentivar boas práticas de computação científica e estatística, fornecendo ferramentas e instruções apropriadas
- Fornecer uma bancada de ferramentas que permita aos pesquisadores explorar e expandir os métodos usados para analisar dados biológicos
- Garantir que a comunidade científica internacional seja proprietária das ferramentas de software necessárias para realizar pesquisas
- Liderar e incentivar o suporte comercial e o desenvolvimento dessas ferramentas que são bem-sucedidas
- Promover pesquisas reprodutíveis, fornecendo ferramentas abertas e acessíveis para realizar essa pesquisa (pesquisa reprodutível é diferente de verificação independente)
- Desenvolvimento aberto. Os usuários são encorajados a se tornarem desenvolvedores, contribuindo com pacotes ou documentação compatível com o Bioconductor. Além disso, o Bioconductor fornece um mecanismo para vincular diferentes grupos com objetivos comuns para promover a colaboração em software, possivelmente no nível de desenvolvimento compartilhado.
Marcos[editar | editar código-fonte]
Cada versão do Bioconductor é desenvolvida para funcionar melhor com uma versão escolhida do R.[1] Além de correções de bugs e atualizações, uma nova versão geralmente adiciona pacotes. A tabela abaixo mapeia uma versão do Bioconductor para uma versão R e mostra o número de pacotes de software do Bioconductor disponíveis para essa versão.
Versão | Data de lançamento | Número de pacotes | Versão R |
---|---|---|---|
3.17 | 26 de abril de 2023 | 2230 | R 4.3 |
3.16 | 2 de novembro de 2022 | 2183 | R 4.2 |
3.14 | 27 de outubro de 2021 | 2083 | R 4.1 |
3.11 | 28 de abril de 2020 | 1903 | R 4.0 |
3.10 | 30 de outubro de 2019 | 1823 | R 3.6 |
3.8 | 31 de outubro de 2018 | 1649 | R 3.5 |
3.6 | 31 de outubro de 2017 | 1473 | R 3.4 |
3.4 | 18 de outubro de 2016 | 1296 | R 3.3 |
3.2 | 14 de outubro de 2015 | 1104 | R 3.2 |
3.0 | 14 de outubro de 2014 | 934 | R 3.1 |
2.13 | 15 de outubro de 2013 | 749 | R 3.0 |
2.11 | 3 de outubro de 2012 | 610 | R 2.15 |
2.9 | 1 de novembro de 2011 | 517 | R 2.14 |
2.8 | 14 de abril de 2011 | 466 | R 2.13 |
2.7 | 18 de novembro de 2010 | 418 | R 2.12 |
2.6 | 23 de abril de 2010 | 389 | R 2.11 |
2.5 | 28 de outubro de 2009 | 352 | R 2.10 |
2.4 | 21 de abril de 2009 | 320 | R 2.9 |
2.3 | 22 de outubro de 2008 | 294 | R 2.8 |
2.2 | 1 de maio de 2008 | 260 | R 2.7 |
2.1 | 8 de outubro de 2007 | 233 | R 2.6 |
2.0 | 26 de abril de 2007 | 214 | R 2.5 |
1.9 | 4 de outubro de 2006 | 188 | R 2.4 |
1.8 | 27 de abril de 2006 | 172 | R 2.3 |
1.7 | 14 de outubro de 2005 | 141 | R 2.2 |
1.6 | 18 de maio de 2005 | 123 | R 2.1 |
1.5 | 25 de outubro de 2004 | 100 | R 2.0 |
1.4 | 17 de maio de 2004 | 81 | R 1.9 |
1.3 | 30 de outubro de 2003 | 49 | R 1.8 |
1.2 | 29 de maio de 2003 | 30 | R 1.7 |
1.1 | 19 de outubro de 2002 | 20 | R 1.6 |
1.0 | 1 de maio de 2002 | 15 | R 1.5 |
Recursos[editar | editar código-fonte]
- Gentleman, R.; Carey, V.; Huber, W.; Irizarry, R.; Dudoit, S. (2005). Bioinformatics and Computational Biology Solutions Using R and Bioconductor. [S.l.]: Springer. ISBN 978-0-387-25146-2
- Gentleman, R. (2008). R Programming for Bioinformatics. [S.l.]: Chapman & Hall/CRC. ISBN 978-1-4200-6367-7
- Hahne, F.; Huber, W.; Gentleman, R.; Falcon, S. (2008). Bioconductor Case Studies. [S.l.]: Springer. ISBN 978-0-387-77239-4
- Gentleman, Robert C.; Carey, Vincent J.; Bates, Douglas M.; Bolstad, Ben; Dettling, Marcel; Dudoit, Sandrine; Ellis, Byron; Gautier, Laurent; Ge, Yongchao (2004). «Bioconductor: open software development for computational biology and bioinformatics». Genome Biology. 5 (10): R80. PMC 545600. PMID 15461798. doi:10.1186/gb-2004-5-10-r80
Veja também[editar | editar código-fonte]
- Biologia Computacional
- Bioinformática
- Lista de software de alinhamento de sequência
- R (linguagem de programação)
- microarranjo de DNA
Referências
- ↑ «Bioconductor – Release Announcements». bioconductor.org. Bioconductor. Consultado em 2 de junho de 2023
- Sítio oficial
- The R Project GNU R is a programming language for statistical computing.
- Bioconductor Releases
- The community of the Debian GNU/Linux distribution strives towards an automated building of BioConductor packages Arquivado em 2007-08-11 no Wayback Machine for their distribution. BioKnoppix and Quantian are projects extending Knoppix that have contributed bootable Debian GNU/Linux CDs providing BioConductor installations.