pandas (software)
pandas | |
---|---|
Autor | Wes McKinney |
Desenvolvedor | projeto comunitário |
Plataforma | Multiplataforma |
Lançamento | 11 de janeiro de 2008 (16 anos) |
Versão estável | 2.2.2[1] (10 abril 2024) |
Sistema operacional | Multiplataforma |
Licença | BSD |
Estado do desenvolvimento | corrente |
Página oficial | pandas.pydata.org |
Em programação de computadores, pandas é uma biblioteca de software criada para a linguagem Python para manipulação e análise de dados. Em particular, oferece estruturas e operações para manipular tabelas numéricas e séries temporais. É software livre sob a licensa licença BSD.[2] O nome é derivado do termo inglês "panel data"(dados em painel), um termo usado em estatística e econometria para conjunto de dados que incluem várias unidades amostrais (indivíduos, empresas, etc) acompanhadas ao longo do tempo.[3]
Características
[editar | editar código-fonte]- Uso do objeto "DataFrame" para manipulação de dados, com indexação integrada.
- Ferramentas para ler e escrever dados entre diferentes estruturas de dados e formatos de arquivo.
- Alinhamento de dados e manipulação de dados ausentes.
- Reformatação e pivoteamento de matrizes (dados).
- Divisão (slicing), fancy indexing, e subsettingde grandes conjuntos de dados.
- Inserir e deletar colunas em conjuntos de dados.
- Ferramentas para fundir(merging) ou juntar(join) conjuntos de dados.
- funcionalidade para séries temporais (time series): Geração de intervalo de datas(date range)[4] e conversão de frequência, estatística móvel, regressão linear, entre outras.
- Filtração e limpeza de dados.
Altamente otimizada para performance, a biblioteca pandas tem fortes bases nas linguagens Cython e C.[5]
Dataframes
[editar | editar código-fonte]Pandas é principalmente usado para machine learning(aprendizado de máquina), pela facilidade que o objeto dataframes oferece. Pandas permite a importação de diferentes formatos de arquivo, como csv e excel, para a leitura em dataframes. Também permite diversas operações de álgebra relacional, como projeção, junção, e concatenação, e também funções de limpeza, como por exemplo o preenchimento, substituição ou inserção de valores nulos (null).
Indexando DataFrames
[editar | editar código-fonte]Existem várias maneiras de indexar um DataFrame do Pandas. Uma das maneiras mais fáceis de fazer isso é usando a notação de colchetes.[6]
No exemplo abaixo, você pode usar colchetes para selecionar uma coluna do DataFrame de carros. Você pode usar um colchete único ou duplo. O suporte único produzirá uma série Pandas, enquanto um suporte duplo produzirá um DataFrame Pandas.
# Import pandas and cars.csv import pandas as pd cars = pd.read_csv('cars.csv', index_col = 0) # Print out country column as Pandas Series print(cars['cars_per_cap']) # Print out country column as Pandas DataFrame print(cars[['cars_per_cap']]) # Print out DataFrame with country and drives_right columns print(cars[['cars_per_cap', 'country']])
Funções
[editar | editar código-fonte]Fusão de DataFrames
[editar | editar código-fonte]Para realizar a mesclagem de objetos (estruturas de dados - Dataframes) utilizados ao programar em Python, utilizando a biblioteca para análise de dados Pandas, é necessário que suas estrutura de dados possuam pelo menos uma coluna em comum com dados equivalentes ou iguais. A função pd.merge() do Pandas, se baseia em verificar se um determinado registro de uma coluna do Dataframe X é igual a do Dataframe Y e, caso sejam as demais colunas do registro se unem para formar uma nova estrutura com todas as informações identificadas naquela linha. Vale ressaltar que, essa mescla de informações é feita de maneira automatizada no objeto como um todo, sem a necessidade de iteração entre as linhas do Dataframe.
Exemplo de uso
[editar | editar código-fonte]# Importação da biblioteca
import pandas as pd
#Exemplo de Criação de dois DataFrames
df1 = pd.DataFrame({'Coluna': ['1', '2', '3', '4'],
'Valor1': ['A', 'C', 'E', 'G']})
df2 = pd.DataFrame({'Coluna': ['1', '2', '3', '4'],
'valor2': ['B', 'D', 'F', 'H']})
# Aqui atribuímos ao DataFrame (df3) a mesclagem dos DataFrames df1 e df2
df3 = pd.merge(df1,df2,on='Coluna', how='left')
#Print do resultado da mescla da operação
df3
História
[editar | editar código-fonte]O desenvolvedor Wes McKinney começou a desenvolver a Pandas em 2008, enquanto trabalhava na empresa AQR Capital Management. A ideia veio quando ele percebeu a necessidade de uma ferramenta flexível e de alta performance para realizar análise quantitativa em dados financeiros. Antes de deixar a AQR, Wes conseguiu convencer a direção da empresa a permití-lo liberar a biblioteca como open-source.
Outro funcionário da AQR, o desenvolvedor Chang She, se tornou em 2012 o segundo maior contribuidor para a biblioteca Pandas.
Ver também
[editar | editar código-fonte]- Python
- Biblioteca (computação)
- Análise de dados
- Estatística computacional
- Ciência de dados
- Aprendizado de máquina
- NumPy
- SciPy
- R (linguagem de programação)
- Scikit-learn
- Inteligência artificial
Referências
- ↑ «Pandas 2.2.2». 10 abril 2024
- ↑ «License – Package overview – pandas 1.0.0 documentation». pandas. 28 de Janeiro de 2020. Consultado em 30 de Janeiro de 2020
- ↑ Wes McKinney (2011). «pandas: a Foundational Python Library for Data Analysis and Statistics» (PDF). Consultado em 2 Agosto de 2018
- ↑ «pandas.date_range – pandas 1.0.0 documentation». pandas. 29 de Janeiro de 2020. Consultado em 30 de Janeiro de 2020
- ↑ «Python Data Analysis Library – pandas: Python Data Analysis Library». pandas
- ↑ Matt Harrison, Theodore Petrou (2020). Pandas CookBook. [S.l.]: Packt. ISBN 978-1839213106
Ligações externas
[editar | editar código-fonte]- «Página oficial» (em inglês)