pandas (software)

pandas
Autor	Wes McKinney
Desenvolvedor	projeto comunitário
Plataforma	Multiplataforma
Lançamento	11 de janeiro de 2008 (16 anos)
Versão estável	2.2.2 (10 abril 2024)
Sistema operacional	Multiplataforma
Licença	BSD
Estado do desenvolvimento	corrente
Página oficial	pandas.pydata.org

Em programação de computadores, pandas é uma biblioteca de software criada para a linguagem Python para manipulação e análise de dados. Em particular, oferece estruturas e operações para manipular tabelas numéricas e séries temporais. É software livre sob a licensa licença BSD.^[2] O nome é derivado do termo inglês "panel data"(dados em painel), um termo usado em estatística e econometria para conjunto de dados que incluem várias unidades amostrais (indivíduos, empresas, etc) acompanhadas ao longo do tempo.^[3]

Características[editar | editar código-fonte]

Uso do objeto "DataFrame" para manipulação de dados, com indexação integrada.
Ferramentas para ler e escrever dados entre diferentes estruturas de dados e formatos de arquivo.
Alinhamento de dados e manipulação de dados ausentes.
Reformatação e pivoteamento de matrizes (dados).
Divisão (slicing), fancy indexing, e subsettingde grandes conjuntos de dados.
Inserir e deletar colunas em conjuntos de dados.
Ferramentas para fundir(merging) ou juntar(join) conjuntos de dados.
funcionalidade para séries temporais (time series): Geração de intervalo de datas(date range)^[4] e conversão de frequência, estatística móvel, regressão linear, entre outras.
Filtração e limpeza de dados.

Altamente otimizada para performance, a biblioteca pandas tem fortes bases nas linguagens Cython e C.^[5]

Dataframes[editar | editar código-fonte]

Pandas é principalmente usado para machine learning(aprendizado de máquina), pela facilidade que o objeto dataframes oferece. Pandas permite a importação de diferentes formatos de arquivo, como csv e excel, para a leitura em dataframes. Também permite diversas operações de álgebra relacional, como projeção, junção, e concatenação, e também funções de limpeza, como por exemplo o preenchimento, substituição ou inserção de valores nulos (null).

Indexando DataFrames[editar | editar código-fonte]

Existem várias maneiras de indexar um DataFrame do Pandas. Uma das maneiras mais fáceis de fazer isso é usando a notação de colchetes.^[6]

No exemplo abaixo, você pode usar colchetes para selecionar uma coluna do DataFrame de carros. Você pode usar um colchete único ou duplo. O suporte único produzirá uma série Pandas, enquanto um suporte duplo produzirá um DataFrame Pandas.

# Import pandas and cars.csv
import pandas as pd
cars = pd.read_csv('cars.csv', index_col = 0)

# Print out country column as Pandas Series
print(cars['cars_per_cap'])

# Print out country column as Pandas DataFrame
print(cars[['cars_per_cap']])

# Print out DataFrame with country and drives_right columns
print(cars[['cars_per_cap', 'country']])

Funções[editar | editar código-fonte]

Fusão de DataFrames[editar | editar código-fonte]

Para realizar a mesclagem de objetos (estruturas de dados - Dataframes) utilizados ao programar em Python, utilizando a biblioteca para análise de dados Pandas, é necessário que suas estrutura de dados possuam pelo menos uma coluna em comum com dados equivalentes ou iguais. A função pd.merge() do Pandas, se baseia em verificar se um determinado registro de uma coluna do Dataframe X é igual a do Dataframe Y e, caso sejam as demais colunas do registro se unem para formar uma nova estrutura com todas as informações identificadas naquela linha. Vale ressaltar que, essa mescla de informações é feita de maneira automatizada no objeto como um todo, sem a necessidade de iteração entre as linhas do Dataframe.

Exemplo de uso[editar | editar código-fonte]

# Importação da biblioteca
import pandas as pd

#Exemplo de Criação de dois DataFrames
df1 = pd.DataFrame({'Coluna': ['1', '2', '3', '4'],
                    'Valor1': ['A', 'C', 'E', 'G']})
df2 = pd.DataFrame({'Coluna': ['1', '2', '3', '4'],
                    'valor2': ['B', 'D', 'F', 'H']})
                    
# Aqui atribuímos ao DataFrame (df3) a mesclagem dos DataFrames df1 e df2
df3 = pd.merge(df1,df2,on='Coluna', how='left')

#Print do resultado da mescla da operação
df3

História[editar | editar código-fonte]

O desenvolvedor Wes McKinney começou a desenvolver a Pandas em 2008, enquanto trabalhava na empresa AQR Capital Management. A ideia veio quando ele percebeu a necessidade de uma ferramenta flexível e de alta performance para realizar análise quantitativa em dados financeiros. Antes de deixar a AQR, Wes conseguiu convencer a direção da empresa a permití-lo liberar a biblioteca como open-source.

Outro funcionário da AQR, o desenvolvedor Chang She, se tornou em 2012 o segundo maior contribuidor para a biblioteca Pandas.

Ver também[editar | editar código-fonte]

Referências

↑ «Pandas 2.2.2». 10 abril 2024
↑ «License – Package overview – pandas 1.0.0 documentation». pandas. 28 de Janeiro de 2020. Consultado em 30 de Janeiro de 2020
↑ Wes McKinney (2011). «pandas: a Foundational Python Library for Data Analysis and Statistics» (PDF). Consultado em 2 Agosto de 2018
↑ «pandas.date_range – pandas 1.0.0 documentation». pandas. 29 de Janeiro de 2020. Consultado em 30 de Janeiro de 2020
↑ «Python Data Analysis Library – pandas: Python Data Analysis Library». pandas
↑ Matt Harrison, Theodore Petrou (2020). Pandas CookBook. [S.l.]: Packt. ISBN 978-1839213106

Ligações externas[editar | editar código-fonte]

«Página oficial» (em inglês)

[wikidata-e9435820f12f3b95f4e05de8e15f73ba22ac82bc-v3-1] «Pandas 2.2.2». 10 abril 2024

[2] «License – Package overview – pandas 1.0.0 documentation». pandas. 28 de Janeiro de 2020. Consultado em 30 de Janeiro de 2020

[3] Wes McKinney (2011). «pandas: a Foundational Python Library for Data Analysis and Statistics» (PDF). Consultado em 2 Agosto de 2018

[4] «pandas.date_range – pandas 1.0.0 documentation». pandas. 29 de Janeiro de 2020. Consultado em 30 de Janeiro de 2020

[5] «Python Data Analysis Library – pandas: Python Data Analysis Library». pandas

[6] Matt Harrison, Theodore Petrou (2020). Pandas CookBook. [S.l.]: Packt. ISBN 978-1839213106

[1]

[2]

[3]

[4]

[5]

[6]