import pandas as pd
d = {'colors':['Blue','Orange','Green','Red'], 'ballots':[78455, 192494, 506892, 287591]}
df = pd.DataFrame(data=d)
df.to_csv(r'/Users/sal/Lectures/mqq/Data/Colors.csv', index=False) # save as .csv file
df
import pandas as pd
df2 = pd.read_csv('/Users/sal/Lectures/mqq/Data/USArrests.csv')
df2
Naturalmente, é possível ler ficheiros diferentes, e voltar a escrever ficheiros .csv a partir de um dataframe ...
É possível visualizar os dados usando gráficos de barras
barras = df.plot(x = 'colors', y ='ballots', kind = 'bar')
... gráficos circulares
df_circ = df.set_index('colors') # definimos que o index é a coluna cidades
circular = df_circ.plot.pie(y='ballots', figsize=(7,7))
... istogramas,
df2_MAR = df2.drop(columns='UrbanPop') # tiramos a coluna UrbanPop dos dados, e ficamos com 'Murder', 'Assault' e 'Rape'
histogama = df2_MAR.plot.hist(bins=120, alpha=0.5, density=1)
diagramas de caixa e bigodes, que mostram máximo e mínimo, mediana, 1º e 3º quartils (ou seja, 25% e 75%), e outliers
caixa_bigodes = df2.plot.box()
ou gráficos de dispersão, úteis para ver correlações entre colunas
dispersão = df2.plot.scatter(x = 'Assault', y = 'Murder', s = 30)
A = df2.iat[1,0] # linha 1 coluna 0
A
H = df2.iloc[:,2] # todas as linhas da coluna 2
H
import matplotlib.pyplot as plt
X = df2.iloc[:,1].values # o array formado pela 2ª coluna de df2
Y = df2.iloc[:,2].to_numpy() # o array formado pela 3ª coluna de df2
ax3 = plt.scatter(X,Y)
Alguns parâmetros dos dados, como média, qualtis, desvio padrão, vari^ncia, ..., podem ser calculaos usando diferentes "métodos"
media = df2.mean()
media
mediana = df2.median()
mediana
df2.quantile(0.5)
variança = df2.var()
variança
desvio = df2.std()
desvio