Серія та DataFrame у Python

Кілька місяців тому я пройшов онлайн-курс "Використання Python для досліджень", запропонований Гарвардським університетом на edX. Проводячи курс, я вивчив багато концепцій Python, NumPy, Matplotlib та PyPlot. Я також мав можливість працювати над тематичними дослідженнями під час цього курсу і зміг використати свої знання щодо фактичних наборів даних. Для отримання додаткової інформації про цю програму ознайомтесь тут.

На цьому курсі я вивчив дві важливі концепції - Series та DataFrame. Я хочу представити їх вам за допомогою короткого підручника.

Для початку підручник, давайте отримаємо найновіший вихідний код Python з офіційного веб-сайту тут.

Після встановлення Python встановлено, ви будете використовувати графічний інтерфейс користувача під назвою IDLE для роботи з Python.

Давайте імпортуємо Pandas до нашої робочої області. Pandas - це бібліотека Python, яка надає структури даних та засоби аналізу даних для різних функцій.

Серія

Серія - це одновимірний об’єкт, який може містити будь-який тип даних, такий як цілі числа, плаваючі та рядки. Візьмемо список елементів як вхідний аргумент і створимо об’єкт Series для цього списку.

>>> import pandas as pd
>>> x = pd.Series([6,3,4,6])
>>> x
0 6
1 3
2 4
3 6
dtype: int64

Мітки осей для даних, що називаються індексом. Довжина індексу повинна збігатися з довжиною даних. Оскільки ми не передали жодного індексу у наведеному вище коді, індекс за замовчуванням буде створений зі значеннями[0, 1, … len(data) -1]

Давайте визначимо індекси даних.

>>> x = pd.Series([6,3,4,6], index=[‘a’, ‘b’, ‘c’, ‘d’])
>>> x
a 6
b 3
c 4
d 6
dtype: int64

Індекс у самій лівій колонці тепер відноситься до даних у правій колонці.

Ми можемо шукати дані, посилаючись на їх індекс:

>>> x[“c”]
4

Python дає нам відповідні дані для індексу.

Одним із прикладів типу даних є визначений нижче словник. Індекс та значення співвідносяться з ключами та значеннями. Ми можемо використовувати індекс, щоб отримати значення даних, що відповідають міткам в індексі.

>>> data = {‘abc’: 1, ‘def’: 2, ‘xyz’: 3}
>>> pd.Series(data)
abc 1
def 2
xyz 3
dtype: int64

Ще однією цікавою особливістю серії є надання даних як скалярного значення. У цьому випадку значення даних повторюється для кожного з визначених індексів.

>>> x = pd.Series(3, index=[‘a’, ‘b’, ‘c’, ‘d’])
>>> x
a 3
b 3
c 3
d 3
dtype: int64

DataFrame

DataFrame - це двовимірний об’єкт, який може мати стовпці з потенційно різними типами. Різні типи вхідних даних включають словники, списки, серії та навіть інший DataFrame.

Це найбільш часто використовуваний об’єкт панд.

Давайте створимо DataFrame, передавши масив NumPy з датою і часом як індекси та позначені стовпці:

>>> import numpy as np
>>> dates = pd.date_range(‘20170505’, periods = 8)
>>> dates
DatetimeIndex([‘2017–05–05’, ‘2017–05–06’, ‘2017–05–07’, ‘2017–05–08’,
‘2017–05–09’, ‘2017–05–10’, ‘2017–05–11’, ‘2017–05–12’],
dtype=’datetime64[ns]’, freq=’D’)
>>> df = pd.DataFrame(np.random.randn(8,3), index=dates, columns=list(‘ABC’))
>>> df
A B C
2017–05–05 -0.301877 1.508536 -2.065571
2017–05–06 0.613538 -0.052423 -1.206090
2017–05–07 0.772951 0.835798 0.345913
2017–05–08 1.339559 0.900384 -1.037658
2017–05–09 -0.695919 1.372793 0.539752
2017–05–10 0.275916 -0.420183 1.744796
2017–05–11 -0.206065 0.910706 -0.028646
2017–05–12 1.178219 0.783122 0.829979

DataFrame із діапазоном часу 8 днів створюється, як показано вище. Ми можемо переглянути верхній та нижній рядки кадру, використовуючи df.headта df.tail:

>>> df.head()
A B C
2017–05–05 -0.301877 1.508536 -2.065571
2017–05–06 0.613538 -0.052423 -1.206090
2017–05–07 0.772951 0.835798 0.345913
2017–05–08 1.339559 0.900384 -1.037658
2017–05–09 -0.695919 1.372793 0.539752
>>> df.tail()
A B C
2017–05–08 1.339559 0.900384 -1.037658
2017–05–09 -0.695919 1.372793 0.539752
2017–05–10 0.275916 -0.420183 1.744796
2017–05–11 -0.206065 0.910706 -0.028646
2017–05–12 1.178219 0.783122 0.829979

Ми також можемо спостерігати короткий статистичний підсумок наших даних:

>>> df.describe()
A B C
count 8.000000 8.000000 8.000000
mean 0.372040 0.729842 -0.109691
std 0.731262 0.657931 1.244801
min -0.695919 -0.420183 -2.065571
25% -0.230018 0.574236 -1.079766
50% 0.444727 0.868091 0.158633
75% 0.874268 1.026228 0.612309
max 1.339559 1.508536 1.744796

Ми також можемо застосовувати до даних такі функції, як сукупна сума, перегляд гістограм, об'єднання DataFrames, об'єднання та зміна DataFrames.

>>> df.apply(np.cumsum)
A B C
2017–05–05 -0.301877 1.508536 -2.065571
2017–05–06 0.311661 1.456113 -3.271661
2017–05–07 1.084612 2.291911 -2.925748
2017–05–08 2.424171 3.192296 -3.963406
2017–05–09 1.728252 4.565088 -3.423654
2017–05–10 2.004169 4.144905 -1.678858
2017–05–11 1.798104 5.055611 -1.707504
2017–05–12 2.976322 5.838734 -0.877526

Детальніше про ці структури даних ви можете прочитати тут.