Scraper Обновлено: 17 July, 2019

Основы фрейма данных Python Pandas.

  Перевод   Ссылка на автора

Давайте разберемся с основами Pandas DataFrame с нуля.

Кредиты: codebasics

Прежде чем начать, позвольте мне представить вам о Панды Pandas - это библиотека python, предоставляющая высокопроизводительные и простые в использовании структуры данных, такие как серия, Data Frame и Panel для инструментов анализа данных для языка программирования Python. Кроме того, Pandas Data Frame состоит из основных компонентов, данных, строк и столбцов. Чтобы использовать библиотеку pandas и ее структуры данных, все, что вам нужно сделать, это установить и импортировать ее. См. Документацию библиотеки Pandas для лучшего понимания и руководства по установке. Здесь весь код можно найти на моем GitHub стр.

Основные операции, которые можно применить к фрейму данных pandas, показаны ниже:

  1. Создание фрейма данных.
  2. Выполнение операций над рядами и столбцами.
  3. Выбор данных, добавление, удаление.
  4. Работа с отсутствующими данными.
  5. Переименование столбцов или индексов в DataFrame.

1. Создание фрейма данных.

Фрейм данных Pandas может быть создан путем загрузки данных из внешнего существующего хранилища, такого как база данных, файлы SQL или CSV. Но Фрейм данных pandas также можно создать из списков, словаря и т. Д. Один из способов создания фрейма данных pandas показан ниже:

# import the pandas library
import pandas as pd
# Dictionary of key pair values called data
data = {'Name':['Ashika', 'Tanu', 'Ashwin', 'Mohit', 'Sourabh'],
'Age': [24, 23, 22, 19, 10]}
data{'Age': [24, 23, 22, 19, 10], 'Name': ['Ashika', 'Tanu', 'Ashwin', 'Mohit', 'Sourabh']}# Calling the pandas data frame method by passing the dictionary (data) as a parameter
df = pd.DataFrame(data)
df

2. Выполнение операций над строками и столбцами.

Фрейм данных - это двумерная структура данных, данные хранятся в строках и столбцах. Ниже мы можем выполнить некоторые операции со строками и столбцами.

Выбор столбца:Чтобы выбрать конкретный столбец, все, что мы можем сделать, это просто вызвать имя столбца внутри фрейма данных.

# import the pandas library
import pandas as pd
# Dictionary of key pair values called data
data = {'Name':['Ashika', 'Tanu', 'Ashwin', 'Mohit', 'Sourabh'],
'Age': [24, 23, 22, 19, 10]}
data{'Age': [24, 23, 22, 19, 10], 'Name': ['Ashika', 'Tanu', 'Ashwin', 'Mohit', 'Sourabh']}# Calling the pandas data frame method by passing the dictionary (data) as a parameter
df = pd.DataFrame(data)
# Selecting column
df[['Name']]

Выбор строки:Pandas Data Frame предоставляет метод, называемый «loc», который используется для извлечения строк из фрейма данных. Кроме того, строки также могут быть выбраны с помощью «iloc» в качестве функции.

# Calling the pandas data frame method by passing the dictionary (data) as a parameter
df = pd.DataFrame(data)
# Selecting a row
row = df.loc[1]
rowName Tanu
Age 23
Name: 1, dtype: object

Чтобы выбрать конкретный столбец, все, что мы можем сделать, это просто вызвать имя столбца внутри фрейма данных. Как показано выше, для работы с методом «loc» вы должны передать индекс фрейма данных в качестве параметра. Метод loc принимает в качестве параметра только целые числа. Поэтому в приведенном выше примере я хотел получить доступ к строке «Tanu», поэтому я передал индекс как 1 в качестве параметра. Ребята, сейчас есть быстрое задание, используйте метод «iloc» и сообщите мне результат.


3. Выбор данных, добавление, удаление.

Вы можете обращаться с DataFrame семантически как словарь объектов с одинаковыми индексами Series. Получение, установка и удаление столбцов работает с тем же синтаксисом, что и аналогичные словарные операции:

# import the pandas library
import pandas as pd
# Dictionary of key pair values called data
data = {'Name':['Ashika', 'Tanu', 'Ashwin', 'Mohit', 'Sourabh'],
'Age': [24, 23, 22, 19, 10]}# Calling the pandas data frame method by passing the dictionary (data) as a parameter
df = pd.DataFrame(data)
# Selecting the data from the column
df['Age']0 24
1 23
2 22
3 19
4 10
Name: Age, dtype: int64

Столбцы могут быть удалены как со словарем, просто используйте операцию del.

del df[‘Age’]
df

Данные могут быть добавлены с помощью функции вставки. Функция вставки доступна для вставки в определенном месте в столбцах:

df.insert(1, ‘name’, df[‘Name’])
df

4. Работа с отсутствующими данными.

Отсутствие данных происходит много раз, когда мы обращаемся к большим наборам данных. Это происходит часто, как NaN (не число). Чтобы заполнить эти значения, мы можем использовать метод «isnull ()». Этот метод проверяет, присутствует ли нулевое значение во фрейме данных или нет.

Проверка на пропущенные значения.

# importing both pandas and numpy libraries
import pandas as pd
import numpy as np# Dictionary of key pair values called data
data ={‘First name’:[‘Tanu’, np.nan],
‘Age’: [23, np.nan]}df = pd.DataFrame(data)
df
# using the isnull() function
df.isnull()

Isnull () возвращает false, если значение null отсутствует, и true для значений null. Теперь мы нашли пропущенные значения, следующая задача - заполнить эти значения 0, это можно сделать, как показано ниже:

df.fillna(0)

5. Переименование столбцов или индексов в DataFrame.

Чтобы присвоить столбцам или индексным значениям вашего фрейма данных другое значение, лучше всего использовать метод .rename (). Я специально изменил имя столбца, чтобы лучше понять.

# import the pandas library
import pandas as pd
# Dictionary of key pair values called data
data = {‘NAMe’:[‘Ashika’, ‘Tanu’, ‘Ashwin’, ‘Mohit’, ‘Sourabh’],
‘AGe’: [24, 23, 22, 19, 10]}# Calling the pandas data frame method by passing the dictionary (data) as a parameter
df = pd.DataFrame(data)
df
newcols = {
‘NAMe’: ‘Name’,
‘AGe’: ‘Age’
}
# Use `rename()` to rename your columns
df.rename(columns=newcols, inplace=True)
df
# The values of new index
newindex = {
0: ‘a’,
1: ‘b’,
2: ‘c’,
3: ‘d’,
4: ‘e’
}
# Rename your index
df.rename(index=newindex)

Следовательно, выше приведены очень важные методы или методы фрейма данных панд в Python. Некоторые из примеров были переданы от GeeksforGeeks. Я написал это простым способом, чтобы каждый мог понять и освоить концепции фрейма данных в Python. Если у вас, ребята, есть какие-то сомнения в коде, раздел комментариев - ваш.

Спасибо.