Pandas – это библиотека для работы с данными на языке программирования Python. Она предоставляет удобные средства для анализа и обработки структурированных данных. В Pandas присутствует функциональность для работы с таблицами данных, называемыми DataFrame.
В этой статье мы рассмотрим, как изменить подмножество строк в DataFrame на Pandas. Мы рассмотрим лучшие практики и примеры программирования.
Создание DataFrame на Pandas
Для начала работы с DataFrame нужно импортировать библиотеку Pandas и создать DataFrame. Давайте создадим пример DataFrame:
import pandas as pd
df = pd.DataFrame({
'Name': ['John', 'Jane', 'Smith', 'Anna'],
'Age': [26, 30, 23, 45],
'Gender': ['Male', 'Female', 'Male', 'Female']
})
DataFrame представляет собой таблицу данных, состоящую из строк и столбцов. В нашем примере DataFrame имеет 3 столбца: Name, Age и Gender, и 4 строки.
Выбор строк по условию
Чтобы выбрать подмножество строк из DataFrame, можно использовать условия. Давайте выберем строки, у которых значение возраста больше 30:
selected_rows = df[df.Age > 30]
В переменной selected_rows будут храниться только те строки, где значение возраста больше 30.
Также можно выбрать строки по нескольким условиям. Например, выбрать строки с возрастом больше 30 и полом “Male”:
selected_rows = df[(df.Age > 30) & (df.Gender == 'Male')]
В переменной selected_rows будут храниться только те строки, где значение возраста больше 30 и значение пола равно “Male”.
Изменение выбранных строк
После выбора нужных строк можно изменить их значения. Для этого нужно выбрать столбец и присвоить ему новое значение. Например, давайте изменить возраст для выбранных строк на 40:
df.loc[df.Age > 30, 'Age'] = 40
Теперь возраст для выбранных строк будет равен 40.
Аналогично можно изменить значения для нескольких столбцов:
df.loc[df.Age > 30, ['Age', 'Gender']] = [40, 'Male']
Теперь возраст для выбранных строк равен 40, а пол – “Male”.
Удаление выбранных строк
Чтобы удалить выбранные строки из DataFrame, можно использовать метод drop(). Например, давайте удалим выбранные строки, у которых значение возраста меньше 25:
df = df.drop(df[df.Age < 25].index)
В результате удаления останутся только те строки, у которых значение возраста больше или равно 25.
Заключение
В этой статье мы рассмотрели, как изменить подмножество строк в DataFrame на Pandas. Мы рассмотрели лучшие практики и примеры программирования. Теперь вы можете выбирать нужные строки, изменять их значения и удалять не нужные строки. Pandas предоставляет множество возможностей для работы с данными, и вы можете использовать их для своих задач.