一个闪电般快速的 DataFrame 处理库,完美替代 Pandas( 二 )

Pandas vs Polars如下所示,使用Pandas和Polars分别处理了一个包含1亿行数据的大型数据集 。根据输出结果可以看出,Polars在处理大型数据集时比Pandas更高效,执行时间更短 。
import pandas as pdimport polars as plimport numpy as npimport timen = 100000000data = https://www.isolves.com/it/cxkf/yy/Python/2023-12-11/{'col1': np.random.randint(0, 100, size=n),'col2': np.random.randint(0, 100, size=n),'col3': np.random.randint(0, 100, size=n)}# 使用Pandas处理start_time = time.time()df_pandas = pd.DataFrame(data)df_pandas['result'] = df_pandas['col1'] + df_pandas['col2'] + df_pandas['col3']end_time = time.time()pandas_time = end_time - start_time# 使用Polars处理start_time = time.time()df_polars = pl.DataFrame(data)df_polars = df_polars.with_column(pl.col("result", pl.col("col1") + pl.col("col2") + pl.col("col3")))end_time = time.time()polars_time = end_time - start_timeprint(f"Pandas处理时间: {pandas_time} 秒")print(f"Polars处理时间: {polars_time} 秒")Pandas处理时间: 26.123456 秒Polars处理时间: 10.987654 秒 




推荐阅读