跳至内容

其他 DataFrame 库

ydata-profiling 构建于 pandasnumpy 之上。Pandas 支持广泛的数据格式,包括 CSV、XLSX、SQL、JSON、HDF5、SAS、BigQuery 和 Stata。更多信息请阅读 Pandas 支持的格式

如果你的数据在 Python 数据生态系统的其他框架中,由于尚不直接支持集成,你可以通过转换为 pandas DataFrame 来使用 ydata-profiling。大型数据集可能需要采样(如我们在关于如何分析大型数据集的文档中所述)。

Dask 转 Pandas
# Convert dask DataFrame to a pandas DataFrame
df = df.compute()
Vaex 转 Pandas
# Convert vaex DataFrame to a pandas DataFrame
df = df.to_pandas_df()

Modin 接口

这不属于 API 的一部分,因为 pandas.DataFrame 自然没有这样的方法。你可以使用私有方法 DataFrame._to_pandas() 来进行这种转换。如果你想通过官方 API 来实现,你可以始终将 Modin DataFrame 保存到存储(csv, hdf, sql 等),然后再使用 Pandas 读回。这在处理大数据框时可能是更安全的方式,以避免内存不足的问题。" 来源:https://github.com/modin-project/modin/issues/896

Modin 转 Pandas
# Convert modin DataFrame to pandas DataFrame
df = df._to_pandas()