⚡ Pyspark
"Spark 支持
Spark 数据框支持 - 从 ydata-profiling 4.0.0 版本起支持 Spark Dataframes 概要分析
数据概要分析是开发人工智能解决方案过程中的核心步骤。对于小型数据集,数据可以加载到内存中,并使用 Python 和 pandas 数据框轻松访问。然而,对于大型数据集,该怎么办呢?
分布式工作负载到不同机器的大数据引擎是解决方案。特别是 Spark 已成为数据社区中最常用和采纳的引擎之一。ydata-profiling
提供了一个易于使用的接口,只需一行代码即可从您的 Spark 数据框生成完整而全面的数据概要分析报告。
入门指南
在 Linux 和 Windows 上安装 Pyspark
提示
- 确保您首先安装了系统要求(spark 和 java)。
-
- 前往 下载 Java JDK 并下载 Java Development Kit (JDK)。
- 下载并安装 高于 3.3 版本的 Spark
- 设置您的环境变量
export SPARK_VERSION=3.3.0
export SPARK_DIRECTORY=/opt/spark
export HADOOP_VERSION=2.7
mkdir -p ${SPARK_DIRECTORY}
sudo apt-get update
sudo apt-get -y install openjdk-8-jdk
curl https://archive.apache.org/dist/spark/spark-${SPARK_VERSION}/spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION}.tgz \
--output ${SPARK_DIRECTORY}/spark.tgz
cd ${SPARK_DIRECTORY} && tar -xvzf spark.tgz && mv spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION} sparkenv
更详细的安装教程可以在此处找到。
在 MacOS 上安装 Pyspark
使用 Homebrew
确保系统要求已安装(java 和 scala(可选))
安装 pyspark
Apache Spark 成功安装后,从命令行运行 pyspark 以启动 PySpark shell 并确认 python 和 pyspark 版本。更详细的安装教程可以在此处找到
安装 ydata-profiling
创建 pip 虚拟环境或 conda 环境,并安装将 pyspark 作为依赖项的 ydata-profiling
使用 Spark 进行概要分析 - 支持的特性
极简模式
此模式在 v4.0.0 版本中引入
ydata-profiling
现在支持 Spark Dataframes 概要分析。您可以在此处找到集成示例。
- 支持的特性
-
- 单变量分析
- 数据集头部和尾部样本
- 相关矩阵:Pearson 和 Spearman
- 即将推出
-
- 缺失值分析
- 交互
- 改进的直方图计算
使用 Spark DataFrames 进行概要分析
一个使用 Pyspark 引擎和 ydata-profiling
从 CSV 文件进行数据概要分析的快速开始示例。
使用 Spark Dataframes 进行概要分析 | |
---|---|
在 Databricks 中使用 ydata-profiling
是的!我们将推出一个完整的教程,介绍如何在 Databricks Notebooks 中使用 ydata-profiling。
笔记本示例可以在此处找到。
敬请关注 - 我们即将更新文档!