⚡ Pyspark

"Spark 支持

Spark 数据框支持 - 从 ydata-profiling 4.0.0 版本起支持 Spark Dataframes 概要分析

数据概要分析是开发人工智能解决方案过程中的核心步骤。对于小型数据集，数据可以加载到内存中，并使用 Python 和 pandas 数据框轻松访问。然而，对于大型数据集，该怎么办呢？

分布式工作负载到不同机器的大数据引擎是解决方案。特别是 Spark 已成为数据社区中最常用和采纳的引擎之一。ydata-profiling 提供了一个易于使用的接口，只需一行代码即可从您的 Spark 数据框生成完整而全面的数据概要分析报告。

入门指南

在 Linux 和 Windows 上安装 Pyspark

提示

确保您首先安装了系统要求（spark 和 java）。

前往下载 Java JDK 并下载 Java Development Kit (JDK)。
下载并安装高于 3.3 版本的 Spark
设置您的环境变量

export SPARK_VERSION=3.3.0
export SPARK_DIRECTORY=/opt/spark
export HADOOP_VERSION=2.7
mkdir -p ${SPARK_DIRECTORY}
sudo apt-get update
sudo apt-get -y install openjdk-8-jdk
curl https://archive.apache.org/dist/spark/spark-${SPARK_VERSION}/spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION}.tgz \
--output ${SPARK_DIRECTORY}/spark.tgz
cd ${SPARK_DIRECTORY} && tar -xvzf spark.tgz && mv spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION} sparkenv

更详细的安装教程可以在此处找到。

在 MacOS 上安装 Pyspark

使用 Homebrew 确保系统要求已安装（java 和 scala（可选））

console brew
install <openjdk@11>

#Install scala is optional
brew install scala

安装 pyspark

brew install apache-spark

Apache Spark 成功安装后，从命令行运行 pyspark 以启动 PySpark shell 并确认 python 和 pyspark 版本。更详细的安装教程可以在此处找到

安装 ydata-profiling

创建 pip 虚拟环境或 conda 环境，并安装将 pyspark 作为依赖项的 ydata-profiling

pip install ydata-profiling[pyspark]

使用 Spark 进行概要分析 - 支持的特性

极简模式

此模式在 v4.0.0 版本中引入

ydata-profiling 现在支持 Spark Dataframes 概要分析。您可以在此处找到集成示例。

支持的特性

单变量分析
数据集头部和尾部样本
相关矩阵：Pearson 和 Spearman

即将推出

缺失值分析
交互
改进的直方图计算

使用 Spark DataFrames 进行概要分析

一个使用 Pyspark 引擎和 ydata-profiling 从 CSV 文件进行数据概要分析的快速开始示例。

使用 Spark Dataframes 进行概要分析
from pyspark.sql import SparkSession
spark = SparkSession.builder().master("local[1]")
      .appName("SparkByExamples.com")
      .getOrCreate()

df = spark.read.csv("{insert-file-path}")

df.printSchema()

a = ProfileReport(df)
a.to_file("spark_profile.html")

在 Databricks 中使用 ydata-profiling

是的！我们将推出一个完整的教程，介绍如何在 Databricks Notebooks 中使用 ydata-profiling。

笔记本示例可以在此处找到。

敬请关注 - 我们即将更新文档！