Skip to content

The Internals of Spark SQL

Typed Transformations

Initializing search

spark-sql-internals

Spark SQL
Features
Query Execution
Internals
SQL
Connectors
High-Level APIs
Web UI
Demo
Misc

The Internals of Spark SQL

spark-sql-internals

Spark SQL
Features
Features
- Aggregate Queries
  Aggregate Queries
- Adaptive Query Execution
  Adaptive Query Execution
- Bloom Filter Join
  Bloom Filter Join
  - BloomFilter
  - BloomFilterImpl
- Bucketing
  Bucketing
  - BucketSpec
- Cache Serialization
  Cache Serialization
- Catalog Plugin API
  Catalog Plugin API
- Columnar Execution
  Columnar Execution
- Common Table Expressions
  Common Table Expressions
- Configuration Properties
- Connector Expressions
  Connector Expressions
  - Aggregation
  - SortOrder
- Cost-Based Optimization
  Cost-Based Optimization
- Default Columns
  Default Columns
- Direct Queries on Files
  Direct Queries on Files
- Dynamic Partition Pruning
  Dynamic Partition Pruning
- File-Based Data Scanning
  File-Based Data Scanning
- Generated Columns
  Generated Columns
  - GeneratedColumn
- Hidden File Metadata
  Hidden File Metadata
  - MetadataAttribute
- Hints (SQL)
  Hints (SQL)
- Join Queries
  Join Queries
  - Joins
  - Broadcast Joins
- Logging
- Metadata Columns
  Metadata Columns
- Named Function Arguments
- Parameterized Queries
  Parameterized Queries
- Partition File Metadata Caching
  Partition File Metadata Caching
- Spark Connect
  Spark Connect
- Runtime Filtering
  Runtime Filtering
- Spark Thrift Server
  Spark Thrift Server
  - SparkSQLEnv
- Statistics
- Subexpression Elimination
  Subexpression Elimination
  - EquivalentExpressions
- Subqueries
  Subqueries
- Table-Valued Functions
  Table-Valued Functions
- Time Travel
  Time Travel
  - TimeTravelSpec
- Transactional Writes
  Transactional Writes
  - SQLHadoopMapReduceCommitProtocol
- User-Defined Functions
  User-Defined Functions
  - UDFRegistration
  - UserDefinedPythonFunction
- Vectorized Decoding
  Vectorized Decoding
- ANSI Intervals
- Catalog Plugin API and Multi-Catalog Support
- Explaining Query Plans Improved
- Observable Metrics
- Hive Integration
- Dynamic Partition Inserts
- Vectorized Query Execution
  Vectorized Query Execution
  - ColumnarBatch
- Whole-Stage Code Generation
  Whole-Stage Code Generation
- Catalyst DSL
  Catalyst DSL
  - DslLogicalPlan
- Variable Substitution
Query Execution
Query Execution
Internals
Internals
- Overview
- DataSource
- Developer API
- ExecutionListenerBus
- ExecutionListenerManager
- SharedState
- SQLConf
- SQLConfHelper
- StaticSQLConf
- SparkSession Registries
  SparkSession Registries
  - Catalog
    Catalog
    
    Catalog
    
    CatalogImpl
    
    CatalogStatistics
    
    CatalogUtils
  - ExperimentalMethods
  - ExternalCatalog
    ExternalCatalog
    
    ExternalCatalog
    
    InMemoryCatalog
    
    ExternalCatalogWithListener
  - FunctionRegistry
    FunctionRegistry
    
    FunctionRegistry
    
    FunctionRegistryBase
    
    SimpleFunctionRegistry
    
    SimpleFunctionRegistryBase
    
    SimpleTableFunctionRegistry
    
    TableFunctionRegistry
  - GlobalTempViewManager
  - SessionCatalog
    SessionCatalog
    
    SessionCatalog
    
    CatalogStorageFormat
    
    CatalogTable
    
    CatalogTablePartition
  - V2SessionCatalog
  - SessionState
    SessionState
    
    SessionState
    
    BaseSessionStateBuilder
    
    SessionStateBuilder
  - CacheManager
    CacheManager
    
    CacheManager
  - RuntimeConfig
- Encoder
  Encoder
- SQLExecution
- SQLMetric
- Tungsten Execution Backend
  Tungsten Execution Backend
- RDDs
  RDDs
SQL
SQL
Connectors
Connectors
High-Level APIs
High-Level APIs
- Column
- ColumnarRule
- Connector API
  Connector API
- Data Types
  Data Types
- Dataset
- DataFrame
- DataFrameReader
- DataFrameWriter
- DataFrameWriterV2
- DataSource V1 API
  DataSource V1 API
- Encoders
- KeyValueGroupedDataset
- Observation
- QueryExecutionListener
- RelationalGroupedDataset
- SparkSession
- SparkSession.Builder
- SparkSessionExtensions
- Standard Functions
  org.apache.spark.sql.functions
  Standard Functions
- TypedColumn
- Window Functions
  Window Functions
Web UI
Web UI
Demo
Demo
Misc
Misc
- AggregatingAccumulator
- DistinctKeyVisitor
- FilterEvaluatorFactory
- JoinSelectionHelper
- PushDownUtils
- UnsafeExternalRowSorter
- BindReferences
- IntervalUtils
- ExplainUtils
- SerializerBuildHelper
- Dataset, DataFrame and RDD
- Dataset and SQL
- DDLUtils
- Implicits
- Row
- Data Source API
  Data Source API
  - CreateTableWriter
  - WriteConfigMethods
- Dataset API
  Dataset API
- Column Operators
- Caching and Persistence
  Caching and Persistence
  - Caching and Persistence
  - User-Friendly Names of Cached Queries in web UI
- Checkpointing
- Performance Tuning and Debugging
  Performance Tuning and Debugging
- CheckAnalysis
- CatalystTypeConverters
- SubExprUtils
- PredicateHelper
- ExtractEquiJoinKeys
- ExtractSingleColumnNullAwareAntiJoin
- ExtractJoinWithBuckets
- PhysicalOperation
- KnownSizeEstimation

Spark SQL
Misc
Dataset API

Dataset API — Typed Transformations¶

Typed transformations are part of the Dataset API for transforming a Dataset with an Encoder (that is different than RowEncoder).

Copyright © 2023-2024 Jacek Laskowski

Made with Material for MkDocs Insiders