Skip to content

The Internals of Spark SQL

Row

Initializing search

spark-sql-internals

Spark SQL
Features
Query Execution
Internals
SQL
Connectors
High-Level APIs
Web UI
Demo
Misc

The Internals of Spark SQL

spark-sql-internals

Spark SQL
Features
Features
- Aggregate Queries
  Aggregate Queries
- Adaptive Query Execution
  Adaptive Query Execution
- Bloom Filter Join
  Bloom Filter Join
  - BloomFilter
  - BloomFilterImpl
- Bucketing
  Bucketing
  - BucketSpec
- Cache Serialization
  Cache Serialization
- Catalog Plugin API
  Catalog Plugin API
- Columnar Execution
  Columnar Execution
- Common Table Expressions
  Common Table Expressions
- Configuration Properties
- Connector Expressions
  Connector Expressions
  - Aggregation Expression
  - SortOrder Expression
- Cost-Based Optimization
  Cost-Based Optimization
- Default Columns
  Default Columns
- Direct Queries on Files
  Direct Queries on Files
- Dynamic Partition Pruning
  Dynamic Partition Pruning
- File-Based Data Scanning
  File-Based Data Scanning
- Generated Columns
  Generated Columns
  - GeneratedColumn
- Hidden File Metadata
  Hidden File Metadata
  - MetadataAttribute
- Hints (SQL)
  Hints (SQL)
- Join Queries
  Join Queries
  - Join Queries
  - Broadcast Joins
- Logging
- Metadata Columns
  Metadata Columns
- Named Function Arguments
- Parameterized Queries
  Parameterized Queries
- Partition File Metadata Caching
  Partition File Metadata Caching
- Runtime Filtering
  Runtime Filtering
- Spark Connect
  Spark Connect
- Spark Thrift Server
  Spark Thrift Server
  - SparkSQLEnv
- Statistics
- Storage-Partitioned Joins
  Storage-Partitioned Joins
- Subexpression Elimination
  Subexpression Elimination
  - EquivalentExpressions
- Subqueries
  Subqueries
- Table-Valued Functions
  Table-Valued Functions
- Time Travel
  Time Travel
  - TimeTravelSpec
- Transactional Writes
  Transactional Writes
  - SQLHadoopMapReduceCommitProtocol
- User-Defined Functions
  User-Defined Functions
  - UDFRegistration
  - UserDefinedPythonFunction
- Vectorized Decoding
  Vectorized Decoding
- ANSI Intervals
- Catalog Plugin API and Multi-Catalog Support
- Explaining Query Plans Improved
- Observable Metrics
- Hive Integration
- Dynamic Partition Inserts
- Vectorized Query Execution
  Vectorized Query Execution
  - ColumnarBatch
- Whole-Stage Code Generation
  Whole-Stage Code Generation
- Catalyst DSL
  Catalyst DSL
  - DslLogicalPlan
- Variable Substitution
Query Execution
Query Execution
Internals
Internals
- Spark SQL
- DataSource
  Pluggable Data Provider Framework
- Developer API
- ExecutionListenerBus
- ExecutionListenerManager
- SharedState
  State Shared Across SparkSessions
- SQLConf
- SQLConfHelper
- StaticSQLConf
  Static Configuration Properties
- SparkSession Registries
  SparkSession Registries
  - Catalog
    Catalog
    
    Catalog — Metastore Management Interface
    
    CatalogImpl
    
    CatalogStatistics
    
    CatalogUtils
  - ExperimentalMethods
  - ExternalCatalog
    ExternalCatalog
    
    ExternalCatalog
    
    InMemoryCatalog
    
    ExternalCatalogWithListener
  - FunctionRegistry
    FunctionRegistry
    
    FunctionRegistry
    
    FunctionRegistryBase
    
    SimpleFunctionRegistry
    
    SimpleFunctionRegistryBase
    
    SimpleTableFunctionRegistry
    
    TableFunctionRegistry
  - GlobalTempViewManager
  - SessionCatalog
    SessionCatalog
    
    SessionCatalog
    
    CatalogStorageFormat
    
    CatalogTable
    
    CatalogTablePartition
  - V2SessionCatalog
  - SessionState
    SessionState
    
    SessionState
    
    BaseSessionStateBuilder
    
    SessionStateBuilder
  - CacheManager
    CacheManager
    
    CacheManager
  - RuntimeConfig
- Encoder
  Encoder
- SQLExecution
- SQLMetric
- Tungsten Execution Backend
  Tungsten Execution Backend
- RDDs
  RDDs
SQL
SQL
Connectors
Connectors
High-Level APIs
High-Level APIs
Web UI
Web UI
Demo
Demo
Misc
Misc
- AggregatingAccumulator
- DistinctKeyVisitor
- FilterEvaluatorFactory
- JoinSelectionHelper
- PushDownUtils
- UnsafeExternalRowSorter
- BindReferences
- IntervalUtils
- ExplainUtils
- SerializerBuildHelper
- Datasets, DataFrames and RDDs
- Dataset API and SQL
- DDLUtils
- implicits Object -- Implicits Conversions
- Row
- Data Source API
  Data Source API
  - CreateTableWriter
  - WriteConfigMethods
- Column Operators
- Caching and Persistence
  Caching and Persistence
  - Caching and Persistence
  - User-Friendly Names of Cached Queries in web UI
- Checkpointing
- Performance Tuning and Debugging
  Performance Tuning and Debugging
- CheckAnalysis — Analysis Validation
- CatalystTypeConverters Helper Object
- SubExprUtils Utility
- PredicateHelper
- ExtractEquiJoinKeys Scala Extractor
- ExtractSingleColumnNullAwareAntiJoin Scala Extractor
- ExtractJoinWithBuckets Scala Extractor
- PhysicalOperation
- KnownSizeEstimation

Spark SQL
Misc

Row¶

Row is a generic object that represents a table row (record).

Row is referred to as Catalyst Row.

Copyright © 2023-2024 Jacek Laskowski

Made with Material for MkDocs Insiders