Edit on GitHub

sqlglot.dataframe.sql

View Source

 1from sqlglot.dataframe.sql.column import Column
 2from sqlglot.dataframe.sql.dataframe import DataFrame, DataFrameNaFunctions
 3from sqlglot.dataframe.sql.group import GroupedData
 4from sqlglot.dataframe.sql.readwriter import DataFrameReader, DataFrameWriter
 5from sqlglot.dataframe.sql.session import SparkSession
 6from sqlglot.dataframe.sql.window import Window, WindowSpec
 7
 8__all__ = [
 9    "SparkSession",
10    "DataFrame",
11    "GroupedData",
12    "Column",
13    "DataFrameNaFunctions",
14    "Window",
15    "WindowSpec",
16    "DataFrameReader",
17    "DataFrameWriter",
18]

class SparkSession: View Source

 23class SparkSession:
 24    DEFAULT_DIALECT = "spark"
 25    _instance = None
 26
 27    def __init__(self):
 28        if not hasattr(self, "known_ids"):
 29            self.known_ids = set()
 30            self.known_branch_ids = set()
 31            self.known_sequence_ids = set()
 32            self.name_to_sequence_id_mapping = defaultdict(list)
 33            self.incrementing_id = 1
 34            self.dialect = Dialect.get_or_raise(self.DEFAULT_DIALECT)
 35
 36    def __new__(cls, *args, **kwargs) -> SparkSession:
 37        if cls._instance is None:
 38            cls._instance = super().__new__(cls)
 39        return cls._instance
 40
 41    @property
 42    def read(self) -> DataFrameReader:
 43        return DataFrameReader(self)
 44
 45    def table(self, tableName: str) -> DataFrame:
 46        return self.read.table(tableName)
 47
 48    def createDataFrame(
 49        self,
 50        data: t.Sequence[t.Union[t.Dict[str, ColumnLiterals], t.List[ColumnLiterals], t.Tuple]],
 51        schema: t.Optional[SchemaInput] = None,
 52        samplingRatio: t.Optional[float] = None,
 53        verifySchema: bool = False,
 54    ) -> DataFrame:
 55        from sqlglot.dataframe.sql.dataframe import DataFrame
 56
 57        if samplingRatio is not None or verifySchema:
 58            raise NotImplementedError("Sampling Ratio and Verify Schema are not supported")
 59        if schema is not None and (
 60            not isinstance(schema, (StructType, str, list))
 61            or (isinstance(schema, list) and not isinstance(schema[0], str))
 62        ):
 63            raise NotImplementedError("Only schema of either list or string of list supported")
 64        if not data:
 65            raise ValueError("Must provide data to create into a DataFrame")
 66
 67        column_mapping: t.Dict[str, t.Optional[str]]
 68        if schema is not None:
 69            column_mapping = get_column_mapping_from_schema_input(schema)
 70        elif isinstance(data[0], dict):
 71            column_mapping = {col_name.strip(): None for col_name in data[0]}
 72        else:
 73            column_mapping = {f"_{i}": None for i in range(1, len(data[0]) + 1)}
 74
 75        data_expressions = [
 76            exp.tuple_(
 77                *map(
 78                    lambda x: F.lit(x).expression,
 79                    row if not isinstance(row, dict) else row.values(),
 80                )
 81            )
 82            for row in data
 83        ]
 84
 85        sel_columns = [
 86            (
 87                F.col(name).cast(data_type).alias(name).expression
 88                if data_type is not None
 89                else F.col(name).expression
 90            )
 91            for name, data_type in column_mapping.items()
 92        ]
 93
 94        select_kwargs = {
 95            "expressions": sel_columns,
 96            "from": exp.From(
 97                this=exp.Values(
 98                    expressions=data_expressions,
 99                    alias=exp.TableAlias(
100                        this=exp.to_identifier(self._auto_incrementing_name),
101                        columns=[exp.to_identifier(col_name) for col_name in column_mapping],
102                    ),
103                ),
104            ),
105        }
106
107        sel_expression = exp.Select(**select_kwargs)
108        return DataFrame(self, sel_expression)
109
110    def _optimize(
111        self, expression: exp.Expression, dialect: t.Optional[Dialect] = None
112    ) -> exp.Expression:
113        dialect = dialect or self.dialect
114        quote_identifiers(expression, dialect=dialect)
115        return optimize(expression, dialect=dialect)
116
117    def sql(self, sqlQuery: str) -> DataFrame:
118        expression = self._optimize(sqlglot.parse_one(sqlQuery, read=self.dialect))
119        if isinstance(expression, exp.Select):
120            df = DataFrame(self, expression)
121            df = df._convert_leaf_to_cte()
122        elif isinstance(expression, (exp.Create, exp.Insert)):
123            select_expression = expression.expression.copy()
124            if isinstance(expression, exp.Insert):
125                select_expression.set("with", expression.args.get("with"))
126                expression.set("with", None)
127            del expression.args["expression"]
128            df = DataFrame(self, select_expression, output_expression_container=expression)  # type: ignore
129            df = df._convert_leaf_to_cte()
130        else:
131            raise ValueError(
132                "Unknown expression type provided in the SQL. Please create an issue with the SQL."
133            )
134        return df
135
136    @property
137    def _auto_incrementing_name(self) -> str:
138        name = f"a{self.incrementing_id}"
139        self.incrementing_id += 1
140        return name
141
142    @property
143    def _random_branch_id(self) -> str:
144        id = self._random_id
145        self.known_branch_ids.add(id)
146        return id
147
148    @property
149    def _random_sequence_id(self):
150        id = self._random_id
151        self.known_sequence_ids.add(id)
152        return id
153
154    @property
155    def _random_id(self) -> str:
156        id = "r" + uuid.uuid4().hex
157        self.known_ids.add(id)
158        return id
159
160    @property
161    def _join_hint_names(self) -> t.Set[str]:
162        return {"BROADCAST", "MERGE", "SHUFFLE_HASH", "SHUFFLE_REPLICATE_NL"}
163
164    def _add_alias_to_mapping(self, name: str, sequence_id: str):
165        self.name_to_sequence_id_mapping[name].append(sequence_id)
166
167    class Builder:
168        SQLFRAME_DIALECT_KEY = "sqlframe.dialect"
169
170        def __init__(self):
171            self.dialect = "spark"
172
173        def __getattr__(self, item) -> SparkSession.Builder:
174            return self
175
176        def __call__(self, *args, **kwargs):
177            return self
178
179        def config(
180            self,
181            key: t.Optional[str] = None,
182            value: t.Optional[t.Any] = None,
183            *,
184            map: t.Optional[t.Dict[str, t.Any]] = None,
185            **kwargs: t.Any,
186        ) -> SparkSession.Builder:
187            if key == self.SQLFRAME_DIALECT_KEY:
188                self.dialect = value
189            elif map and self.SQLFRAME_DIALECT_KEY in map:
190                self.dialect = map[self.SQLFRAME_DIALECT_KEY]
191            return self
192
193        def getOrCreate(self) -> SparkSession:
194            spark = SparkSession()
195            spark.dialect = Dialect.get_or_raise(self.dialect)
196            return spark
197
198    @classproperty
199    def builder(cls) -> Builder:
200        return cls.Builder()

DEFAULT_DIALECT = 'spark'

read: DataFrameReader View Source

41    @property
42    def read(self) -> DataFrameReader:
43        return DataFrameReader(self)

def table(self, tableName: str) -> DataFrame: View Source

45    def table(self, tableName: str) -> DataFrame:
46        return self.read.table(tableName)

def createDataFrame( self, data: Sequence[Union[Dict[str, <MagicMock id='140666179102480'>], List[<MagicMock id='140666179102480'>], Tuple]], schema: Optional[<MagicMock id='140666180910912'>] = None, samplingRatio: Optional[float] = None, verifySchema: bool = False) -> DataFrame: View Source

 48    def createDataFrame(
 49        self,
 50        data: t.Sequence[t.Union[t.Dict[str, ColumnLiterals], t.List[ColumnLiterals], t.Tuple]],
 51        schema: t.Optional[SchemaInput] = None,
 52        samplingRatio: t.Optional[float] = None,
 53        verifySchema: bool = False,
 54    ) -> DataFrame:
 55        from sqlglot.dataframe.sql.dataframe import DataFrame
 56
 57        if samplingRatio is not None or verifySchema:
 58            raise NotImplementedError("Sampling Ratio and Verify Schema are not supported")
 59        if schema is not None and (
 60            not isinstance(schema, (StructType, str, list))
 61            or (isinstance(schema, list) and not isinstance(schema[0], str))
 62        ):
 63            raise NotImplementedError("Only schema of either list or string of list supported")
 64        if not data:
 65            raise ValueError("Must provide data to create into a DataFrame")
 66
 67        column_mapping: t.Dict[str, t.Optional[str]]
 68        if schema is not None:
 69            column_mapping = get_column_mapping_from_schema_input(schema)
 70        elif isinstance(data[0], dict):
 71            column_mapping = {col_name.strip(): None for col_name in data[0]}
 72        else:
 73            column_mapping = {f"_{i}": None for i in range(1, len(data[0]) + 1)}
 74
 75        data_expressions = [
 76            exp.tuple_(
 77                *map(
 78                    lambda x: F.lit(x).expression,
 79                    row if not isinstance(row, dict) else row.values(),
 80                )
 81            )
 82            for row in data
 83        ]
 84
 85        sel_columns = [
 86            (
 87                F.col(name).cast(data_type).alias(name).expression
 88                if data_type is not None
 89                else F.col(name).expression
 90            )
 91            for name, data_type in column_mapping.items()
 92        ]
 93
 94        select_kwargs = {
 95            "expressions": sel_columns,
 96            "from": exp.From(
 97                this=exp.Values(
 98                    expressions=data_expressions,
 99                    alias=exp.TableAlias(
100                        this=exp.to_identifier(self._auto_incrementing_name),
101                        columns=[exp.to_identifier(col_name) for col_name in column_mapping],
102                    ),
103                ),
104            ),
105        }
106
107        sel_expression = exp.Select(**select_kwargs)
108        return DataFrame(self, sel_expression)

def sql(self, sqlQuery: str) -> DataFrame: View Source

117    def sql(self, sqlQuery: str) -> DataFrame:
118        expression = self._optimize(sqlglot.parse_one(sqlQuery, read=self.dialect))
119        if isinstance(expression, exp.Select):
120            df = DataFrame(self, expression)
121            df = df._convert_leaf_to_cte()
122        elif isinstance(expression, (exp.Create, exp.Insert)):
123            select_expression = expression.expression.copy()
124            if isinstance(expression, exp.Insert):
125                select_expression.set("with", expression.args.get("with"))
126                expression.set("with", None)
127            del expression.args["expression"]
128            df = DataFrame(self, select_expression, output_expression_container=expression)  # type: ignore
129            df = df._convert_leaf_to_cte()
130        else:
131            raise ValueError(
132                "Unknown expression type provided in the SQL. Please create an issue with the SQL."
133            )
134        return df

builder: SparkSession.Builder View Source

198    @classproperty
199    def builder(cls) -> Builder:
200        return cls.Builder()

class SparkSession.Builder: View Source

167    class Builder:
168        SQLFRAME_DIALECT_KEY = "sqlframe.dialect"
169
170        def __init__(self):
171            self.dialect = "spark"
172
173        def __getattr__(self, item) -> SparkSession.Builder:
174            return self
175
176        def __call__(self, *args, **kwargs):
177            return self
178
179        def config(
180            self,
181            key: t.Optional[str] = None,
182            value: t.Optional[t.Any] = None,
183            *,
184            map: t.Optional[t.Dict[str, t.Any]] = None,
185            **kwargs: t.Any,
186        ) -> SparkSession.Builder:
187            if key == self.SQLFRAME_DIALECT_KEY:
188                self.dialect = value
189            elif map and self.SQLFRAME_DIALECT_KEY in map:
190                self.dialect = map[self.SQLFRAME_DIALECT_KEY]
191            return self
192
193        def getOrCreate(self) -> SparkSession:
194            spark = SparkSession()
195            spark.dialect = Dialect.get_or_raise(self.dialect)
196            return spark

SQLFRAME_DIALECT_KEY = 'sqlframe.dialect'

dialect

def config( self, key: Optional[str] = None, value: Optional[Any] = None, *, map: Optional[Dict[str, Any]] = None, **kwargs: Any) -> SparkSession.Builder: View Source

179        def config(
180            self,
181            key: t.Optional[str] = None,
182            value: t.Optional[t.Any] = None,
183            *,
184            map: t.Optional[t.Dict[str, t.Any]] = None,
185            **kwargs: t.Any,
186        ) -> SparkSession.Builder:
187            if key == self.SQLFRAME_DIALECT_KEY:
188                self.dialect = value
189            elif map and self.SQLFRAME_DIALECT_KEY in map:
190                self.dialect = map[self.SQLFRAME_DIALECT_KEY]
191            return self

def getOrCreate(self) -> SparkSession: View Source

193        def getOrCreate(self) -> SparkSession:
194            spark = SparkSession()
195            spark.dialect = Dialect.get_or_raise(self.dialect)
196            return spark

class DataFrameNaFunctions: View Source

838class DataFrameNaFunctions:
839    def __init__(self, df: DataFrame):
840        self.df = df
841
842    def drop(
843        self,
844        how: str = "any",
845        thresh: t.Optional[int] = None,
846        subset: t.Optional[t.Union[str, t.Tuple[str, ...], t.List[str]]] = None,
847    ) -> DataFrame:
848        return self.df.dropna(how=how, thresh=thresh, subset=subset)
849
850    def fill(
851        self,
852        value: t.Union[int, bool, float, str, t.Dict[str, t.Any]],
853        subset: t.Optional[t.Union[str, t.Tuple[str, ...], t.List[str]]] = None,
854    ) -> DataFrame:
855        return self.df.fillna(value=value, subset=subset)
856
857    def replace(
858        self,
859        to_replace: t.Union[bool, int, float, str, t.List, t.Dict],
860        value: t.Optional[t.Union[bool, int, float, str, t.List]] = None,
861        subset: t.Optional[t.Union[str, t.List[str]]] = None,
862    ) -> DataFrame:
863        return self.df.replace(to_replace=to_replace, value=value, subset=subset)

DataFrameNaFunctions(df: DataFrame) View Source

839    def __init__(self, df: DataFrame):
840        self.df = df

def drop( self, how: str = 'any', thresh: Optional[int] = None, subset: Union[str, Tuple[str, ...], List[str], NoneType] = None) -> DataFrame: View Source

842    def drop(
843        self,
844        how: str = "any",
845        thresh: t.Optional[int] = None,
846        subset: t.Optional[t.Union[str, t.Tuple[str, ...], t.List[str]]] = None,
847    ) -> DataFrame:
848        return self.df.dropna(how=how, thresh=thresh, subset=subset)

def fill( self, value: Union[int, bool, float, str, Dict[str, Any]], subset: Union[str, Tuple[str, ...], List[str], NoneType] = None) -> DataFrame: View Source

850    def fill(
851        self,
852        value: t.Union[int, bool, float, str, t.Dict[str, t.Any]],
853        subset: t.Optional[t.Union[str, t.Tuple[str, ...], t.List[str]]] = None,
854    ) -> DataFrame:
855        return self.df.fillna(value=value, subset=subset)

def replace( self, to_replace: Union[bool, int, float, str, List, Dict], value: Union[bool, int, float, str, List, NoneType] = None, subset: Union[str, List[str], NoneType] = None) -> DataFrame: View Source

857    def replace(
858        self,
859        to_replace: t.Union[bool, int, float, str, t.List, t.Dict],
860        value: t.Optional[t.Union[bool, int, float, str, t.List]] = None,
861        subset: t.Optional[t.Union[str, t.List[str]]] = None,
862    ) -> DataFrame:
863        return self.df.replace(to_replace=to_replace, value=value, subset=subset)

class Window: View Source

15class Window:
16    _JAVA_MIN_LONG = -(1 << 63)  # -9223372036854775808
17    _JAVA_MAX_LONG = (1 << 63) - 1  # 9223372036854775807
18    _PRECEDING_THRESHOLD = max(-sys.maxsize, _JAVA_MIN_LONG)
19    _FOLLOWING_THRESHOLD = min(sys.maxsize, _JAVA_MAX_LONG)
20
21    unboundedPreceding: int = _JAVA_MIN_LONG
22
23    unboundedFollowing: int = _JAVA_MAX_LONG
24
25    currentRow: int = 0
26
27    @classmethod
28    def partitionBy(cls, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
29        return WindowSpec().partitionBy(*cols)
30
31    @classmethod
32    def orderBy(cls, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
33        return WindowSpec().orderBy(*cols)
34
35    @classmethod
36    def rowsBetween(cls, start: int, end: int) -> WindowSpec:
37        return WindowSpec().rowsBetween(start, end)
38
39    @classmethod
40    def rangeBetween(cls, start: int, end: int) -> WindowSpec:
41        return WindowSpec().rangeBetween(start, end)

unboundedPreceding: int = -9223372036854775808

unboundedFollowing: int = 9223372036854775807

currentRow: int = 0

@classmethod

def partitionBy( cls, *cols: Union[<MagicMock id='140666178965504'>, List[<MagicMock id='140666178965504'>]]) -> WindowSpec: View Source

27    @classmethod
28    def partitionBy(cls, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
29        return WindowSpec().partitionBy(*cols)

@classmethod

def orderBy( cls, *cols: Union[<MagicMock id='140666178965504'>, List[<MagicMock id='140666178965504'>]]) -> WindowSpec: View Source

31    @classmethod
32    def orderBy(cls, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
33        return WindowSpec().orderBy(*cols)

@classmethod

def rowsBetween(cls, start: int, end: int) -> WindowSpec: View Source

35    @classmethod
36    def rowsBetween(cls, start: int, end: int) -> WindowSpec:
37        return WindowSpec().rowsBetween(start, end)

@classmethod

def rangeBetween(cls, start: int, end: int) -> WindowSpec: View Source

39    @classmethod
40    def rangeBetween(cls, start: int, end: int) -> WindowSpec:
41        return WindowSpec().rangeBetween(start, end)

class WindowSpec: View Source

 44class WindowSpec:
 45    def __init__(self, expression: exp.Expression = exp.Window()):
 46        self.expression = expression
 47
 48    def copy(self):
 49        return WindowSpec(self.expression.copy())
 50
 51    def sql(self, **kwargs) -> str:
 52        from sqlglot.dataframe.sql.session import SparkSession
 53
 54        return self.expression.sql(dialect=SparkSession().dialect, **kwargs)
 55
 56    def partitionBy(self, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
 57        from sqlglot.dataframe.sql.column import Column
 58
 59        cols = flatten(cols) if isinstance(cols[0], (list, set, tuple)) else cols  # type: ignore
 60        expressions = [Column.ensure_col(x).expression for x in cols]
 61        window_spec = self.copy()
 62        partition_by_expressions = window_spec.expression.args.get("partition_by", [])
 63        partition_by_expressions.extend(expressions)
 64        window_spec.expression.set("partition_by", partition_by_expressions)
 65        return window_spec
 66
 67    def orderBy(self, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
 68        from sqlglot.dataframe.sql.column import Column
 69
 70        cols = flatten(cols) if isinstance(cols[0], (list, set, tuple)) else cols  # type: ignore
 71        expressions = [Column.ensure_col(x).expression for x in cols]
 72        window_spec = self.copy()
 73        if window_spec.expression.args.get("order") is None:
 74            window_spec.expression.set("order", exp.Order(expressions=[]))
 75        order_by = window_spec.expression.args["order"].expressions
 76        order_by.extend(expressions)
 77        window_spec.expression.args["order"].set("expressions", order_by)
 78        return window_spec
 79
 80    def _calc_start_end(
 81        self, start: int, end: int
 82    ) -> t.Dict[str, t.Optional[t.Union[str, exp.Expression]]]:
 83        kwargs: t.Dict[str, t.Optional[t.Union[str, exp.Expression]]] = {
 84            "start_side": None,
 85            "end_side": None,
 86        }
 87        if start == Window.currentRow:
 88            kwargs["start"] = "CURRENT ROW"
 89        else:
 90            kwargs = {
 91                **kwargs,
 92                **{
 93                    "start_side": "PRECEDING",
 94                    "start": (
 95                        "UNBOUNDED"
 96                        if start <= Window.unboundedPreceding
 97                        else F.lit(start).expression
 98                    ),
 99                },
100            }
101        if end == Window.currentRow:
102            kwargs["end"] = "CURRENT ROW"
103        else:
104            kwargs = {
105                **kwargs,
106                **{
107                    "end_side": "FOLLOWING",
108                    "end": (
109                        "UNBOUNDED" if end >= Window.unboundedFollowing else F.lit(end).expression
110                    ),
111                },
112            }
113        return kwargs
114
115    def rowsBetween(self, start: int, end: int) -> WindowSpec:
116        window_spec = self.copy()
117        spec = self._calc_start_end(start, end)
118        spec["kind"] = "ROWS"
119        window_spec.expression.set(
120            "spec",
121            exp.WindowSpec(
122                **{**window_spec.expression.args.get("spec", exp.WindowSpec()).args, **spec}
123            ),
124        )
125        return window_spec
126
127    def rangeBetween(self, start: int, end: int) -> WindowSpec:
128        window_spec = self.copy()
129        spec = self._calc_start_end(start, end)
130        spec["kind"] = "RANGE"
131        window_spec.expression.set(
132            "spec",
133            exp.WindowSpec(
134                **{**window_spec.expression.args.get("spec", exp.WindowSpec()).args, **spec}
135            ),
136        )
137        return window_spec

WindowSpec(expression: sqlglot.expressions.Expression = Window()) View Source

45    def __init__(self, expression: exp.Expression = exp.Window()):
46        self.expression = expression

expression

def copy(self): View Source

48    def copy(self):
49        return WindowSpec(self.expression.copy())

def sql(self, **kwargs) -> str: View Source

51    def sql(self, **kwargs) -> str:
52        from sqlglot.dataframe.sql.session import SparkSession
53
54        return self.expression.sql(dialect=SparkSession().dialect, **kwargs)

def partitionBy( self, *cols: Union[<MagicMock id='140666178965504'>, List[<MagicMock id='140666178965504'>]]) -> WindowSpec: View Source

56    def partitionBy(self, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
57        from sqlglot.dataframe.sql.column import Column
58
59        cols = flatten(cols) if isinstance(cols[0], (list, set, tuple)) else cols  # type: ignore
60        expressions = [Column.ensure_col(x).expression for x in cols]
61        window_spec = self.copy()
62        partition_by_expressions = window_spec.expression.args.get("partition_by", [])
63        partition_by_expressions.extend(expressions)
64        window_spec.expression.set("partition_by", partition_by_expressions)
65        return window_spec

def orderBy( self, *cols: Union[<MagicMock id='140666178965504'>, List[<MagicMock id='140666178965504'>]]) -> WindowSpec: View Source

67    def orderBy(self, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
68        from sqlglot.dataframe.sql.column import Column
69
70        cols = flatten(cols) if isinstance(cols[0], (list, set, tuple)) else cols  # type: ignore
71        expressions = [Column.ensure_col(x).expression for x in cols]
72        window_spec = self.copy()
73        if window_spec.expression.args.get("order") is None:
74            window_spec.expression.set("order", exp.Order(expressions=[]))
75        order_by = window_spec.expression.args["order"].expressions
76        order_by.extend(expressions)
77        window_spec.expression.args["order"].set("expressions", order_by)
78        return window_spec

def rowsBetween(self, start: int, end: int) -> WindowSpec: View Source

115    def rowsBetween(self, start: int, end: int) -> WindowSpec:
116        window_spec = self.copy()
117        spec = self._calc_start_end(start, end)
118        spec["kind"] = "ROWS"
119        window_spec.expression.set(
120            "spec",
121            exp.WindowSpec(
122                **{**window_spec.expression.args.get("spec", exp.WindowSpec()).args, **spec}
123            ),
124        )
125        return window_spec

def rangeBetween(self, start: int, end: int) -> WindowSpec: View Source

127    def rangeBetween(self, start: int, end: int) -> WindowSpec:
128        window_spec = self.copy()
129        spec = self._calc_start_end(start, end)
130        spec["kind"] = "RANGE"
131        window_spec.expression.set(
132            "spec",
133            exp.WindowSpec(
134                **{**window_spec.expression.args.get("spec", exp.WindowSpec()).args, **spec}
135            ),
136        )
137        return window_spec

class DataFrameReader: View Source

15class DataFrameReader:
16    def __init__(self, spark: SparkSession):
17        self.spark = spark
18
19    def table(self, tableName: str) -> DataFrame:
20        from sqlglot.dataframe.sql.dataframe import DataFrame
21        from sqlglot.dataframe.sql.session import SparkSession
22
23        sqlglot.schema.add_table(tableName, dialect=SparkSession().dialect)
24
25        return DataFrame(
26            self.spark,
27            exp.Select()
28            .from_(
29                exp.to_table(tableName, dialect=SparkSession().dialect).transform(
30                    SparkSession().dialect.normalize_identifier
31                )
32            )
33            .select(
34                *(
35                    column
36                    for column in sqlglot.schema.column_names(
37                        tableName, dialect=SparkSession().dialect
38                    )
39                )
40            ),
41        )

DataFrameReader(spark: SparkSession) View Source

16    def __init__(self, spark: SparkSession):
17        self.spark = spark

spark

def table(self, tableName: str) -> DataFrame: View Source

19    def table(self, tableName: str) -> DataFrame:
20        from sqlglot.dataframe.sql.dataframe import DataFrame
21        from sqlglot.dataframe.sql.session import SparkSession
22
23        sqlglot.schema.add_table(tableName, dialect=SparkSession().dialect)
24
25        return DataFrame(
26            self.spark,
27            exp.Select()
28            .from_(
29                exp.to_table(tableName, dialect=SparkSession().dialect).transform(
30                    SparkSession().dialect.normalize_identifier
31                )
32            )
33            .select(
34                *(
35                    column
36                    for column in sqlglot.schema.column_names(
37                        tableName, dialect=SparkSession().dialect
38                    )
39                )
40            ),
41        )

class DataFrameWriter: View Source

 44class DataFrameWriter:
 45    def __init__(
 46        self,
 47        df: DataFrame,
 48        spark: t.Optional[SparkSession] = None,
 49        mode: t.Optional[str] = None,
 50        by_name: bool = False,
 51    ):
 52        self._df = df
 53        self._spark = spark or df.spark
 54        self._mode = mode
 55        self._by_name = by_name
 56
 57    def copy(self, **kwargs) -> DataFrameWriter:
 58        return DataFrameWriter(
 59            **{
 60                k[1:] if k.startswith("_") else k: v
 61                for k, v in object_to_dict(self, **kwargs).items()
 62            }
 63        )
 64
 65    def sql(self, **kwargs) -> t.List[str]:
 66        return self._df.sql(**kwargs)
 67
 68    def mode(self, saveMode: t.Optional[str]) -> DataFrameWriter:
 69        return self.copy(_mode=saveMode)
 70
 71    @property
 72    def byName(self):
 73        return self.copy(by_name=True)
 74
 75    def insertInto(self, tableName: str, overwrite: t.Optional[bool] = None) -> DataFrameWriter:
 76        from sqlglot.dataframe.sql.session import SparkSession
 77
 78        output_expression_container = exp.Insert(
 79            **{
 80                "this": exp.to_table(tableName),
 81                "overwrite": overwrite,
 82            }
 83        )
 84        df = self._df.copy(output_expression_container=output_expression_container)
 85        if self._by_name:
 86            columns = sqlglot.schema.column_names(
 87                tableName, only_visible=True, dialect=SparkSession().dialect
 88            )
 89            df = df._convert_leaf_to_cte().select(*columns)
 90
 91        return self.copy(_df=df)
 92
 93    def saveAsTable(self, name: str, format: t.Optional[str] = None, mode: t.Optional[str] = None):
 94        if format is not None:
 95            raise NotImplementedError("Providing Format in the save as table is not supported")
 96        exists, replace, mode = None, None, mode or str(self._mode)
 97        if mode == "append":
 98            return self.insertInto(name)
 99        if mode == "ignore":
100            exists = True
101        if mode == "overwrite":
102            replace = True
103        output_expression_container = exp.Create(
104            this=exp.to_table(name),
105            kind="TABLE",
106            exists=exists,
107            replace=replace,
108        )
109        return self.copy(_df=self._df.copy(output_expression_container=output_expression_container))

DataFrameWriter( df: DataFrame, spark: Optional[SparkSession] = None, mode: Optional[str] = None, by_name: bool = False) View Source

45    def __init__(
46        self,
47        df: DataFrame,
48        spark: t.Optional[SparkSession] = None,
49        mode: t.Optional[str] = None,
50        by_name: bool = False,
51    ):
52        self._df = df
53        self._spark = spark or df.spark
54        self._mode = mode
55        self._by_name = by_name

def copy(self, **kwargs) -> DataFrameWriter: View Source

57    def copy(self, **kwargs) -> DataFrameWriter:
58        return DataFrameWriter(
59            **{
60                k[1:] if k.startswith("_") else k: v
61                for k, v in object_to_dict(self, **kwargs).items()
62            }
63        )

def sql(self, **kwargs) -> List[str]: View Source

65    def sql(self, **kwargs) -> t.List[str]:
66        return self._df.sql(**kwargs)

def mode( self, saveMode: Optional[str]) -> DataFrameWriter: View Source

68    def mode(self, saveMode: t.Optional[str]) -> DataFrameWriter:
69        return self.copy(_mode=saveMode)

byName View Source

71    @property
72    def byName(self):
73        return self.copy(by_name=True)

def insertInto( self, tableName: str, overwrite: Optional[bool] = None) -> DataFrameWriter: View Source

75    def insertInto(self, tableName: str, overwrite: t.Optional[bool] = None) -> DataFrameWriter:
76        from sqlglot.dataframe.sql.session import SparkSession
77
78        output_expression_container = exp.Insert(
79            **{
80                "this": exp.to_table(tableName),
81                "overwrite": overwrite,
82            }
83        )
84        df = self._df.copy(output_expression_container=output_expression_container)
85        if self._by_name:
86            columns = sqlglot.schema.column_names(
87                tableName, only_visible=True, dialect=SparkSession().dialect
88            )
89            df = df._convert_leaf_to_cte().select(*columns)
90
91        return self.copy(_df=df)

def saveAsTable( self, name: str, format: Optional[str] = None, mode: Optional[str] = None): View Source

 93    def saveAsTable(self, name: str, format: t.Optional[str] = None, mode: t.Optional[str] = None):
 94        if format is not None:
 95            raise NotImplementedError("Providing Format in the save as table is not supported")
 96        exists, replace, mode = None, None, mode or str(self._mode)
 97        if mode == "append":
 98            return self.insertInto(name)
 99        if mode == "ignore":
100            exists = True
101        if mode == "overwrite":
102            replace = True
103        output_expression_container = exp.Create(
104            this=exp.to_table(name),
105            kind="TABLE",
106            exists=exists,
107            replace=replace,
108        )
109        return self.copy(_df=self._df.copy(output_expression_container=output_expression_container))