AlphaSQL:SQLファイル集合の型・スキーマ解析と自動並列化
書誌事項
- タイトル別名
-
- AlphaSQL: Integrated Type/Schema Check and Parallelization for SQL File Set
この論文をさがす
説明
機械学習やデータ解析などの技術は強力で柔軟なシステムを実現するが,データと処理の依存関係やデータ・処理それぞれの変更への追随など管理の難しさがある.そこで本発表では,型・スキーマの安全性を保ちながらデータ基盤の構築を行うためのAlphaSQLというフレームワークを提案する.AlphaSQLは,SQLファイル間の依存関係を解決することにより,SQLファイル集合全体の型・スキーマ解析と並列化を行う.テーブルを作成するSQL文に対する,作成されたテーブルを参照するクエリの依存関係が,SQLファイルの静的解析によって自動的に抽出される.結果は有向非循環グラフとして出力され,ユーザは依存関係を視覚的に確認することができる.既存のワークフローツールとは異なり,ユーザはSQLファイル間の複雑な依存関係に注意したり,並列化のための追加の作業を行う必要はない.また,解析の過程で構文の誤り・型の不整合を含む一般的なエラーが排除されることを,実際のCIでの分析結果から確認することができた.一部のSQLは機械学習モデルのトレーニングとデプロイをサポートしはじめており,AlphaSQLは機械学習にも有効だと考えられる.AlphaSQLはGithubで公開されており,主にBigQueryで現在使用されているが,AlphaSQLが依存する分析フレームワークZetaSQLはStandard SQL2011とほぼ互換性があり,多くのSQLに対応しやすいと考えられる.https://github.com/Matts966/alphasql
Emerging technologies such as machine learning and data mining realize powerful and flexible systems, however, they cause some problems. For example, management of dependency relationships between data and processing and their changes are typical pains. We present a framework named AlphaSQL to build type/schema safe and efficient data lake, data warehouse, and data mart. AlphaSQL provides integrated type/schema check and parallelization for SQL file set by resolving dependencies between SQL files. The dependencies of table references on the statement creating the tables are automatically resolved by static analysis of SQL files. The framework outputs the result as a directed acyclic graph and users can check the visualization of the dependencies. Unlike other existing workflow tools, users do not have to care about and code the complex dependencies between SQL files. Based on the resolution results, the SQL files are checked to eliminate typical errors including syntax errors, schema errors such as unknown columns and incompatible types, and executed parallelly. In addition, it was confirmed from the actual CI analysis results that typical errors including syntactical errors and type/schema inconsistencies were eliminated in the analysis process. These features are also useful in actual machine learning environment because some SQLs support training and deployement of machine learning models. AlphaSQL is open on Github and currently used mainly for BigQuery, however, we can extend the framework easily because the analysis framework ZetaSQL that AlphaSQL depends on is almost compatible with the standard SQL 2011. https://github.com/Matts966/alphasql
収録刊行物
-
- 情報処理学会論文誌プログラミング(PRO)
-
情報処理学会論文誌プログラミング(PRO) 14 (2), 27-27, 2021-05-12
情報処理学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1050288060472362240
-
- NII論文ID
- 170000184917
-
- NII書誌ID
- AA11464814
-
- ISSN
- 18827802
-
- 本文言語コード
- ja
-
- 資料種別
- journal article
-
- データソース種別
-
- IRDB
- CiNii Articles