Trino源码学习-查询调度

发表于 2023-02-28 更新于 2023-11-23 分类于 Trino Waline：阅读次数：本文字数： 32k 阅读时长 ≈ 53 分钟

Trino源码学习-查询调度

上篇分析了SQL逻辑执行计划的生成，本篇将继续分析逻辑计划是如何在进行调度的。

The Snowflake Elastic Data Warehouse

发表于 2023-02-20 更新于 2023-11-23 分类于 Paper ， BigData Waline：阅读次数：本文字数： 26k 阅读时长 ≈ 43 分钟

The Snowflake Elastic Data Warehouse

摘要

我们生活在分布式计算的黄金时代。公有云平台几乎能够按需提供无限的计算和存储资源。同时，SaaS模型(Software-as-a-Service)将企业级系统带给了无法负担成本和相关系统复杂性的用户。传统的数仓系统正在努力的适应新的环境，但是首先，它是为固定资源而设计，从而没办法利用云的弹性能力。另外，传统的数仓依赖复杂的ETL流水线和物理调优，这个是和云的半结构数据和快速解决工作问题的新形式所需要的弹性和快速不一致的。

我们决定进行根本性的重新设计。我们的任务是去建立云上的企业级数据仓库的解决方案。就是Snowflake弹性数据仓库，简称Snowflake。Snowflake是一种多租户、事务性、安全、高度可扩展的弹性系统，具备完整的SQL支持和半结构化和schema-less数据模式支持。Snowflake在亚马逊云上提供现付即用的服务。用户只需将数据导入云上，就可以立即利用他们熟悉的工具和界面进行管理和查询。从2012年底，Snowflake开始计划实施，到2015年6月，Snowflake已经可以大体可用。现在，Snowflake被越来越多的大大小小的组织用于生产。这个系统每天运行几百万次查询在几PB的数据上。

本文主要介绍Snowflake的设计、多集群共享数据的结构和Snowflake的关键特性：极致的弹性和可用性、半结构化和schema-less的数据支持、时间旅行、端到端的安全性，最后是一些经验总结和对未来工作的展望。

阅读全文 »

Trino源码学习-SQL语法树解析

发表于 2023-02-17 更新于 2023-11-23 分类于 Trino Waline：阅读次数：本文字数： 2.6k 阅读时长 ≈ 4 分钟

Trino源码学习-SQL语法树解析

Trino在查询提交时，会将SQL文本解析成语法树。Trino将这一动作分为2个部分:

flowchart LR
    s1(SQL)-->|Parser base Antlr|s2(ANTLR AST)
    s2-->|AST builder base Antlr Visitor|s3(Presto AST)

Antlr Parser

Antlr的使用在Trino中就不多做介绍了，简单来说，Antlr基于类似巴斯卡范式(BNF)的语法规则和词法规则文件，动态生成Parser和Lexer。

在Trino项目中，该文件位于

core/trino-parser/src/main/antlr4/io/trino/sql/parser/SqlBase.g4

通过使用Antlr的mave插件，在generate source阶段，会动态生成SqlBaseLexer和SqlBaseParser

core/trino-parser/target/generated-sources/antlr4/io/trino/sql/parser/目录下

io.trino.sql.parser.SqlParser

trino在实际使用过程中并没有直接使用Antlr的Parser，而是统一使用门面类SqlParser用于执行语法解析。SqlParser的解析方法内部都是通过调用invokeParser来实现的。

private Node invokeParser(String name, String sql, Function<SqlBaseParser, ParserRuleContext> parseFunction, ParsingOptions parsingOptions)
    {
        try {
            //CaseInsensitiveStream 忽略大小写
            SqlBaseLexer lexer = new SqlBaseLexer(new CaseInsensitiveStream(CharStreams.fromString(sql)));
            CommonTokenStream tokenStream = new CommonTokenStream(lexer);
            SqlBaseParser parser = new SqlBaseParser(tokenStream);
            // 此处优化是由于antlr的内存泄漏
            // https://github.com/antlr/antlr4/issues/499
            initializer.accept(lexer, parser); 
           


            // Override the default error strategy to not attempt inserting or deleting a token.
            // Otherwise, it messes up error reporting
            parser.setErrorHandler(new DefaultErrorStrategy()
            {
                @Override
                public Token recoverInline(Parser recognizer)
                        throws RecognitionException
                {
                    if (nextTokensContext == null) {
                        throw new InputMismatchException(recognizer);
                    }
                    throw new InputMismatchException(recognizer, nextTokensState, nextTokensContext);
                }
            });
            // 流式遍历方式的listenner。进行后置处理
            parser.addParseListener(new PostProcessor(Arrays.asList(parser.getRuleNames()), parser));

            lexer.removeErrorListeners();
            lexer.addErrorListener(LEXER_ERROR_LISTENER);

            parser.removeErrorListeners();
            parser.addErrorListener(PARSER_ERROR_HANDLER);

            ParserRuleContext tree;
            try {
                // first, try parsing with potentially faster SLL mode
                parser.getInterpreter().setPredictionMode(PredictionMode.SLL);
                tree = parseFunction.apply(parser); // 此时解析为Antlr树
            }
            catch (ParseCancellationException ex) {
                // if we fail, parse with LL mode
                tokenStream.seek(0); // rewind input stream
                parser.reset();
                // SLL不行的话，使用降级模式LL
                parser.getInterpreter().setPredictionMode(PredictionMode.LL);
                tree = parseFunction.apply(parser);
            }

            return new AstBuilder(parsingOptions).visit(tree); // 访问者模式，生成Presto自定义的语法树
        }
        catch (StackOverflowError e) {
            throw new ParsingException(name + " is too large (stack overflow while parsing)");
        }
    }