数据集和数据源介绍
数据集
为了演示 Athena 联合功能,让我们看一下测试数据集和数据源。我们使用TPCH数据
。
该数据集用于benchmark,它由一套面向业务的临时查询和并发数据查询组成。TPC-H 的组件由八个单独的表(基表)组成,这些表中的列之间的关系如下图所示:
我们将关注以下几个表:
- customer
- supplier
- orders
- part
- partsupp
- lineitem
- nation
数据源
我们的架构使用:
- 使用EMR 上 HBase存储Lineitem
- Redis用于存储nation和活跃的orders,以便可以快速访问它们
- Aurora MySQL用于处理order、customer和supplier数据,例如电子邮件地址、送货地址等。
- DynamoDB用于存储零件(part)和零件供应(partsupp)以实现高性能
上面的数据源已经在上一章的CloudFormation中创建出来: