数据集和数据源介绍

数据集

为了演示 Athena 联合功能,让我们看一下测试数据集和数据源。我们使用TPCH数据

该数据集用于benchmark,它由一套面向业务的临时查询和并发数据查询组成。TPC-H 的组件由八个单独的表(基表)组成,这些表中的列之间的关系如下图所示:img

我们将关注以下几个表:

  • customer
  • supplier
  • orders
  • part
  • partsupp
  • lineitem
  • nation

数据源

我们的架构使用:

  • 使用EMR 上 HBase存储Lineitem
  • Redis用于存储nation和活跃的orders,以便可以快速访问它们
  • Aurora MySQL用于处理order、customer和supplier数据,例如电子邮件地址、送货地址等。
  • DynamoDB用于存储零件(part)和零件供应(partsupp)以实现高性能

img

上面的数据源已经在上一章的CloudFormation中创建出来:

image-20231130152005841