Shark 0.7 增加了一种新的存储格式来支持高效地从 Tachyon 读取数据,从而实现跨 Shark 实例的数据共享和隔离。我们的聚会 幻灯片 很好地概述了使用 Tachyon 缓存 Shark 表的好处。总结起来,主要有以下四点:
Shark / Tachyon 兼容性: Shark 0.7.x 可与 Tachyon 0.2.1 配合使用,Shark 0.8.1 可与 Tachyon 0.3.0 配合使用,Shark 0.9.0 可与 Tachyon 0.4.0 配合使用。更多 Tachyon 相关信息,请访问 Tachyon 网站。
为了在 Tachyon 上使用 Spark,您需要先设置 Local Mode 或 Cluster Mode。
然后,编辑 shark-env.sh 并添加
export TACHYON_MASTER="tachyon://TachyonMasterHost:TachyonMasterPort"export TACHYON_WAREHOUSE_PATH=/sharktables指定 TBLPROPERTIES(“shark.cache” = “tachyon”),例如:
CREATE TABLE data TBLPROPERTIES(“shark.cache” = “tachyon”) AS SELECT a, b, c from data_on_disk WHERE month=“May”;指定以 _tachyon 结尾的表名,例如:
CREATE TABLE orders_tachyon AS SELECT * FROM orders;在 Tachyon 中创建表后,您可以像查询普通表一样查询它。

