如果您正在寻找快速,交互式可用且开发人员友好的批处理解决方案,您可能需要查看 Apache Spark 而不是风暴。
当您想要在连续计算上运行查询时,Trident / DRPC更有用。
当然可以使用Storm来处理有限的数据集合,并在处理完所有元素后停止。 DRPC拓扑是实现此目的的一种方法,但滚动自己的解决方案并不难。
我们的想法是跟踪有限数据集中的哪些元素已被处理, 这可以使用ack()和fail()方法在Spout中轻松完成。
找到了答案 风暴谷歌组 。似乎DRCP拓扑将发出具有DRCP spout作为流接收的参数的元组,然后将在处理完成时指示回来(使用称为请求ID的唯一ID)。
在同一个线程中说hadoop可能最适合这些情况,除非数据不够大并且可以完全处理。