Spark的mapWithState解密方法是什么

蜗牛互联网技术资讯 2021-12-16 293 0

这篇文章主要讲解了“Spark的mapWithState解密方法是什么”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Spark的mapWithState解密方法是什么”吧！

updateStateByKey和mapWithState方法在DStream中找不到，需要进行隐式转换，转换为PairDStreamFunctions对象。

updateStateByKey是在已有的状态下进行更新操作。Seq[V]中存放历史数据，Option[S]存放新值，可能没有值。使用了默认的Partitioner函数，HashPartitioner。

Spark的mapWithState解密方法是什么 spark 第1张

StateDStream继承DStream，使用MEMORY_ONLY_SER的方式作为存储级别。

Spark的mapWithState解密方法是什么 spark 第3张

StateDStream的compute方法，如果parent存在则调用computeUsingPreviousRDD方法，如果不存在调用preStateRDD的mapPartitions方法。

Spark的mapWithState解密方法是什么 spark 第4张

computeUsingPreviousRDD方法中，parentRDD和之前的RDD进行cogroup操作，根据Key对Value进行聚合，基于Key对所有的Value进行扫描，当数据量比较少时可以考虑使用cogroup方法，但是当数据量大时，就会影响整个运行，降低性能。

Spark的mapWithState解密方法是什么 spark 第5张

mapWithState方法中接收StateSpec类型的参数，StateSpec中封装了更新操作的函数。

Spark的mapWithState解密方法是什么 spark 第6张

StateImpl继承State类，记录了其状态信息，定义了获取，更新，删除等操作接口，很像是数据库中的一张表，进行增删改查。

Spark的mapWithState解密方法是什么 spark 第7张

StateSpecImpl类中定义了如何初始化状态，设置Partition的个数，设置分区函数Partition。

Spark的mapWithState解密方法是什么 spark 第8张

MapWithStateDStreamImpl类的compute方法其实质是调用InternalMapWithStateDStream的getOrCompute方法。

Spark的mapWithState解密方法是什么 spark 第9张

InternalMapWithStateDStream是在历史数据的基础上进行更新操作。

Spark的mapWithState解密方法是什么 spark 第10张

InternalMapWithStateDStream的compute方法中，实例化了MapWithStateRDD对象。

Spark的mapWithState解密方法是什么 spark 第11张

MapWithStateRDD类中，一个Partition对应一个MapWithStateRDDRecord。

Spark的mapWithState解密方法是什么 spark 第12张

MapWithStateRDD的compute方法，先获取之前的State信息，和现在数据的迭代器进行操作，，调用MapWithStateRDDRecord的updateRecordWithData的方法，返回MapWithStateRDDRecord为元素的迭代器。

Spark的mapWithState解密方法是什么 spark 第13张

newStateMap中保存了整个历史数据。

Spark的mapWithState解密方法是什么 spark 第14张

RDD是不可变的，但是RDD中的数据可以变化。

感谢各位的阅读，以上就是“Spark的mapWithState解密方法是什么”的内容了，经过本文的学习后，相信大家对Spark的mapWithState解密方法是什么这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是蜗牛博客，小编将为大家推送更多相关知识点的文章，欢迎关注！

免责声明：本站发布的内容（图片、视频和文字）以原创、转载和分享为主，文章观点不代表本网站立场，如果涉及侵权请联系站长邮箱：niceseo99@gmail.com进行举报，并提供相关证据，一经查实，将立刻删除涉嫌侵权内容。