怎么将数据从Hadoop导出到关系型和NoSQL数据库

蜗牛互联网技术资讯 2022-03-08 266 0

小编给大家分享一下怎么将数据从Hadoop导出到关系型和NoSQL数据库，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！

实践：使用Sqoop将数据导出到MySQL

Hadoop擅长与大多数关系型数据库打交道，因此将OLTP数据提取到HDFS，执行一些分析，然后将其导出回数据库是很常见的。

问题

希望将数据写入关系数据库，同时确保写入是幂等的。

解决方案

此技术介绍了如何使用Sqoop将文本文件导出到关系数据库，还介绍了如何配置Sqoop以使用具有自定义字段和记录分隔符的文件。我们还将介绍幂等导出，以确保失败的导出不会使数据库处于不一致状态。

讨论

这种技术假设已经安装MySQL并创建模式。

Sqoop导出要求导出数据库表已存在，Sqoop可以支持表中行的插入和更新。

将数据导出到数据库共享

我们在导入部分检查的许多参数，不同之处在于export需要使用--export-dir参数来确定要导出的HDFS目录，还将为导出创建另一个选项文件，以防止在命令行上不安全地提供密码：

怎么将数据从Hadoop导出到关系型和NoSQL数据库 hadoop 第1张

第一步是将数据从MySQL导出到HDFS，以确保有一个良好的起点，如以下命令所示：

怎么将数据从Hadoop导出到关系型和NoSQL数据库 hadoop 第2张

Sqoop导入的结果是HDFS中有许多CSV文件，可以在以下代码中看到：

怎么将数据从Hadoop导出到关系型和NoSQL数据库 hadoop 第3张

对于从HDFS到MySQL的Sqoop导出，将指定目标表应该是stocks_export并且应该从HDFS库目录导出数据：

怎么将数据从Hadoop导出到关系型和NoSQL数据库 hadoop 第4张

默认情况下，Sqoop导出将对目标数据库表执行INSERT，可以使用--update-mode参数支持更新。值updateonly意味着如果没有匹配的密钥，更新将失败。如果匹配的键不存在，则allowInsert的值将直接插入。用于执行更新的表列名称在--update-key参数中提供。

以下示例表明只应使用主键尝试更新：

怎么将数据从Hadoop导出到关系型和NoSQL数据库 hadoop 第5张

输入数据格式

可以使用多个选项覆盖用于解析输入数据的默认Sqoop设置，表5.7列出了这些选项。

怎么将数据从Hadoop导出到关系型和NoSQL数据库 hadoop 第6张

表5.7 输入数据的格式选项

幂等输出

执行输出的Sqoop map任务使用多个事务进行数据库写入。如果Sqoop导出MapReduce作业失败，则表可能包含部分写入。对于幂等数据库写入，可以指示Sqoop执行MapReduce写入临时表。成功完成作业后，临时表将在单个事务中移动到目标表，该事务是幂等的，可以在图5.19中看到事件顺序。

怎么将数据从Hadoop导出到关系型和NoSQL数据库 hadoop 第7张

图5.19 Sqoop分段事件序列，有助于确保幂等输出

在下面的示例中，临时表是stocks_staging，还告诉Sqoop在MapReduce作业以--clear-staging-table参数启动之前清除它：

怎么将数据从Hadoop导出到关系型和NoSQL数据库 hadoop 第8张

直接输出

在导入技术中使用快速连接器，这是使用mysqldump实用程序的优化。Sqoop导出也支持使用mysqlimport工具的快速连接器。与mysqldump一样，集群中的所有节点都需要安装mysqlimport，并且在用于运行MapReduce任务的用户路径中可用。与导入一样， - diand参数可以使用快速连接器：

怎么将数据从Hadoop导出到关系型和NoSQL数据库 hadoop 第9张