hive自定义函数过滤emoj表情符
生活随笔
收集整理的這篇文章主要介紹了
hive自定义函数过滤emoj表情符
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
mysql插入數(shù)據(jù)問題:java.sql.SQLException: Incorrect string value: ‘\xF0\x9F\x98\x8D\xE8\xBE…’ for column ‘job_title’ at row 1
問題原因:
數(shù)據(jù)中存在Emoj表情內(nèi)容,每個字符占用4個字節(jié),在Mysql中utf-8默認(rèn)最大支持3個字節(jié),超長了,所以報(bào)錯了。
解決辦法:
(1)在較新版本的Mysql上可選擇修改數(shù)據(jù)類型為utf8mb4
(2)hive 數(shù)據(jù)處理過濾掉Emoj表情內(nèi)容(Emoj數(shù)據(jù)一般無用),處理完再集成到MySQL數(shù)據(jù)庫。用自定義函數(shù)
create temporary function StringFilter as ‘UppUDF.StringFilter’
using jar ‘hdfs://namenodeha/user/p66_u1038_upp_ludp1/tmp/StringFilter.jar’;
自定義函數(shù)代碼如下:
總結(jié)
以上是生活随笔為你收集整理的hive自定义函数过滤emoj表情符的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: RT-Thread柿饼控件(2)-- B
- 下一篇: Web前端低代码介绍的ppt大纲