Edit

关于mysql的emoji编码问题

  • 事情起因: 夺宝吧项目中我们从微信,qq,微博等第三方平台拉取用户名到本地db, 起初设置的db中表userfield user_name是utf8字段。但遇到了秀川和明霓的用户名奔跑的五花肉☔ , 秀川‮♑‭
    于是大家讨论起emoji编码的问题。
  • 他山之石:首席的同学说他们已经采过这个坑了,存emoji时有丢失,拿出来会乱码。于是他们用的base64对要存的byte进行编码然后入库,出库的时候先进行一次解码。然而感觉这样做虽然解决了问题但是存储层对应用层不透明了。
  • 背景:感谢浩然的分享。 我们知道展示在屏幕上的字符是一个个unicode,而存储在计算机里的是一个个byte (更具体的说是utf8编码的byte)。
  • 问题分析:
    • 究竟是哪出现了乱码: 首先有可能是计算机不支持这个unicode字符。这样肯定是乱码, 然而,如果计算机本身不支持的话及时通过一层base64编码问题一样解决不了。其次可能是存储utf8的byte或者解析时出了问题。 这样说的过来
    • 问题验证:google了一下mysql的utf8utf8mb4, 然后得到两者的区别utf8只支持3个byte及以内, utf8mb4支持4个byte的扩展字符。 (我也不知道一个unicode编码成utf8最多多少byte google后得到最多4个byte). 于是下结论, utf8mb4对于存储emoji是完全够用的,as long as emoji是一个个的unicode

问题验证:

验证编码问题我一直觉得用python3比较合适

  1. step1: user_name character set utf8
    db 配置:
DATABASES = {
'default': {
'ENGINE': 'django.db.backends.mysql',
'NAME': 'lucky_draw',
'USER': 'domob',
'PASSWORD': 'domob',
'HOST': '10.0.0.200',
'PORT': '3306',
'CONN_MAX_AGE': 25,
# 'OPTIONS': {'charset': 'utf8mb4'},
},
}
  • 存一个3byte的emoji
u = User.objects.get(id=1)
u.user_name=b'\xE2\x93\x82'
u.save()
u = User.objects.get(id=1)
u.user_name

正常输出'Ⓜ'

  • 存一个4byte的emoji
 u.user_name=b'\xF0\x9F\x86\x9A'
u.save()

报错: Incorrect string value: '\xF0\x9F\x86\x9A' for column 'user_name'

  1. step2: user_name character set utf8mb4 db 配置同上

    • 存一个4byte的emoji
 u.user_name=b'\xF0\x9F\x86\x9A'
u.save()

报错: Incorrect string value: '\xF0\x9F\x86\x9A' for column 'user_name'

  1. step3: googel发现是db配置的问题 修改
DATABASES = {
'default': {
'ENGINE': 'django.db.backends.mysql',
'NAME': 'lucky_draw',
'USER': 'domob',
'PASSWORD': 'domob',
'HOST': '10.0.0.200',
'PORT': '3306',
'CONN_MAX_AGE': 25,
'OPTIONS': {'charset': 'utf8mb4'},
},
}

重复上述测试,发现能完美的存取4byte的utf8

到此问题解决,通过go程序和mysql client同样得到验证。

结论:mysql默认支持的是精简的utf8字符集,猜想可能和分配存储有关系(比如char型的长度是n 如果是utf8集只需要分配3n个byte就好,如果是utf8mb4需要分配4n个存储)

在实际操作中,如果需要db支持存储emoji,首先需要field的collection设置能utf8mb4 同时在链接mysql的charset时要声明这种charset.

%23%u5173%u4E8Emysql%u7684emoji%u7F16%u7801%u95EE%u9898%0A@%28tech%29%0A%0A+%20%u4E8B%u60C5%u8D77%u56E0%uFF1A%20%u593A%u5B9D%u5427%u9879%u76EE%u4E2D%u6211%u4EEC%u4ECE%u5FAE%u4FE1%uFF0Cqq%uFF0C%u5FAE%u535A%u7B49%u7B2C%u4E09%u65B9%u5E73%u53F0%u62C9%u53D6%u7528%u6237%u540D%u5230%u672C%u5730db%uFF0C%20%u8D77%u521D%u8BBE%u7F6E%u7684db%u4E2D%u8868%60user%60field%20%60user_name%60%u662Futf8%u5B57%u6BB5%u3002%u4F46%u9047%u5230%u4E86%u79C0%u5DDD%u548C%u660E%u9713%u7684%u7528%u6237%u540D%60%u5954%u8DD1%u7684%u4E94%u82B1%u8089%u2614%60%20%2C%20%60%u79C0%u5DDD%u202E%20%60%u2651%u202D%20%20%20%20%20%0A%u4E8E%u662F%u5927%u5BB6%u8BA8%u8BBA%u8D77emoji%u7F16%u7801%u7684%u95EE%u9898%u3002%20%0A+%20%u4ED6%u5C71%u4E4B%u77F3%uFF1A%u9996%u5E2D%u7684%u540C%u5B66%u8BF4%u4ED6%u4EEC%u5DF2%u7ECF%u91C7%u8FC7%u8FD9%u4E2A%u5751%u4E86%uFF0C%u5B58emoji%u65F6%u6709%u4E22%u5931%uFF0C%u62FF%u51FA%u6765%u4F1A%u4E71%u7801%u3002%u4E8E%u662F%u4ED6%u4EEC%u7528%u7684base64%u5BF9%u8981%u5B58%u7684byte%u8FDB%u884C%u7F16%u7801%u7136%u540E%u5165%u5E93%uFF0C%u51FA%u5E93%u7684%u65F6%u5019%u5148%u8FDB%u884C%u4E00%u6B21%u89E3%u7801%u3002%u7136%u800C%u611F%u89C9%u8FD9%u6837%u505A%u867D%u7136%u89E3%u51B3%u4E86%u95EE%u9898%u4F46%u662F%u5B58%u50A8%u5C42%u5BF9%u5E94%u7528%u5C42%u4E0D%u900F%u660E%u4E86%u3002%0A+%20%u80CC%u666F%uFF1A%u611F%u8C22%u6D69%u7136%u7684%u5206%u4EAB%u3002%20%u6211%u4EEC%u77E5%u9053%u5C55%u793A%u5728%u5C4F%u5E55%u4E0A%u7684%u5B57%u7B26%u662F%u4E00%u4E2A%u4E2Aunicode%uFF0C%u800C%u5B58%u50A8%u5728%u8BA1%u7B97%u673A%u91CC%u7684%u662F%u4E00%u4E2A%u4E2Abyte%20%uFF08%u66F4%u5177%u4F53%u7684%u8BF4%u662Futf8%u7F16%u7801%u7684byte%29%u3002%20%0A+%20%u95EE%u9898%u5206%u6790%uFF1A%0A%09+%20%u7A76%u7ADF%u662F%u54EA%u51FA%u73B0%u4E86%u4E71%u7801%uFF1A%20%u9996%u5148%u6709%u53EF%u80FD%u662F%u8BA1%u7B97%u673A%u4E0D%u652F%u6301%u8FD9%u4E2Aunicode%u5B57%u7B26%u3002%u8FD9%u6837%u80AF%u5B9A%u662F%u4E71%u7801%uFF0C%20%u7136%u800C%uFF0C%u5982%u679C%u8BA1%u7B97%u673A%u672C%u8EAB%u4E0D%u652F%u6301%u7684%u8BDD%u53CA%u65F6%u901A%u8FC7%u4E00%u5C42base64%u7F16%u7801%u95EE%u9898%u4E00%u6837%u89E3%u51B3%u4E0D%u4E86%u3002%u5176%u6B21%u53EF%u80FD%u662F%u5B58%u50A8utf8%u7684byte%u6216%u8005%u89E3%u6790%u65F6%u51FA%u4E86%u95EE%u9898%u3002%20%u8FD9%u6837%u8BF4%u7684%u8FC7%u6765%0A%20+%20%u95EE%u9898%u9A8C%u8BC1%uFF1Agoogle%u4E86%u4E00%u4E0Bmysql%u7684%60utf8%60%u548C%60utf8mb4%60%2C%20%u7136%u540E%u5F97%u5230%u4E24%u8005%u7684%u533A%u522B%60utf8%60%u53EA%u652F%u63013%u4E2Abyte%u53CA%u4EE5%u5185%uFF0C%20%60utf8mb4%60%u652F%u63014%u4E2Abyte%u7684%u6269%u5C55%u5B57%u7B26%u3002%20%uFF08%u6211%u4E5F%u4E0D%u77E5%u9053%u4E00%u4E2A%60unicode%60%u7F16%u7801%u6210utf8%u6700%u591A%u591A%u5C11byte%20google%u540E%u5F97%u5230%u6700%u591A4%u4E2Abyte%29.%20%u4E8E%u662F%u4E0B%u7ED3%u8BBA%uFF0C%20utf8mb4%u5BF9%u4E8E%u5B58%u50A8emoji%u662F%u5B8C%u5168%u591F%u7528%u7684%uFF0Cas%20long%20as%20emoji%u662F%u4E00%u4E2A%u4E2A%u7684unicode%0A%0A%0A%23%23%20%u95EE%u9898%u9A8C%u8BC1%uFF1A%0A%u9A8C%u8BC1%u7F16%u7801%u95EE%u9898%u6211%u4E00%u76F4%u89C9%u5F97%u7528python3%u6BD4%u8F83%u5408%u9002%0A%0A1.%20%20step1%3A%20%20%60user_name%60%20character%20set%20%60utf8%60%0Adb%20%u914D%u7F6E%uFF1A%0A%0A%60%60%60python%0ADATABASES%20%3D%20%7B%0A%20%20%20%20%27default%27%3A%20%7B%0A%20%20%20%20%20%20%20%20%27ENGINE%27%3A%20%27django.db.backends.mysql%27%2C%0A%20%20%20%20%20%20%20%20%27NAME%27%3A%20%27lucky_draw%27%2C%0A%20%20%20%20%20%20%20%20%27USER%27%3A%20%27domob%27%2C%0A%20%20%20%20%20%20%20%20%27PASSWORD%27%3A%20%27domob%27%2C%0A%20%20%20%20%20%20%20%20%27HOST%27%3A%20%2710.0.0.200%27%2C%0A%20%20%20%20%20%20%20%20%27PORT%27%3A%20%273306%27%2C%0A%20%20%20%20%20%20%20%20%27CONN_MAX_AGE%27%3A%2025%2C%0A%20%20%20%20%20%20%20%20%23%20%27OPTIONS%27%3A%20%7B%27charset%27%3A%20%27utf8mb4%27%7D%2C%0A%20%20%20%20%7D%2C%0A%7D%0A%60%60%60%0A+%20%u5B58%u4E00%u4E2A3byte%u7684emoji%0A%60%60%60python%0Au%20%3D%20User.objects.get%28id%3D1%29%0Au.user_name%3Db%27%5CxE2%5Cx93%5Cx82%27%0Au.save%28%29%0Au%20%3D%20User.objects.get%28id%3D1%29%0Au.user_name%0A%60%60%60%0A%u6B63%u5E38%u8F93%u51FA%60%27%u24C2%27%60%0A%0A+%20%u5B58%u4E00%u4E2A4byte%u7684emoji%0A%60%60%60python%0A%20u.user_name%3Db%27%5CxF0%5Cx9F%5Cx86%5Cx9A%27%0A%20u.save%28%29%0A%60%60%60%0A%u62A5%u9519%uFF1A%20%60Incorrect%20string%20value%3A%20%27%5CxF0%5Cx9F%5Cx86%5Cx9A%27%20for%20column%20%27user_name%27%60%0A%0A2.%20step2%3A%20%60user_name%60%20character%20set%20%60utf8mb4%60%20db%20%u914D%u7F6E%u540C%u4E0A%0A%0A+%20%u5B58%u4E00%u4E2A4byte%u7684emoji%0A%60%60%60python%0A%20u.user_name%3Db%27%5CxF0%5Cx9F%5Cx86%5Cx9A%27%0A%20u.save%28%29%0A%60%60%60%0A%u62A5%u9519%uFF1A%20%60Incorrect%20string%20value%3A%20%27%5CxF0%5Cx9F%5Cx86%5Cx9A%27%20for%20column%20%27user_name%27%60%0A%0A3.%20step3%3A%20%20googel%u53D1%u73B0%u662Fdb%u914D%u7F6E%u7684%u95EE%u9898%20%u4FEE%u6539%0A%0A%60%60%60python%0ADATABASES%20%3D%20%7B%0A%20%20%20%20%27default%27%3A%20%7B%0A%20%20%20%20%20%20%20%20%27ENGINE%27%3A%20%27django.db.backends.mysql%27%2C%0A%20%20%20%20%20%20%20%20%27NAME%27%3A%20%27lucky_draw%27%2C%0A%20%20%20%20%20%20%20%20%27USER%27%3A%20%27domob%27%2C%0A%20%20%20%20%20%20%20%20%27PASSWORD%27%3A%20%27domob%27%2C%0A%20%20%20%20%20%20%20%20%27HOST%27%3A%20%2710.0.0.200%27%2C%0A%20%20%20%20%20%20%20%20%27PORT%27%3A%20%273306%27%2C%0A%20%20%20%20%20%20%20%20%27CONN_MAX_AGE%27%3A%2025%2C%0A%20%20%20%20%20%20%20%20%27OPTIONS%27%3A%20%7B%27charset%27%3A%20%27utf8mb4%27%7D%2C%0A%20%20%20%20%7D%2C%0A%7D%0A%60%60%60%0A%u91CD%u590D%u4E0A%u8FF0%u6D4B%u8BD5%uFF0C%u53D1%u73B0%u80FD%u5B8C%u7F8E%u7684%u5B58%u53D64byte%u7684utf8%0A%0A%u5230%u6B64%u95EE%u9898%u89E3%u51B3%uFF0C%u901A%u8FC7go%u7A0B%u5E8F%u548Cmysql%20client%u540C%u6837%u5F97%u5230%u9A8C%u8BC1%u3002%0A%0A%u7ED3%u8BBA%uFF1Amysql%u9ED8%u8BA4%u652F%u6301%u7684%u662F%u7CBE%u7B80%u7684utf8%u5B57%u7B26%u96C6%uFF0C%u731C%u60F3%u53EF%u80FD%u548C%u5206%u914D%u5B58%u50A8%u6709%u5173%u7CFB%uFF08%u6BD4%u5982char%u578B%u7684%u957F%u5EA6%u662Fn%20%u5982%u679C%u662Futf8%u96C6%u53EA%u9700%u8981%u5206%u914D3n%u4E2Abyte%u5C31%u597D%uFF0C%u5982%u679C%u662Futf8mb4%u9700%u8981%u5206%u914D4n%u4E2A%u5B58%u50A8%uFF09%0A%0A%u5728%u5B9E%u9645%u64CD%u4F5C%u4E2D%uFF0C%u5982%u679C%u9700%u8981db%u652F%u6301%u5B58%u50A8emoji%2C%u9996%u5148%u9700%u8981field%u7684collection%u8BBE%u7F6E%u80FDutf8mb4%20%u540C%u65F6%u5728%u94FE%u63A5mysql%u7684charset%u65F6%u8981%u58F0%u660E%u8FD9%u79CDcharset.%0A%0A%0A