Як видалити погані символи, які не підходять для кодування utf8 в MySQL?

У мене брудні дані. Іноді він містить такі персонажі. Я використовую ці дані, щоб робити такі запити

За цього персонажа я отримую

org.hibernate.exception.GenericJDBCException: Незаконне поєднання зіставок (utf8_bin, IMPLICIT), (utf8mb4_general_ci, COERCIBLE), (utf8mb4_general_ci, COERCIBLE) для операції 'IN'

Як я можу відфільтрувати такі символи? Я використовую Java.

java

6 Відповіді 6

Коли у мене виникала така проблема, я використовував скрипт Perl, щоб переконатись, що дані перетворюються на дійсний UTF-8, використовуючи такий код:

Цей сценарій приймає (можливо пошкоджений) UTF-8 на stdin і повторно друкує дійсний UTF-8 на stdout. Недійсні символи замінюються на (U + FFFD, символ заміни Unicode).

Якщо ви запускаєте цей сценарій на хорошому вході UTF-8, вихід повинен бути ідентичним вводу.

Якщо у вас є дані в базі даних, має сенс використовувати DBI для сканування таблиць (таблиць) та очищення всіх даних за допомогою цього підходу, щоб переконатися, що все є дійсним UTF-8.

Це однолінійна версія цього ж сценарію Perl:

EDIT: Додано рішення лише для Java.