WindowsのTSVファイルからLinuxを使ってSQL文を生成するには

WindowsのTSVファイルからLinuxを使ってSQL文を生成したくなるときがあります。load dataとか使ってもいいのですが、やはり中間表現としてSQLに落とせると安心しませんか。もちろん、間にいろいろな変換処理をかませたいときもありますしね。
続きを読む

ISO-8859-1 を UTF-8 に変換すると文字化けするとき

ISO/IEC 8859-1 – Wikipedia にあるとおり、ISO-8859-1 ではアキュート・アクセントを指定することができます。そういった文字を含むテキストを iconv を使って変換したところ、アキュート・アクセントがうまく変換できませんでした。いろいろ調べてもわからなかったので、Javaで変換することにして目処がたったのですが、ふと、もともとのテキストデータがWindows-1252を間違えてISO-8859-1と指定したデータだったのかもしれないなぁ、と思い直しました。ということで、iconvへWindows-1252を指定したら、変換できました。

問題は解決したのですが、Javaプログラムも途中まで作ったので紹介しておきます。
続きを読む

SHIFT_JISX0213も使うと便利

iconvを使って文字変換をしたところ、丸囲み文字が文字化けしました。どうすればいいかと思ったところ、SHIFT_JISX0213 を指定すればよいということで、無事変換できました。最近はなんでもUTF-8にしておけばいいので、楽になりました。まぁ、UTF-8でも足りないのですけどね…