Javaで簡単に文字コードを自動判別するライブラリ！文字化けさせずにファイルインポートでバイト情報に変換する方法！

トップ
プログラミング
Java
Javaで簡単に文字コードを自動判別するライブラリ！文字化けさせずにファイルインポートでバイト情報に変換する方法！

スポンサードリンク

Javaで簡単に文字コードを自動判別するライブラリ！文字化けさせずにファイルインポートでバイト情報に変換する方法！

2015年06月27日 [Java]

様々なプログラムを組んでいて外部ファイルのインポートやエクスポートを機能を実装したい時、
ファイルの形式、文字コードなどを考慮した設計にする必要がありますよね。

ファイルの形式はMimeTypeなどを指定してあげれば、
簡単に判定をかけれますが、問題はファイルの文字コードの方です。

プログラミングをしている人なら一度は経験したことがあるのではないでしょうか？

プログラムに読み込ませた外部ファイルが文字化けして、
エラーになってしまったり、うまく動作しなくなってしまったなんてことがありますよね。

特にプログラムの利用者はインポートするファイルの文字コードを意識しないので、
プログラム側で対応していない文字コード情報が直接的な不具合の原因に繋がるかもしれません。

文字コードを意識したコーディングが重要

よくある手法のひとつとして、ファイルのインポート時に、
ユーザーにインポートするファイルの文字コードを選択してもらうというものがあります。

ファイルはプログラム内ではストリーム形式で処理され、
実データはバイト単位の情報を元に、文字コードを識別して文字列として変換します。

この処理の際に必要なのが文字コードの書式であり、
ストリーム形式で取得した情報を文字コードに対応させ、バイト情報として扱いますね。

ですが、プログラマとしてはユーザーに文字コードを意識させることなく、
システムを運用していくような想定で設計・開発していくのが望ましいです。

ならばどうするかと言いますと、入力されたストリーム形式の情報の
文字コードを自動判別してあげて、バイト情報に変換する前に、文字コードを確定してあげる必要があります。

今回はJavaを例に文字コードの自動判別機能を実装するためのサンプルプログラムをご紹介したいと思います。

Javaでインポートされたファイルの文字コードを自動判別する方法

まずは文字コードを自動判別させるクラスをひとつ定義します。
String型で受け取ったファイルパスをそのままストリームでバイト変換する前に利用します。

FileCharDetecter.class

package jp.co.sample;

import org.mozilla.universalchardet.UniversalDetector;

/**
 * 文字コードを判定するクラス.
 * @author Administrator
 */
public class FileCharDetecter {

  private String file;

  // コンストラクタ
  public FileCharDetecter(String file) {
    this.file = file; 
  }
  /**
   * 文字コードを判定するメソッド.
   * @param ファイルパス
   * @return 文字コード
   */
  public String detector() throws java.io.IOException {
    byte[] buf = new byte[4096];
    String fileName = this.file;
    java.io.FileInputStream fis = new java.io.FileInputStream(fileName);

    // 文字コード判定ライブラリの実装
    UniversalDetector detector = new UniversalDetector(null);

    // 判定開始
    int nread;
    while ((nread = fis.read(buf)) > 0 && !detector.isDone()) {
      detector.handleData(buf, 0, nread);
    }
    // 判定終了
    detector.dataEnd();

    // 文字コード判定
    String encTyle = detector.getDetectedCharset();
    if (encoding != null) {
      System.out.println("文字コード = " + encType);
    } else {
      System.out.println("文字コードを判定できませんでした");
    }

    // 判定の初期化
    detector.reset();
    
    return encType;
  }
}

package jp.co.sample;

import org.mozilla.universalchardet.UniversalDetector;

/**

* 文字コードを判定するクラス.

* @author Administrator

public class FileCharDetecter {

private String file;

// コンストラクタ

public FileCharDetecter(String file) {

this.file = file;

}

/**

* 文字コードを判定するメソッド.

* @param ファイルパス

* @return 文字コード

public String detector() throws java.io.IOException {

byte[] buf = new byte[4096];

String fileName = this.file;

java.io.FileInputStream fis = new java.io.FileInputStream(fileName);

// 文字コード判定ライブラリの実装

UniversalDetector detector = new UniversalDetector(null);

// 判定開始

int nread;

while ((nread = fis.read(buf)) > 0 && !detector.isDone()) {

detector.handleData(buf, 0, nread);

}

// 判定終了

detector.dataEnd();

// 文字コード判定

String encTyle = detector.getDetectedCharset();

if (encoding != null) {

System.out.println("文字コード = " + encType);

} else {

System.out.println("文字コードを判定できませんでした");

}

// 判定の初期化

detector.reset();

return encType;

}

文字コードを判定させたい処理をコーディングしたクラスに、
上記のFileCharDetecter.classをインポート指定してあげます。

使い方は文字コードを判定させたいファイルのパスをこのクラスに通してあげて、
返ってきた文字コードをストリームのバイト変換時に使用するというものです。

以下は文字コードを判定し、そのままバイト変換するサンプルコードを記載しています。

// 文字コード判定処理
String filePath = "ファイルパスを指定して下さい";
String line;
BufferedReader br;

// 変数fdのdetector() : メソッドを実行すると文字コードが判定可能
FileCharDetector fd = new FileCharDetector(filePath);
	
//BufferdReaderで文字列情報を変換
br = new BufferedReader(new InputStreamReader(
   new FileInputStream( new File(filePath)) ,fd.detector()));

// 1行単位で文字列を出力する
while( (line=br.readLine())!=null ) System.out.println(line);