浅谈Java读取Csv实践

时间:2012-10-31 来源:弘智教育点击: 次

　看项目中以前的处理方式是直接用用java IO类库读取Csv文件，实际处理中发现Csv文件本身包含了对各种特殊字符的处理信息。

最常见的比如：

1. 对包含特殊字符的字符串数据首尾加双引号

2. 对数据中的单个双引号前加单个双引号

其它...

所以用Java IO读到的字符串全是经过处理后的字符串，在某些场景下是不符合预期需求的。比如我需要的是不做任何处理的原始内容。

项目中另一种常见的文件格式Excel用了POI来处理，但是POI不支持Csv格式，于是找到了javacsv。

代码很简单：

Java代码

public List importCsv(String file) {

List list = new ArrayList();

CsvReader reader = null;

try {

//初始化CsvReader并指定列分隔符和字符编码

reader = new CsvReader(file, ',', Charset.forName("GBK"));

while (reader.readRecord()) {

//读取每行数据以数组形式返回

String[] str = reader.getValues();

if (str != null && str.length > 0) {

if (str[0] != null && !"".equals(str[0].trim())) {

list.add(str);

}

} catch (FileNotFoundException e) {

log.error("Error reading csv file.",e);

} catch (IOException e) {

log.error("",e);

}

finally{

if(reader != null)

//关闭CsvReader

reader.close();

}

return list;

}

以上代码有几个要点：

1 初始化CsvReader时指定分隔符和字符编码，如果不指定，默认分别为逗号和ISO-8859-1，我用了GBK，具体使用时要看当时的字符编码而定。

2 读取每行数据，返回字符串数组，数组内的顺序即文件数据列的顺序

3 最后记得关闭CsvReader

是不是很简单，返回的数组格式也正好是我想要的，而且拿到是原始的数据，没有经过特殊字符处理。

有些童鞋质疑特殊字符未经处理，插到数据库会出错，其实大可不必我们手工处理，一些基础组件比如JDBC的preparedstatement已经包含了对特殊字符的处理，我们只要以绑定参数的形式来传送这些包含特殊字符的数据就可以。常用的持久化框架底层也封装了JDBC，自然也对特殊字符做了处理。