Contents

C# CSV 分割字串 Split 逗號 比較安全轉換方法

一般我常見程式解析 csv 程式都是用 split(',') 去解析不同欄位資料,但有經驗的工程師知道這個不是一個安全作法,可能會找額外 csvParse工具來解析。今天我看舊程式遇到這種方法,剛好有bug要解這個,有看到網路有一種比較安全轉換方法。

正規化解法

1
2
3
4
5
6
7
8
9
string csv = "John,Doe,123 Main St,\"Anytown, USA\",55555";
string pattern = ",(?=(?:[^\"]*\"[^\"]*\")*(?![^\"]*\"))";

string[] result = Regex.Split(csv, pattern);

foreach (string s in result)
{
    Console.WriteLine(s);
}

參考: c# regex split csv with quotes-掘金 備份圖

實作方法

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
string csvString = "id,name,age\n1,John,30\n2,Jane,25\n3,Bob,40";
string[] lines = csvString.Split(new[] { '\n', '\r' }, StringSplitOptions.RemoveEmptyEntries);
DataTable dt = new DataTable();
string[] headers = lines[0].Split(',');
foreach (string header in headers)
{
	dt.Columns.Add(header);
}
foreach (string line in lines.Skip(1))
{
	string[] values = line.Split(',');
	DataRow row = dt.NewRow();
	for (int i = 0; i < headers.Length; i++)
	{
		row[i] = values[i];
	}
	dt.Rows.Add(row);
}
string json = JsonConvert.SerializeObject(dt, Newtonsoft.Json.Formatting.Indented);
Console.WriteLine(json);

上面方法可以用 Regex 改寫方法。

另類寫法可以參考用。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43

ParseCsv("id,\"nameff\",age\n1,John,30\n2,Jane,25\n3,Bob,40").Dump();
string ParseCsv(string csv)
{
	string json = string.Empty;

	string[] lines = csv.Replace("\\", "").Split(new string[] { "\r\n","\n" }, System.StringSplitOptions.RemoveEmptyEntries);
	if (lines.Length > 1)
	{
		string pattern = ",(?=(?:[^\"]*\"[^\"]*\")*(?![^\"]*\"))";
		// parse headers
		string[] headers = Regex.Split(lines[0].Trim(), pattern);

		StringBuilder sbjson = new StringBuilder();
		sbjson.Clear();
		sbjson.Append("[");

		// parse data
		for (int i = 1; i < lines.Length; i++)
		{
			if (string.IsNullOrWhiteSpace(lines[i])) continue;
			if (string.IsNullOrEmpty(lines[i])) continue;

			sbjson.Append("{");
			
			string[] data = Regex.Split(lines[i].Replace("\n", "").Trim().Trim('?', '"'), pattern);

			for (int h = 0; h < headers.Length; h++)
			{
				sbjson.Append(
					$"\"{headers[h]}\": \"{data[h].Trim('?', '"')}\"" + (h < headers.Length - 1 ? "," : null)
				);
			}

			sbjson.Append("}" + (i < lines.Length - 1 ? "," : null));
		}

		sbjson.Append("]");

		json = sbjson.ToString();
	}
	return json;
}

彩蛋

csv2json