Pandas read.csv с китайскими буквами

Markus LnGa спросил: 10 мая 2018 в 04:32 в: python

Я хочу прочитать csv с китайскими буквами. Я использую "," dilimiter с кодировкой UTF-8. Проблема заключается в том, что Python генерирует столбец "Без имени: 0", и я не понимаю, почему. Кажется, что сама кодировка работает.

Код:

dataset = pd.read_csv("C:/Users/MyLady17/Downloads/data2.csv", "utf-8", delimiter = ",")

1 ответ

Есть решение
thebjorn ответил: 10 мая 2018 в 04:47

Стандартные правила цитирования для csv говорят, что " цитируются удвоением, поэтому в вашей строке, начинающейся с 3, четыре """" интерпретируются как два кавычки ".

Вы не показываете конец строки, но, возможно, первоначальный " на каждой строке не должен быть там?

Смотрите quotechar, цитирование и двойное цитирование в документах: http://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.read_csv.html для получения дополнительной информации.

thebjorn ответил: 10 мая 2018 в 04:58
Да, используя параметры quotechar, quoting и doublequote для read_csv() - но похоже, что они цитируют что-то, потому что их четыре подряд ...
Markus LnGa ответил: 10 мая 2018 в 04:57
спасибо, очень хороший момент. Есть ли способ сказать Python, что"""" не цитируется"?
Markus LnGa ответил: 10 мая 2018 в 05:06
Нет, "похоже, что это похоже на NA.
Markus LnGa ответил: 10 мая 2018 в 05:10
dataset = pd.read_csv ("C: /Users/MyLady17/Downloads/data2.csv","utf-8", delimiter =",", na_values ​​="''") ParserError: данные по токенизации ошибок. C error: EOF внутри строки, начиная с строки 80. Я думаю, что что-то не так с моими данными. Надо проверить его с моим коллегой. Спасибо вам до сих пор :-)
thebjorn ответил: 10 мая 2018 в 05:08
Итак, каков правильный распад первых 3-4 столбцов в строке, начинающейся с 3?

Дополнительное видео по вопросу: Pandas read.csv с китайскими буквами

Python Pandas Tutorial 4: Read Write Excel CSV File

Python Pandas CSV Data Read Write

Pandas with Python 2.7 Part 3 - Reading from and saving to CSV