Сохранить результаты преобразования PDF в текст, отображаемые в консоли R Studio в формате .txt

rod спросил: 12 мая 2018 в 03:52 в: r

Я относительно новичок в R. Я пытаюсь преобразовать PDF в текст, используя следующий код.

library(tm)
file<-list.files("G:\\FlashPointTest\\Test1\\test")
file<-list.files(pattern = "pdf$")
fileRpdf<-readPDF(control = list(text="-layout"))
Myfile<-Corpus(URISource(file,encoding = "UTF-8"), readerControl = list(reader=Rpdf))
Myfile
inspect(Myfile[[2]])

Все работает отлично с точки зрения точности. Однако я хотел бы сохранить результаты преобразования pdf в текст (после команды "проверка"), отображаемого в консоли R Studio в формате .txt. См. Вложение

Я попытался, но получил результат:

error: "не может принуждать класс" c ("VCorpus", "Corpus") "к data.frame"

Пожалуйста, помогите. Спасибо Не могу вызвать ошибку класса

2 ответа

rod ответил: 12 мая 2018 в 04:29
Большое спасибо за ваши отзывы. ваше описание отражает то, что я делаю. Тем не менее, я попробовал "writeCorpusMyfile [2]", и у меня возникла ошибка: "Ошибка: length (x) == length (filenames) не TRUE" или "невозможно открыть сжатый файл". В очередной раз благодарим за помощь.
phiver ответил: 12 мая 2018 в 04:04

Если вы хотите записать текст корпуса на диск, вы можете использовать функцию writeCorpus из пакета tm

В вашем случае writeCorpus(Myfile) будет записывать все документы в корпусе на диск в виде отдельных файлов (если у вас есть несколько документов в корпусе).

Вы только первый документ writeCorpus(Myfile[1]).

Вы также можете изменить путь или имена файлов. Просто проверьте документацию с помощью writeCorpus

phiver ответил: 12 мая 2018 в 06:13
что происходит, когда вы делаете writeCorpus(Myfile)?
rod ответил: 12 мая 2018 в 06:13
Наконец, решение отлично работает. Я смог извлечь каждый документ в корпусе и сохранить его в формате .txt. Большое спасибо, ты только что спас мой день !!!
rod ответил: 13 мая 2018 в 11:48
Привет, Фипер. Куда пойти, чтобы принять ответы. (Я новичок на платформе). благодаря