Я относительно новичок в R. Я пытаюсь преобразовать PDF в текст, используя следующий код.
library(tm)
file<-list.files("G:\\FlashPointTest\\Test1\\test")
file<-list.files(pattern = "pdf$")
fileRpdf<-readPDF(control = list(text="-layout"))
Myfile<-Corpus(URISource(file,encoding = "UTF-8"), readerControl = list(reader=Rpdf))
Myfile
inspect(Myfile[[2]])
Все работает отлично с точки зрения точности. Однако я хотел бы сохранить результаты преобразования pdf в текст (после команды "проверка"), отображаемого в консоли R Studio в формате .txt. См. Вложение
Я попытался, но получил результат:
error: "не может принуждать класс" c ("VCorpus", "Corpus") "к data.frame"
Пожалуйста, помогите. Спасибо Не могу вызвать ошибку класса
Если вы хотите записать текст корпуса на диск, вы можете использовать функцию
writeCorpus
из пакетаtm
В вашем случае
writeCorpus(Myfile)
будет записывать все документы в корпусе на диск в виде отдельных файлов (если у вас есть несколько документов в корпусе).Вы только первый документ
writeCorpus(Myfile[1])
.Вы также можете изменить путь или имена файлов. Просто проверьте документацию с помощью
writeCorpus
writeCorpus(Myfile)
?