Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
#Круги добра
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Я хочу получать рассылки с лучшими постами за неделю
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
Создавая аккаунт, я соглашаюсь с правилами Пикабу и даю согласие на обработку персональных данных.
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр Захватывающая аркада-лабиринт по мотивам культовой игры восьмидесятых. Управляйте желтым человечком, ешьте кексы и постарайтесь не попадаться на глаза призракам.

Пикман

Аркады, На ловкость, 2D

Играть

Топ прошлой недели

  • AlexKud AlexKud 38 постов
  • Animalrescueed Animalrescueed 36 постов
  • Oskanov Oskanov 7 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая кнопку «Подписаться на рассылку», я соглашаюсь с Правилами Пикабу и даю согласие на обработку персональных данных.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
0 просмотренных постов скрыто
9
Вопрос из ленты «Эксперты»
necto9
11 дней назад
Лига тыжпрограммистов

Ацкий PDF...⁠⁠

Ацкий PDF... Спроси Пикабу, Компьютерная помощь, Вопрос, Нужен совет, Windows, Pdf, Abbyy, Finereader, Длиннопост

Рабочий ноут:

Ацкий PDF... Спроси Пикабу, Компьютерная помощь, Вопрос, Нужен совет, Windows, Pdf, Abbyy, Finereader, Длиннопост
Ацкий PDF... Спроси Пикабу, Компьютерная помощь, Вопрос, Нужен совет, Windows, Pdf, Abbyy, Finereader, Длиннопост

Загрузка системы:

1) Запускаю проектную документацию вес 33,5 мегабайта 155 страниц – грузит очень долго!

2) Удалил 110 страниц стал весить 23,8 мегабайт.

3) И наконец вишенка, решил чтобы почта наверняка пустила ужать через ABBYY FineReader PDF 15 и и он выдает:

Ацкий PDF... Спроси Пикабу, Компьютерная помощь, Вопрос, Нужен совет, Windows, Pdf, Abbyy, Finereader, Длиннопост

В СМЫСЛЕ ТЕБЕ СУКА МАЛО ПАМЯТИ ?!

Народ что происходит?! у меня уже нервный тик начинается – Виртуальная память автомат включена SSD, памяти вагон и тележка, что программа делает с файлом в 24 мегабайт что ему 7 гигов памяти мало?! Или нужно на IGPU больше памяти выделить? Или заговор разработчиков в виде кривого софта или Windows ?

Что посоветуете, а то у меня работа плотно с PDF связана и уже горит ацки от таких приколов…. 2025 год на дворе блин, а такое ощущение, что компы только медленнее и тупее становятся.

Показать полностью 3
Спроси Пикабу Компьютерная помощь Вопрос Нужен совет Windows Pdf Abbyy Finereader Длиннопост
33
Вопрос из ленты «Эксперты»
skyisred2
11 дней назад

Как перевести комикс (pdf) на русский?⁠⁠

Имеется pdf файл с комиксом на английском языке, нужно перевести на русский. Пыталась загрузить в яндекс браузер, но он не справился. Какие еще есть варианты?

Переводчик Комиксы Текст Вопрос Спроси Пикабу Pdf
15
7
Jelizaveta
15 дней назад
Программирование на python

Легко читайте PDF в Python: Извлечение текста, изображений, таблиц и метаданных⁠⁠

PDF-файлы широко используются для хранения структурированных документов, но программное извлечение их содержимого может быть сложной задачей. К счастью, библиотеки Python для работы с PDF, такие как PyPDF2, pdfplumber и Spire.PDF, предоставляют мощные решения для чтения PDF, позволяя разработчикам легко извлекать текст, изображения, таблицы и метаданные.

В этом блоге мы рассмотрим, как извлекать различные типы содержимого из PDF с помощью библиотеки Spire.PDF.

  • Библиотека Python для чтения PDF-файлов

  • Извлечение текста из поисковых PDF

  • Извлечение изображений, внедренных в PDF-файлы

  • Сбор табличных данных из PDF-документов

  • Доступ к метаданным в PDF-файлах

  • Заключение

Библиотека Python для чтения PDF-файлов

Spire.PDF для Python — это всесторонняя библиотека, которая позволяет разработчикам программно манипулировать PDF-файлами. Она поддерживает:

  • Генерацию PDF с нуля

  • Редактирование существующих документов

  • Объединение или разделение PDF-документов

  • Конвертацию PDF в другие форматы файлов

  • Чтение содержимого PDF-документов

Чтобы установить библиотеку, выполните команду:

pip install spire.pdf

Примечание: Spire.PDF для Python — это коммерческая библиотека, которая добавляет сообщения об оценке в сгенерированные документы. Доступна бесплатная версия, но она ограничивает загрузку PDF до 10 страниц на документ.

Вы также можете установить бесплатную версию через pip:

pip install freespire.pdf

Теперь давайте погрузимся в различные техники извлечения.

Извлечение текста из поисковых PDF

Поисковые PDF содержат выделяемый текст, что делает извлечение простым. Класс PdfTextExtractor в Spire.PDF предоставляет методы для извлечения текста со специфических страниц, в то время как класс PdfTextExtractOptions позволяет настраивать процесс извлечения, например, задавать прямоугольную область для извлечения.

Следующий пример демонстрирует, как извлечь текст со всех страниц PDF и сохранить его в отдельные .txt файлы. Метод ExtractText() извлекает содержимое, сохраняя структуру документа, что обеспечивает сохранение оригинального макета извлеченного текста.

from spire.pdf.common import *

from spire.pdf import *

# Создаем объект PdfDocument

doc = PdfDocument()

# Загружаем PDF-документ

doc.LoadFromFile("C:/Users/Administrator/Desktop/Input.pdf")

# Перебираем страницы документа

for i in range(doc.Pages.Count):

# Получаем конкретную страницу

page = doc.Pages[i]

# Создаем объект PdfTextExtractor

textExtractor = PdfTextExtractor(page)

# Создаем объект PdfTextExtractOptions

extractOptions = PdfTextExtractOptions()

# Устанавливаем IsExtractAllText в True

extractOptions.IsExtractAllText = True

# Извлекаем текст со страницы

text = textExtractor.ExtractText(extractOptions)

# Записываем текст в файл txt

with open('output/TextOfPage-{}.txt'.format(i + 1), 'w', encoding='utf-8') as file:

lines = text.split("\n")

for line in lines:

if line != '':

file.write(line)

doc.Close()

Извлечение изображений, внедренных в PDF-файлы

PDF-файлы часто содержат встроенные изображения, которые можно извлекать программно с помощью класса PdfImageHelper. Этот утилитный класс предоставляет метод GetImagesInfo(), который извлекает все данные изображений с заданной страницы, включая размеры и информацию о пикселях.

Извлеченные изображения можно сохранить в различных форматах, таких как PNG или JPEG. Следующий пример демонстрирует, как просканировать каждую страницу PDF, идентифицировать встроенные изображения и сохранить их как отдельные файлы.

from spire.pdf.common import *

from spire.pdf import *

# Создаем объект PdfDocument

doc = PdfDocument()

# Загружаем PDF-документ

doc.LoadFromFile("C:\\Users\\Administrator\\Desktop\\input.pdf")

# Создаем объект PdfImageHelper

imageHelper = PdfImageHelper()

# Объявляем переменную int

index = 0

# Перебираем страницы

for i in range(0, doc.Pages.Count):

# Получаем конкретную страницу

page = doc.Pages.get_Item(i)

# Получаем всю информацию об изображениях с конкретной страницы

imageInfos = imageHelper.GetImagesInfo(page)

# Перебираем информацию об изображениях

for imageInfo in imageInfos:

# Задаем имя выходного файла изображения

imageFileName = "C:\\Users\\Administrator\\Desktop\\Extracted\\Image-{0:d}.png".format(index)

# Получаем конкретное изображение

image = imageInfo.Image

# Сохраняем изображение в файл png

image.Save(imageFileName)

index += 1

# Освобождаем ресурсы

doc.Dispose()

Сбор табличных данных из PDF-документов

Извлечение структурированных табличных данных из PDF является распространенной задачей для анализа данных. Spire.PDF предоставляет класс PdfTableExtractor, который идентифицирует таблицы в PDF и позволяет извлекать данные на уровне ячеек.

Метод ExtractTable() возвращает список таблиц, каждая из которых может быть обработана построчно. Следующий пример демонстрирует, как извлечь таблицы из PDF и сохранить их в структурированном текстовом формате.

from spire.pdf.common import *

from spire.pdf import *

# Создаем объект PdfDocument

doc = PdfDocument()

# Загружаем PDF-файл

doc.LoadFromFile("C:\\Users\\Administrator\\Desktop\\Input.pdf")

# Создаем список для хранения извлеченных данных

builder = []

# Создаем объект PdfTableExtractor

extractor = PdfTableExtractor(doc)

# Извлекаем таблицы с конкретной страницы (индекс страницы начинается с 0)

tableList = extractor.ExtractTable(0)

# Проверяем, что список таблиц не пуст

if tableList is not None:

# Перебираем таблицы в списке

for i in range(len(tableList)):

# Получаем конкретную таблицу

table = tableList[i]

# Получаем количество строк и столбцов

row = table.GetRowCount()

column = table.GetColumnCount()

# Перебираем строки и столбцы

for m in range(row):

for n in range(column):

# Получаем текст из конкретной ячейки

text = table.GetText(m, n)

# Добавляем текст в список

builder.append(text + " ")

builder.append("\n")

builder.append("\n")

# Записываем содержимое списка в текстовый файл

with open("output/Table-{}.txt".format(i + 1), "w", encoding="utf-8") as file:

file.write("".join(builder))

Доступ к метаданным в PDF-файлах

Метаданные PDF включают свойства документа, такие как заголовок, автор, тема и ключевые слова. Свойство DocumentInformation класса PdfDocument предоставляет доступ к этим деталям.

Следующий пример демонстрирует, как извлечь и отобразить метаданные PDF.

from spire.pdf import *

from spire.pdf.common import *

# Создаем объект PdfDocument

doc = PdfDocument()

# Загружаем PDF-файл

doc.LoadFromFile("C:\\Users\\Administrator\\Desktop\\Input.pdf")

# Получаем информацию о документе

properties = doc.DocumentInformation

# Инициализируем строку для хранения информации о документе

information = ""

# Извлекаем стандартные свойства документа

information += "\nTitle: " + properties.Title

information += "\nAuthor: " + properties.Author

information += "\nSubject: " + properties.Subject

information += "\nKeywords: " + properties.Keywords

# Печатаем свойства документа

print(information)

# Освобождаем ресурсы

doc.Dispose()

Заключение

Статья демонстрирует, как извлекать текст, изображения, таблицы и метаданные из PDF-документа с помощью Python. Следуя примерам в этом руководстве, вы можете эффективно обрабатывать PDF для анализа данных, управления документами и автоматизации.

Показать полностью
Python Pdf Текст Длиннопост
2
4
Families
Families
21 день назад

Как конвертировать Word в PDF прямо в Телеграме (я создатель)⁠⁠

Приветствую всех. Сразу скажу, что мой телеграм бот ПОЛНОСТЬЮ бесплатный, в нём нет никаких подписок, тарифов и прочего. Я хотел сделать просто полезный «инструмент» для людей, и вроде бы получилось. Если вам часто приходится конвертировать с Ворда в ПДФ и обратно, то этот бот будет полезен.

Для того чтобы зайти к нему, нужно ввести логин в телеграм или просто перейти по ссылке @pdf2word_ru_bot.

Как конвертировать Word в PDF прямо в Телеграме (я создатель) Сайт, Бесплатно, Pdf, Microsoft Word, Docx, Doc, Конвертация, Чат-бот, Длиннопост
  1. Нажимаете /start.

  2. Отправляете файл (Word или PDF).

  3. Выбираете, во что конвертировать — например, DOCX или PDF.

  4. Получаете готовый файл и скачиваете.

Как конвертировать Word в PDF прямо в Телеграме (я создатель) Сайт, Бесплатно, Pdf, Microsoft Word, Docx, Doc, Конвертация, Чат-бот, Длиннопост

Прошу прощения, но без ограничений никак. Лично для меня этот проект не бесплатный, так как приходится платить за сервер.

Ограничения:

  • Только один файл за раз.

  • Размер до 15 МБ.

Что касается плюсов (я их тоже вижу):

  • Бесплатно.

  • Без премиум-доступа и рекламы.

  • Бот не хранит ваши файлы (я настроил его так, поэтому не стоит переживать, но файлы остаются в чате).

  • Можно пересылать документы прямо из чатов, не сохраняя их на телефон (очень удобно, если коллеги часто отправляют вам документы прямо в телеграм).

Если PDF не хочет превращаться в DOC, попробуйте в DOCX — почти всегда помогает. И да, в боте есть /donate, он сделан для тех, кому этот инструмент действительно приносит пользу + у пользователя есть возможность отблагодарить разработчика. Спасибо за внимание.

Показать полностью 2
[моё] Сайт Бесплатно Pdf Microsoft Word Docx Doc Конвертация Чат-бот Длиннопост
5
1
LokkiX
1 месяц назад

Ответ на пост «Как перевести excel таблицу в Word (doc)»⁠⁠1

Это заслуживает отдельной записи🤣

Ответ на пост «Как перевести excel таблицу в Word (doc)» Microsoft Excel, Microsoft Word, Конвертер, Инструкция, Гайд, Компьютер, Длиннопост, Pdf, Юмор, Ответ на пост
Ответ на пост «Как перевести excel таблицу в Word (doc)» Microsoft Excel, Microsoft Word, Конвертер, Инструкция, Гайд, Компьютер, Длиннопост, Pdf, Юмор, Ответ на пост
Ответ на пост «Как перевести excel таблицу в Word (doc)» Microsoft Excel, Microsoft Word, Конвертер, Инструкция, Гайд, Компьютер, Длиннопост, Pdf, Юмор, Ответ на пост

#comment_360129380

Показать полностью 3
Microsoft Excel Microsoft Word Конвертер Инструкция Гайд Компьютер Длиннопост Pdf Юмор Ответ на пост
0
5
StanislavGR
1 месяц назад

Как перевести excel таблицу в Word (doc)⁠⁠1

Если вам, как и мне, необходимо конвертировать документ-таблицу из excel в word, то сделать это можно несколькими способами (всегда получается говно, кроме 1 способа).
Сохраняйте, чтобы не потерять. Через 20 лет вам будет чем удивить своего робота с ИИ.

Как перевести excel таблицу в Word (doc) Microsoft Excel, Microsoft Word, Конвертер, Инструкция, Гайд, Компьютер, Длиннопост, Pdf

исходный документ в excel

Первое что приходит на ум - копировать - вставить. разработчик программ же один.
на выходе получаем навоз, который не умещается на страницу, а при попытке выровнять все плывет. Вызываем трактор и увозим навоз на удобрения.

Как перевести excel таблицу в Word (doc) Microsoft Excel, Microsoft Word, Конвертер, Инструкция, Гайд, Компьютер, Длиннопост, Pdf

копировать-вставить

Второй способ, попросить нейросеть сделать все за тебя. Они же считают себя умными, так пусть работают. Вот что выдал чат гпт.

Как перевести excel таблицу в Word (doc) Microsoft Excel, Microsoft Word, Конвертер, Инструкция, Гайд, Компьютер, Длиннопост, Pdf

очередная порция кала на нейросетевом языке

Третий способ. Наверняка же не я один в этим сталкивался. Поищем конвертер excel в doc.
Тут даже скрин прикладывать не буду. Конвертер просто берет картинку и вставляет в doc файл, либо все едет.

Четвертый способ (авторский запатентованный):
1) Сохраняем excel файл в pdf
2) Ищем конвертер PDF в DOC, я использовал https://www.ilovepdf.com/
3) загружаем туда pdf и на выходе получаем офигенскую редактируемую таблицу в doc

Как перевести excel таблицу в Word (doc) Microsoft Excel, Microsoft Word, Конвертер, Инструкция, Гайд, Компьютер, Длиннопост, Pdf

итог

Не читай это смысла нет: 0LHQtdC90YIg0YLQtdGA0LrQvtCy0LXRgA==

Показать полностью 4
[моё] Microsoft Excel Microsoft Word Конвертер Инструкция Гайд Компьютер Длиннопост Pdf
21
1
Roman.Sh
Roman.Sh
1 месяц назад

Как перевести PDF в Word: 4 проверенных способа без лишних заморочек⁠⁠

PDF это как красивая картинка: отлично смотрится, но вносить правки неудобно. Особенно когда нужен срочный доступ к тексту из договора или книги. В этом материале расскажу, как быстро и бесплатно превратить PDF в редактируемый Word-документ, не потеряв форматирование и без сложностей.

Как перевести PDF в Word: 4 проверенных способа без лишних заморочек Pdf, Конвертация, Маркетинг, Длиннопост

1. iLovePDF — быстро и без регистрации

https://www.ilovepdf.com/

Этот сервис идеально подойдёт, если хочется сделать всё максимально просто: загрузил файл — получил Word.

Преимущества:

  • Очень понятный интерфейс — пару кликов и готово.

  • Не требует регистрации и дополнительных действий.

  • Форматирование обычно сохраняется отлично.

Как перевести PDF в Word: 4 проверенных способа без лишних заморочек Pdf, Конвертация, Маркетинг, Длиннопост

Ограничения:

  • Есть лимит по размеру файла в бесплатной версии.

  • Итоговый документ иногда получается больше исходного.

Идеально для: быстрой конвертации без лишних хлопот.

2. Google Docs — когда не хочется ставить программы

Просто загружаете PDF в Google Диск, открываете его через Google Docs — и получаете текст для редактирования.

Как перевести PDF в Word: 4 проверенных способа без лишних заморочек Pdf, Конвертация, Маркетинг, Длиннопост

Плюсы:

  • Не нужно ничего скачивать.

  • Всё работает прямо в браузере.

Минусы:

  • Могут потеряться сложные элементы верстки.

  • Иногда обрабатывается не весь документ.

Подойдёт для: простых и небольших файлов без сложного дизайна.

3. PDFelement — профессиональный инструмент для частой работы с PDF

pdf.wondershare.com

Если PDF — ваша повседневная задача, этот редактор — отличный помощник.

Как перевести PDF в Word: 4 проверенных способа без лишних заморочек Pdf, Конвертация, Маркетинг, Длиннопост

Преимущества:

  • Отличный способ для распознавания даже некачественных сканов.

  • Позволяет работать с пакетами файлов.

Недостатки:

  • Бесплатно доступно только 3 страницы.

  • Полный функционал — по подписке (около 2500 рублей в год).

Для кого: для тех, кто часто конвертирует и редактирует PDF.

4. Nanonets — для работы с таблицами и Excel

Если ваш PDF — это таблицы и нужно получить именно Excel, этот сервис лучший выбор.

Как перевести PDF в Word: 4 проверенных способа без лишних заморочек Pdf, Конвертация, Маркетинг, Длиннопост

Преимущества:

  • Сохраняет структуру таблиц.

  • Помогает быстро перенести данные в Excel.

Минусы:

  • Не подходит для обычного текста.

  • Интерфейс может показаться сложным в освоении.

Лучше всего для: финансовых отчётов, выписок и любых табличных PDF.

Как выбрать подходящий способ?

  • Быстро и бесплатно — выбирайте iLovePDF.

  • Небольшие, простые файлы — Google Docs.

  • Регулярная и сложная работа с PDF — PDFelement.

  • Таблицы в PDF — Nanonets.

Если используете другие способы или сервисы — расскажите в комментариях. Хорошие инструменты всегда пригодятся!

Показать полностью 5
[моё] Pdf Конвертация Маркетинг Длиннопост
7
5
0617
0617
2 месяца назад
1C:Предприятие 8

1С и ДокументPDF⁠⁠

Столкнулся со странностью, прошу совета.
Тонкий клиент, платформа 8.3.23.2040.


В клиентской процедуре нужно показать файл на форме, в другой клиентской процедуре - переименовать файл, файлы локально на клиенте.

Есть реквизит формы ПДФ с типом ДокументPDF, вынесен на форму в поле с видом Поле PDF документа.

Процедура П1()
_____ФайлПДФ = "какой-то файл";
_____ПДФ.Прочитать(ФайлПДФ);
КонецПроцедуры;

Процедура П2()
_____ПереместитьФайл(ФайлПДФ, ДругойФайл);
//Просто так переименовать не получается - файл занят.
КонецПроцедуры;

Пробовал так:

Процедура П2()

_____ПустойПДФ = Новый ДокументPDF();

_____ПДФ = ПустойПДФ;

_____ПереместитьФайл(ФайлПДФ, ДругойФайл); //Всё равно выходит та же ошибка.

КонецПроцедуры;

Но если вставить серверный вызов, то всё работает.

Процедура П2()

_____ПустойПДФ = Новый ДокументPDF();

_____ПДФ = ПустойПДФ;

_____КакаяТоПроцедураНаСервере();

_____ПереместитьФайл(ФайлПДФ, ДругойФайл); //Работает идеально

КонецПроцедуры;

Дело не в задержке перед переименованием - ждал до минуты, не отпускает.

Показать полностью
1С Pdf Вопрос Текст
12
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии