Jelizaveta

На Пикабу
204 рейтинг 13 подписчиков 0 подписок 46 постов 0 в горячем
8

Учебник по Python: Легко конвертируйте DOCX в TXT и TXT в DOCX

Конвертация между DOCX (документы Word) и TXT (простые текстовые файлы) — это обычная задача в обработке документов, извлечении данных и автоматизации рабочих процессов. В этом посте блога мы рассмотрим, как конвертировать DOCX в TXT и TXT в DOCX, используя библиотеку Free Spire.Doc для Python .

Зачем конвертировать между DOCX и TXT?

DOCX файлы богаты форматированием и поддерживают различные функции, такие как изображения, стили и гиперссылки. Однако они могут быть громоздкими, когда вам нужен только простой текст для быстрых правок или извлечения данных. С другой стороны, TXT файлы лёгкие и универсально совместимы, но не имеют форматирования.

Конвертация между этими форматами предоставляет гибкость в обработке документов, позволяя вам:

  • Извлекать чистый текст из отформатированных документов

  • Превращать простой текст в профессионально оформленные документы

  • Упрощать рабочие процессы обработки документов

Предварительные требования

Перед тем, как погрузиться в код, убедитесь, что у вас есть следующее:

  1. Установленный Python на вашем компьютере.

  2. Библиотека Free Spire.Doc для Python . Вы можете установить её с помощью pip:
    bash

    pip install spire.doc.free

  3. Текстовый редактор или IDE для написания кода на Python.

  4. Примерные файлы DOCX и TXT для тестирования.

Конвертация DOCX в TXT на Python

Следующий код читает документ Word (Sample.docx) и сохраняет его содержимое в качестве простого текстового файла (DocxToTxt.txt).

from spire.doc import *

from spire.doc.common import *

# Создать объект Document

document = Document()

# Загрузить файл docx

document.LoadFromFile("C:/Users/Administrator/Desktop/Sample.docx")

# Сохранить файл docx в формате txt

document.SaveToFile("DocxToTxt.txt", FileFormat.Txt)

document.Close()

В этом коде:

  • Создаётся объект Document для работы.

  • Метод LoadFromFile используется для загрузки файла DOCX из указанного пути.

  • Документ сохраняется в формате TXT с использованием метода SaveToFile.

Конвертация TXT в DOCX на Python

В зависимости от того, хотите ли вы применить форматирование программно, вы можете конвертировать текстовый файл (TXT) в файл DOCX, используя один из следующих двух методов:

Метод 1: Простое решение (без форматирования)

Этот базовый подход создаёт документ Word с содержимым TXT, но без специального форматирования.

from spire.doc import *

from spire.doc.common import *

# Создать объект Document

document = Document()

# Загрузить файл txt

document.LoadFromFile("C:/Users/Administrator/Desktop/Sample.txt")

# Сохранить файл txt как файл docx

document.SaveToFile("TxtToDocx.docx", FileFormat.Docx2016)

document.Close()

В этом коде:

  • Создаётся объект Document.

  • Файл TXT загружается с помощью метода LoadFromFile.

  • Документ затем сохраняется в формате DOCX.

Метод 2: Расширенное решение (с форматированием)

Для более профессиональных результатов вы можете применить форматирование во время конвертации:

from spire.doc import *

# Функция для форматирования textRange

defformat_textRange(textRange, font_name, font_size, color):

# Установить свойства шрифта

textRange.CharacterFormat.FontName = font_name

textRange.CharacterFormat.FontSize = font_size

textRange.CharacterFormat.TextColor = color

# Чтение файла TXT и разделение на абзацы

withopen("C:/Users/Administrator/Desktop/Sample.txt", "r") as file:

content = file.read()

# Разделение содержимого на абзацы с помощью пустых строк

paragraphs = content.split('\n\n')

# Создать новый объект Document

document = Document()

section = document.AddSection()

section.PageSetup.Margins.All = 40

# Обработка каждого абзаца и добавление его в документ

for idx, para inenumerate(paragraphs):

# Удалить пробелы и пропустить пустые абзацы

para = para.strip()

ifnot para:

continue

# Создать новый абзац в документе

new_paragraph = section.AddParagraph()

text_range = new_paragraph.AppendText(para)

# Применить разные форматы в зависимости от индекса абзаца

if idx % 2 == 0: # Пример: четные абзацы

format_textRange(text_range, font_name="Times New Roman", font_size=18, color=Color.get_Red())

else: # Нечётные абзацы

format_textRange(text_range, font_name="Times New Roman", font_size=13, color=Color.get_Blue())

# Добавить пустой абзац после каждого форматированного абзаца

section.AddParagraph()

# Сохранить документ как DOCX

document.SaveToFile("TxtToFormattedDocx.docx", FileFormat.Docx2016)

document.Dispose()

В этом коде:

  • Определена функция format_textRange для применения определённых свойств шрифта (название шрифта, размер и цвет) к объекту TextRange.

  • Файл TXT открывается, его содержимое читается и разделяется на абзацы на основе пустых строк.

  • Создаётся объект Document, и добавляется секция с указанными полями.

  • Каждый абзац обрабатывается, форматируется и добавляется в документ. Чётные абзацы оформляются красным цветом и большим размером, а нечётные — синим и меньшим размером.

  • Пустой абзац создаётся после каждого форматированного абзаца для улучшения читаемости.

  • Наконец, документ сохраняется как файл DOCX.

Заключение

В этом посте блога мы продемонстрировали, как конвертировать DOCX в TXT для извлечения содержимого обычного текста, что делает работу с текстовыми данными более удобной без отвлекающего форматирования.

Кроме того, мы показали, как конвертировать TXT в DOCX, предлагая как базовые, так и расширенные варианты форматирования для улучшения общего представления вашего текста.

Показать полностью 3
5

5 задач обработки Word-документов, которые должен автоматизировать каждый Python-разработчик

Документы Word по-прежнему глубоко встроены в бизнес-процессы. Будь то генерация контрактов, извлечение данных из отчётов, конвертация файлов или объединение нескольких документов — многие из этих задач до сих пор выполняются вручную. Это не только отнимает время, но и чревато ошибками.

Python предлагает богатую экосистему библиотек, которые могут автоматизировать практически все аспекты обработки документов Word. В этой статье мы рассмотрим пять практических задач, которые должен уметь автоматизировать каждый Python-разработчик. Мы сосредоточимся на инструментах с открытым исходным кодом, где это возможно, а для сложного случая конвертации в PDF предложим как бесплатное решение с высоким качеством, так и его коммерческую альтернативу.

На этой странице:

  • Задача 1: Генерация документов Word из шаблонов

  • Задача 2: Извлечение структурированных данных из файлов Word

  • Задача 3: Сравнение двух документов Word на предмет изменений

  • Задача 4: Конвертация документов Word в PDF

  • Задача 5: Объединение нескольких документов Word в один

  • Заключение

Задача 1: Генерация документов Word из шаблонов

Зачем это автоматизировать?

Многие приложения нуждаются в создании динамических документов, таких как:

  • Счета и квитанции

  • Трудовые договоры

  • Сертификаты о завершении

  • Ежемесячные клиентские отчёты

Ручное редактирование каждого экземпляра — повторяющаяся и медленная задача. Используя шаблон и подставляя данные, вы можете сгенерировать сотни документов за секунды.

Рекомендуемый инструмент: python-docx-template

Эта библиотека построена на основе python-docx и интегрирует шаблонизатор Jinja2. Вы просто размещаете заполнители вида {{ customer_name }} внутри шаблона .docx, а затем визуализируете его с вашими данными.

Преимущества:

  • Открытый исходный код (лицензия MIT)

  • Сохраняет всё форматирование шаблона

  • Поддерживает циклы и условия (используя синтаксис Jinja2)

Ограничение: Очень сложная логика или вложенные таблицы могут потребовать дополнительной осторожности, но для 95% случаев использования библиотека работает безупречно.

Пример кода

Сначала установите библиотеку:

pip install python-docx-template

Создайте файл шаблона invoice_template.docx с заполнителями:

Счёт для {{ customer_name }}

Дата: {{ date }}

Итоговая сумма: ${{ total }}

Затем сгенерируйте итоговый документ:

from docxtpl import DocxTemplate

doc = DocxTemplate("invoice_template.docx")

context = {

"customer_name": "Алиса Джонсон",

"date": "2026-06-03",

"total": "1299.99"

}

doc.render(context)

doc.save("invoice_alice.docx")

Лучшие сценарии использования

  • Автоматизированные системы выставления счетов

  • Генерация кадровых документов

  • Создание сертификатов для онлайн-курсов

Задача 2: Извлечение структурированных данных из файлов Word

Зачем это автоматизировать?

Вы часто получаете документы Word, содержащие ценные данные в таблицах, формах или результатах опросов. Копирование и вставка этих данных в базу данных или CSV-файл — утомительное занятие, чреватое ошибками. Автоматизация извлечения позволяет передавать данные напрямую в ваш конвейер обработки.

Рекомендуемый инструмент: python-docx

python-docx — это фактический стандарт для чтения и записи файлов .docx. Он предоставляет доступ к абзацам, таблицам, элементам форматирования (runs) и стилям. Хотя он не поддерживает файлы .doc (старый двоичный формат), они становятся всё более редкими.

Ограничения, о которых следует знать:

  • Библиотека сначала читает все абзацы, затем все таблицы — вы не можете легко восстановить смешанный макет (текст → таблица → текст).

  • Для сложных манипуляций со стилями часто приходится работать на уровне XML.

Пример кода

from docx import Document

doc = Document("survey_results.docx")

# Извлечение всех данных из таблиц

for idx, table in enumerate(doc.tables):

print(f"--- Таблица {idx+1} ---")

for row in table.rows:

row_data = [cell.text.strip() for cell in row.cells]

print(", ".join(row_data))

Если вам нужно экспортировать данные в CSV-файл:

import csv

with open("extracted_data.csv", "w", newline="", encoding="utf-8") as f:

writer = csv.writer(f)

for table in doc.tables:

for row in table.rows:

writer.writerow([cell.text.strip() for cell in row.cells])

Лучшие сценарии использования

  • Перенос устаревших данных из форм Word в базу данных

  • Агрегация финансовых данных из нескольких ежемесячных отчётов

  • Анализ содержимого больших коллекций документов

Задача 3: Сравнение двух документов Word на предмет изменений

Зачем это автоматизировать?

Когда контракт, политика или спецификация пересматриваются, вам нужен быстрый способ увидеть, что изменилось. Ручное сравнение «бок о бок» ненадёжно, особенно для длинных документов. Автоматизированное сравнение может мгновенно выделить добавления, удаления и изменения.

Рекомендуемый инструмент: difflib + python-docx

Поскольку создать чистое open-source решение для получения вывода Word с отслеживанием изменений очень сложно, мы будем использовать встроенный в Python модуль difflib для сравнения необработанного текста двух документов. Это даёт вам быстрый, поддающийся скриптованию способ обнаружения различий.

Ограничения:

  • Он не создаёт документ Word с отметками о правках (красной строкой).

  • Он сравнивает абзацы, а не символы (но вы можете его адаптировать).

  • Старые файлы .doc не поддерживаются.

Для юридически значимого сравнения (отслеживание изменений внутри файла Word) вам понадобится коммерческая библиотека, такая как Aspose.Words. Однако для большинства внутренних проверок и обнаружения изменений подхода на основе текста вполне достаточно.

Пример кода

from docx import Document

import difflib

def get_paragraph_texts(docx_path):

doc = Document(docx_path)

return [p.text for p in doc.paragraphs if p.text.strip()]

original = get_paragraph_texts("contract_v1.docx")

revised = get_paragraph_texts("contract_v2.docx")

diff = difflib.unified_diff(

original, revised,

fromfile="Оригинал",

tofile="Изменённый",

lineterm=""

)

for line in diff:

print(line)

Чтобы сделать вывод более читаемым, вы можете записать его в HTML-отчёт:

html_diff = difflib.HtmlDiff()

with open("diff_report.html", "w") as f:

f.write(html_diff.make_file(original, revised, "Оригинал", "Изменённый"))

Лучшие сценарии использования

  • Аудит изменений в юридических контрактах

  • Отслеживание обновлений в нормативных документах

  • Сравнение студенческих работ с эталонным документом

Задача 4: Конвертация документов Word в PDF

Зачем это автоматизировать?

PDF — это универсальный формат для распространения, печати и архивирования. Ручная конвертация (открыть Word → Сохранить как PDF) становится узким местом, когда вам нужно ежедневно конвертировать десятки или сотни файлов. Автоматизация устраняет этот шаг и встраивает конвертацию в ваш конвейер обработки.

Основная рекомендация: docx2pdf (бесплатное, наивысшее качество)

docx2pdf — это не парсер, а тонкая обёртка, которая использует сам Microsoft Word для выполнения конвертации — точно так же, как операция «Сохранить как PDF», которую вы делаете вручную. Поэтому макет, шрифты, таблицы, колонтитулы воспроизводятся идеально.

Требования:

  • Microsoft Word должен быть установлен на компьютере (Windows или macOS).

  • Скрипт запускается в той же операционной системе, где доступен Word.

Ограничения:

  • Не работает на Linux-серверах (нет Word).

  • Головные серверные среды (например, Docker без графического интерфейса) не могут надёжно запускать эту библиотеку.

Если вы соответствуете требованиям, это лучшее бесплатное решение из доступных.

Пример кода

pip install docx2pdf

from docx2pdf import convert

# Конвертация одного файла

convert("report.docx", "report.pdf")

# Конвертация всех .docx файлов в папке

convert("input_folder/", "output_folder/")

Запасное решение: Spire.Doc для Python (когда Word недоступен)

Если вы работаете на Linux-сервере или в среде, где Microsoft Office не может быть установлен, вы можете использовать коммерческую библиотеку, такую как Spire.Doc. Она не зависит от Word и работает полностью автономно.

Примечание: Бесплатная версия имеет ограничения — она обрабатывает только первые 500 абзацев и 25 таблиц, а сконвертированные PDF могут содержать водяной знак. Для промышленного использования требуется лицензия.

pip install Spire.Doc

from spire.doc import Document, FileFormat

doc = Document()

doc.LoadFromFile("report.docx")

doc.SaveToFile("report.pdf", FileFormat.PDF)

doc.Close()

Альтернатива (полностью открытый исходный код, кросс-платформенная): Вы можете вызвать LibreOffice из командной строки, используя subprocess:

import subprocess

subprocess.run(["libreoffice", "--headless", "--convert-to", "pdf", "report.docx"])

Это работает на Linux, Windows и macOS, но требует отдельной установки LibreOffice.

Итоги по задаче 4

Задача 5: Объединение нескольких документов Word в один

Зачем это автоматизировать?

Типичные сценарии включают:

  • Объединение ежемесячных финансовых отчётов в квартальную сводку

  • Слияние отдельных разделов контракта в основной договор

  • Сборка пакета документации из нескольких глав

Выполнение этого вручную (копирование-вставка) часто разрушает форматирование и крайне медленно для большого количества файлов.

Рекомендуемый инструмент: docxcompose

docxcompose принимает один документ в качестве «основного» и добавляет к нему другие, сохраняя базовое форматирование. Библиотека легковесна и проста в использовании.

Ограничения (важно):

  • Верхние и нижние колонтитулы, а также разрывы разделов часто теряются , потому что библиотека выполняет слияние, добавляя страницы в тот же раздел.

  • Текстовые поля, сложные вложенные таблицы и некоторые пользовательские стили могут не сохраниться при слиянии.

  • Проект не поддерживался активно с 2018 года.

Для простых документов (обычный текст, простые таблицы, немного стилей) библиотека работает удивительно хорошо. Для сложных отчётов с разными колонтитулами для каждой главы потребуется более надёжное (скорее всего, коммерческое) решение, или вы можете вручную копировать элементы с помощью python-docx — это больше работы, но полностью контролируемо.

Пример кода

pip install docxcompose

from docxcompose.composer import Composer

from docx import Document

master = Document("chapter1.docx")

composer = Composer(master)

composer.append(Document("chapter2.docx"))

composer.append(Document("chapter3.docx"))

composer.save("full_report.docx")

Если docxcompose не работает с вашими документами, вот более надёжный (но более длинный) подход: перебрать все элементы каждого документа и добавить их в новый основной документ, используя чистый python-docx. Упрощённый фрагмент:

from docx import Document

master = Document()

for file in ["part1.docx", "part2.docx"]:

doc = Document(file)

for element in doc.element.body:

master.element.body.append(element)

master.save("merged.docx")

Имейте в виду, что эта низкоуровневая манипуляция XML может нарушить стили, если выполнять её неаккуратно.

Лучшие сценарии использования

  • Объединение простых отчётов с большим объёмом текста

  • Добавление приложений к основному документу

  • Сборка наборов документации из Markdown, сконвертированных в Word

Заключение

В таблице ниже обобщены рекомендуемые инструменты и их компромиссы.

Автоматизируя эти пять задач, вы можете сэкономить часы повторяющейся ручной работы. Начните с решений с открытым исходным кодом — они покроют большинство повседневных потребностей. Для критически важного форматирования корпоративного уровня (юридически значимое сравнение, идеальная конвертация в PDF на Linux, безупречное слияние) рассмотрите коммерческие библиотеки, такие как Aspose.Words. Но для большинства Python-разработчиков код, показанный выше, уже преобразит то, как вы работаете с документами Word.

Так что вперёд, автоматизируйте генерацию счетов, извлечение данных или конвертацию отчётов — ваш будущее «я» скажет вам спасибо.

Показать полностью 2
3

Точное извлечение текста и таблиц из документов Word с помощью Python

Извлечение структурированного содержимого из документов Word, особенно текста и таблиц, является распространенной задачей в процессах обработки данных. Хотя экосистема Python предлагает множество библиотек, таких как python-docx, работа со сложной структурой документов или одновременное извлечение текста и таблиц может быть затруднительной. В таких случаях Free Spire.Doc for Python предоставляет более стабильное и функциональное решение.

В этой статье вы узнаете, как извлекать текст из документов Word и сохранять его в файлы TXT, а также как автоматически экспортировать данные таблиц для дальнейшей обработки.

Предварительная подготовка

Free Spire.Doc for Python — это мощная библиотека для работы с документами Word, поддерживающая различные форматы, включая .doc и .docx. Установить её можно с помощью команды:

pip install spire.doc.free

По умолчанию библиотека работает в бесплатном режиме. Бесплатная версия позволяет обрабатывать документы, содержащие до 500 абзацев или 25 таблиц , чего обычно достаточно для небольших документов и тестовых сценариев.

Извлечение всего текста и сохранение в TXT-файл

Встроенный метод GetText() позволяет получить весь текст из документа Word. На практике часто требуется не только вывести текст, но и сохранить его для дальнейшего использования. В следующем примере весь текст документа извлекается и записывается в файл .txt:

from spire.doc import *

from spire.doc.common import *

# Создание объекта Document и загрузка файла Word

doc = Document()

doc.LoadFromFile("input.docx")

# Извлечение всего текста из документа

full_text = doc.GetText()

# Запись текста в TXT-файл

with open("output.txt", "w", encoding="utf-8") as file:

file.write(full_text)

doc.Close()

print("Извлечение текста завершено. Результат сохранён в output.txt")

Основные моменты

  • Метод GetText() извлекает весь текст в порядке чтения, включая абзацы, заголовки, верхние и нижние колонтитулы, игнорируя изображения, фигуры и другие нетекстовые элементы.

  • Для корректной обработки национальных символов используется кодировка UTF-8.

  • После завершения работы обязательно вызывайте doc.Close(), чтобы освободить системные ресурсы.

Точное извлечение и экспорт всех таблиц

Таблицы в документах Word часто содержат важные данные, такие как отчёты, списки и инвентаризационные ведомости. Spire.Doc предоставляет удобную иерархию объектов:

Документ → Раздел → Таблица → Строка → Ячейка → Абзац

Следующий пример проходит по всем таблицам во всех разделах документа и сохраняет каждую таблицу в отдельный файл .txt. В качестве разделителя столбцов используются символы табуляции, что упрощает последующий импорт данных в Excel и другие инструменты анализа.

from spire.doc import *

from spire.doc.common import *

import os

# Создание выходной директории

output_dir = "output/Tables"

os.makedirs(output_dir, exist_ok=True)

# Загрузка документа Word

doc = Document()

doc.LoadFromFile("Sample.docx")

# Перебор всех разделов

for section_idx in range(doc.Sections.Count):

section = doc.Sections.get_Item(section_idx)

tables = section.Tables

for table_idx in range(tables.Count):

table = tables.get_Item(table_idx)

table_data = ""

# Перебор всех строк и ячеек

for row_idx in range(table.Rows.Count):

row = table.Rows.get_Item(row_idx)

for col_idx in range(row.Cells.Count):

cell = row.Cells.get_Item(col_idx)

# Сбор текста из всех абзацев внутри ячейки

cell_text = ""

for para_idx in range(cell.Paragraphs.Count):

cell_text += cell.Paragraphs.get_Item(para_idx).Text + " "

table_data += cell_text.strip()

# Разделение столбцов символом табуляции

if col_idx < row.Cells.Count - 1:

table_data += "\t"

table_data += "\n" # Конец строки

# Сохранение текущей таблицы

output_path = f"{output_dir}/WordTable_{section_idx+1}_{table_idx+1}.txt"

with open(output_path, "w", encoding="utf-8") as f:

f.write(table_data)

print(f"Сохранено: {output_path}")

doc.Close()

Разбор кода

  • Вложенные циклы обеспечивают обработку всех таблиц во всех разделах документа.

  • Содержимое каждой ячейки извлекается через коллекцию Paragraphs, что позволяет сохранить текст, разделённый переносами строк или форматированием.

  • Выходные файлы именуются по шаблону SectionIndex_TableIndex, что упрощает определение источника данных.

Примечание: В данном примере обрабатываются только таблицы верхнего уровня. Если документ содержит вложенные таблицы внутри ячеек, логику можно расширить с помощью рекурсивного обхода.

Рекомендации и важные замечания

1. Производительность и использование памяти

При работе с большими документами, содержащими сотни страниц, рекомендуется обрабатывать только необходимый тип данных. Если нужны только таблицы, можно пропустить извлечение текста, и наоборот. Кроме того, обязательно вызывайте doc.Close(), чтобы избежать утечек ресурсов.

2. Обработка объединённых ячеек

Если таблица содержит объединённые строки или столбцы, приведённый выше код всё равно корректно извлечёт текст из каждой ячейки. Однако структура объединения не сохранится в текстовом представлении.

Если необходимо сохранить исходную структуру таблицы, можно использовать свойства Cell.ColumnSpan и Cell.RowSpan для построения матрицы с учётом объединённых ячеек.

3. Ограничения бесплатной версии

Бесплатная версия Spire.Doc позволяет обрабатывать документы, содержащие до 500 абзацев или 25 таблиц , чего обычно достаточно для большинства повседневных задач обработки документов и тестирования библиотеки.

Заключение

С помощью Free Spire.Doc for Python можно извлекать текст и таблицы из документов Word всего несколькими десятками строк кода. Два подхода, рассмотренные в этой статье — сохранение текста в TXT-файлы и экспорт таблиц по отдельности — легко интегрируются в существующие процессы обработки данных.

В сочетании с возможностями Python по работе с файлами и инструментами анализа данных, такими как pandas, эти методы позволяют создавать эффективные системы автоматического анализа документов.

Если вам требуется работать со сложными макетами документов или сохранять расширенную структуру таблиц, Spire.Doc также предоставляет дополнительные API, такие как ExportToHtml() и SaveToFile(), обеспечивая ещё большую гибкость при обработке документов.

Показать полностью
3

Как конвертировать Word в Markdown (и обратно) с помощью Python

При написании, управлении технической документацией и создании базы знаний мы чаще всего сталкиваемся с двумя форматами документов: Word и Markdown. Word благодаря мощным возможностям верстки и зрелым функциям совместного рецензирования доминирует в корпоративной офисной работе и в официальных отчетах; в то же время Markdown — благодаря простому тексту, легковесности и удобству контроля версий — очень любят программисты и технические писатели.

Однако «барьер формата» между ними часто вызывает головную боль: нужно ли вручную копировать, вставлять и подгонять оформление абзац за абзацем? Конечно же, нет. В этой статье будет подробно рассказано, как использовать Free Spire.Doc в среде Python, чтобы эффективно выполнять двунаправленную конвертацию между Word и Markdown.

Почему стоит выбрать Free Spire.Doc?

На рынке есть множество библиотек для обработки документов, но Spire.Doc особенно хорошо справляется с преобразованием между Word и Markdown. Она не только корректно обрабатывает базовый текст, но и отлично распознает и конвертирует сложные структуры — такие как заголовки, абзацы, таблицы и списки. Более того, она поддерживает оба формата Word: .doc и .docx, а также стандартный синтаксис Markdown. Конвертированные документы аккуратно отформатированы и логично структурированы, требуя почти никаких дополнительных правок.

Установка библиотеки Spire.Doc:

pip install spire.doc.free

Word → Markdown: всего три строки ключевого кода

from spire.doc import *

from spire.doc.common import *

# Создаем объект Document

document = Document()

# Загружаем Word-файл (поддерживает .docx и .doc)

document.LoadFromFile("input.docx")

# Сохраняем как файл Markdown

document.SaveToFile("WordToMarkdown.md", FileFormat.Markdown)

document.Close()

После выполнения кода все уровни заголовков в документе Word автоматически сопоставляются с тегами Markdown #–######, абзацы сохраняют корректные переносы строк, таблицы конвертируются в синтаксис таблиц Markdown, а упорядоченные/неупорядоченные списки распознаются правильно. Весь процесс занимает всего несколько секунд, значительно повышая эффективность работы.

Markdown → Word: так же просто

Структура кода для обратной конвертации практически идентична, отличается только тем, что меняются местами форматы загрузки и сохранения:

from spire.doc import *

from spire.doc.common import *

document = Document()

# Загружаем файл Markdown

document.LoadFromFile("input.md")

# Сохраняем как документ Word (поддерживает .docx и .doc)

document.SaveToFile("MdToDocx.docx", FileFormat.Docx)

# Если нужен старый формат .doc, можно сохранить отдельно

# document.SaveToFile("MdToDoc.doc", FileFormat.Doc)

document.Close()

Конвертированный документ Word автоматически применяет стили по умолчанию: четкая иерархия заголовков, полные границы таблиц и разумные отступы для списков — документ готов к печати или дальнейшей верстке.

Обработка изображений: проблема встраивания Base64 и решения

При конвертации Word в Markdown есть легко упускаемая из виду проблема: обработка изображений . По умолчанию Spire.Doc конвертирует встраиваемые изображения в Word в кодировку Base64 и напрямую встраивает их в файл Markdown. Плюс этого подхода в том, что один файл становится самодостаточным — им удобно делиться.

Но минус также очевиден: если документ содержит много высокоразрешенных изображений, размер Markdown-файла может резко увеличиться, достигнув десятков или даже сотен мегабайт. Это приводит к лагам в редакторе и раздувает Git-репозитории.

Решение оптимизации: извлечь изображение для внешних ссылок

Лучше извлечь изображения в отдельную папку, а затем ссылаться на них в Markdown через относительные пути. Хотя Spire.Doc напрямую не предоставляет параметр «автоматически внешнее вынесение ссылок на изображения при сохранении», мы можем решить задачу вручную: извлечь изображения и заменить ссылки.

from spire.doc import *

import os

document = Document()

document.LoadFromFile("input.docx")

# Создаем директорию для изображений

image_dir = "images"

os.makedirs(image_dir, exist_ok=True)

# Проходим по всем изображениям и извлекаем их

for i, image inenumerate(document.Images):

withopen(f"{image_dir}/img_{i}.png", "wb") as f:

f.write(image.ImageData)

# Сначала конвертируем в Markdown (все еще со встроенными Base64)

document.SaveToFile("temp.md", FileFormat.Markdown)

# Далее с помощью regex или замены строк заменяем Base64-изображения на локальные ссылки

# Этот шаг нужно выполнить вручную или с помощью дополнительного скрипта

document.Close()

Если документов много, процесс можно полностью автоматизировать: распарсить сгенерированный Markdown-файл, найти блоки Base64-изображений, декодировать их и сохранить локально, затем заменить на формат ![](images/img_x.png). Коллекция document.Images в Spire.Doc дает нам возможность извлекать изображения, и в сочетании со скриптингом можно добиться полной автоматизации этой оптимизации.

Практические сценарии применения

Это решение было проверено в нескольких реальных ситуациях:

  1. Миграция технической документации : пакетно конвертировать существующие руководства по продуктам в формате Word в Markdown для импорта в VuePress или Docsify базы знаний.

  2. Публикации в нескольких форматах : писать в Markdown и конвертировать в Word, чтобы соответствовать требованиям клиента или руководителя к официальным документам.

  3. Совместный обзор : команда просматривает изменения в режиме Word «Отслеживание изменений», затем возвращает обратно в Markdown одним кликом, чтобы продолжить разработку.

Итоги

С библиотекой Spire.Doc разработчики на Python могут выполнять двунаправленную конвертацию между Word и Markdown всего несколькими строками кода, при этом полностью сохраняя ключевые структуры — заголовки, абзацы, таблицы и списки. Для документов с большим числом изображений объединение извлечения изображений с решениями для внешних ссылок позволяет эффективно контролировать размер файлов и улучшать опыт управления документами. Если вы часто переключаетесь между этими форматами, попробуйте это решение — и попрощайтесь с утомительной ручной версткой.

Показать полностью
4

Краткое руководство по извлечению таблиц из PDF с помощью Python

В работе с анализом данных мы часто сталкиваемся с необходимостью извлечения табличных данных из PDF-файлов. Однако прямое копирование таблиц из PDF часто приводит к хаосу в форматировании и смещению данных. Эта статья шаг за шагом покажет вам, как использовать библиотеку Free Spire.PDF for Python для быстрого и точного распознавания и извлечения таблиц из PDF, а также сохранения данных в распространённых форматах, таких как CSV и Excel.

1. Подготовка: Установка необходимых библиотек

Сначала вам нужно установить библиотеку Spire.PDF. Откройте терминал или командную строку и выполните следующую команду:

pip install spire.pdf.free

Если вы планируете экспортировать извлечённые данные в формат Excel, рекомендуется также установить pandas и openpyxl:

pip install pandas openpyxl

2. Основной код: Извлечение таблиц из PDF

Следующий код демонстрирует, как извлечь таблицы с первой страницы PDF и вывести содержимое ячеек построчно:

from spire.pdf import PdfDocument, PdfTableExtractor

# 1. Загрузить PDF-файл

pdf = PdfDocument()

pdf.LoadFromFile("sample.pdf")

# 2. Создать экстрактор таблиц

table_extractor = PdfTableExtractor(pdf)

# 3. Извлечь все таблицы с первой страницы

tables = table_extractor.ExtractTable(0)

# 4. Пройтись по каждой таблице

for table in tables:

row_count = table.GetRowCount()

column_count = table.GetColumnCount()

# Извлечь содержимое ячеек построчно

for i in range(row_count):

row_data = []

for j in range(column_count):

cell_text = table.GetText(i, j)

row_data.append(cell_text)

print(row_data)

Пояснение к коду

  • LoadFromFile(): Загружает PDF-файл из указанного пути

  • PdfTableExtractor(): Создаёт экземпляр экстрактора таблиц

  • ExtractTable(номер страницы): Извлекает все таблицы с указанной страницы, нумерация страниц начинается с 0

  • GetRowCount() / GetColumnCount(): Получает количество строк и столбцов таблицы

  • GetText(строка, столбец): Получает текстовое содержимое указанной ячейки

3. Расширенная обработка: Пакетное извлечение из многостраничного PDF

Если PDF содержит несколько страниц, вы можете использовать цикл для пакетного извлечения всех таблиц:

from spire.pdf import PdfDocument, PdfTableExtractor

pdf = PdfDocument()

pdf.LoadFromFile("multi_page_report.pdf")

# Пройтись по всем страницам

for page_index in range(pdf.Pages.Count):

extractor = PdfTableExtractor(pdf)

tables = extractor.ExtractTable(page_index)

print(f"\n=== Страница {page_index + 1} найдено {len(tables)} таблиц ===")

for t, table in enumerate(tables):

print(f"--- Таблица {t+1} ---")

rows = table.GetRowCount()

cols = table.GetColumnCount()

for i in range(rows):

row = [table.GetText(i, j) for j in range(cols)]

print(row)

4. Экспорт данных: Сохранение в файлы CSV или Excel

Извлечённые табличные данные можно легко преобразовать в другие форматы. Следующий пример сохраняет данные в CSV-файл:

import csv

from spire.pdf import PdfDocument, PdfTableExtractor

pdf = PdfDocument()

pdf.LoadFromFile("sample.pdf")

extractor = PdfTableExtractor(pdf)

tables = extractor.ExtractTable(0)

if tables:

table = tables[0]

rows = table.GetRowCount()

cols = table.GetColumnCount()

# Собрать все данные

data = []

for i in range(rows):

row_data = [table.GetText(i, j) for j in range(cols)]

data.append(row_data)

# Записать в CSV-файл

with open("output.csv", "w", newline="", encoding="utf-8") as f:

writer = csv.writer(f)

writer.writerows(data)

print(f"Успешно экспортировано {rows} строк × {cols} столбцов данных в output.csv")

Чтобы экспортировать данные в Excel-файл, вы можете использовать pandas:

import pandas as pd

# Предположим, что data — это извлечённый выше двумерный список

df = pd.DataFrame(data[1:], columns=data[0]) # Первая строка как заголовки столбцов

df.to_excel("output.xlsx", index=False)

print("Данные сохранены как output.xlsx")

5. Часто возникающие проблемы и советы

  1. Неполное распознавание таблицы? Проверьте, имеет ли таблица в PDF чёткие границы. Для отсканированных документов или PDF на основе изображений требуется технология OCR; Spire.PDF в основном подходит для текстовых PDF.

  2. Обработка объединённых ячеек: Spire.PDF автоматически обрабатывает объединённые ячейки. GetText() возвращает содержимое ячейки в верхнем левом углу объединённой области, а для остальных позиций возвращает пустую строку.

  3. Оптимизация производительности: При обработке больших PDF-файлов рекомендуется извлекать и сохранять данные постранично, чтобы избежать загрузки всех таблиц в память одновременно.

Выполнив описанные выше шаги, вы освоили полный процесс извлечения таблиц из PDF с помощью Python. Это решение можно легко интегрировать в автоматизированные конвейеры обработки данных, что значительно повышает эффективность работы.

Показать полностью
1

Работа с водяными знаками в Word на C#: добавление, водяной знак-изображение и удаление — всё в одной статье

В процессе разработки программных систем функции обработки документов часто являются важной частью корпоративных приложений. Документы Word, как один из самых популярных офисных форматов, нередко требуют защиты содержимого и маркировки статуса. Водяные знаки, как визуальные элементы, не мешающие чтению основного текста, но при этом чётко передающие свойства документа (например, уровень конфиденциальности, принадлежность авторских прав или статус черновика), играют важную роль в управлении документами.

В этой статье подробно рассматривается, как с помощью компонента Free Spire.Doc for .NET реализовать на C# добавление текстовых водяных знаков, добавление водяных знаков-изображений и удаление существующих водяных знаков из документов Word.

1. Обзор компонента Spire.Doc for .NET

Free Spire.Doc for .NET — это профессиональный компонент для работы с документами Word, который позволяет разработчикам создавать, читать, изменять и конвертировать документы Word напрямую через код без установки Microsoft Office. Компонент предоставляет полный набор возможностей для работы с водяными знаками и поддерживает два основных типа:

В отличие от сложных решений, имитирующих водяные знаки через колонтитулы или вставку фигур, Spire.Doc содержит встроенную объектную модель для работы с водяными знаками, что делает их добавление и управление более простым и стандартизированным.

Настройка окружения

Перед началом кодирования необходимо установить Free Spire.Doc в проект через диспетчер пакетов NuGet. Выполните следующую команду в «Консоли диспетчера пакетов» Visual Studio:

Install-Package FreeSpire.Doc

После установки необходимо подключить следующие пространства имён в файле кода:

using Spire.Doc;

using Spire.Doc.Documents;

using System.Drawing; // Для работы с цветами и изображениями

2. Добавление текстового водяного знака

Текстовый водяной знак — это самая базовая и наиболее часто используемая форма водяных знаков. По сути, это строка текста, отображаемая на фоне каждой страницы документа в полупрозрачном или заданном цвете. Обычно используется крупный шрифт с диагональным или горизонтальным расположением, чтобы визуально отличаться от основного содержимого.

Описание основных свойств

Класс TextWatermark предоставляет следующие настраиваемые свойства:

Реализация кода

using System;

using System.Drawing;

using Spire.Doc;

using Spire.Doc.Documents;

namespace InsertTextWatermark

{

internal class Program

{

static void Main(string[] args)

{

// Создание экземпляра объекта Document

Document document = new Document();

// Загрузка документа Word с диска

document.LoadFromFile("input.docx");

// Вставка текстового водяного знака

InsertTextWatermark(document);

// Сохранение документа

document.SaveToFile("TextWatermark.docx", FileFormat.Docx);

}

private static void InsertTextWatermark(Document document)

{

TextWatermark txtWatermark = new TextWatermark();

txtWatermark.Text = "НЕ КОПИРОВАТЬ"; // Текст водяного знака

txtWatermark.FontSize = 50; // Размер шрифта

txtWatermark.Color = Color.Blue; // Цвет текста

txtWatermark.Layout = WatermarkLayout.Diagonal; // Диагональное расположение

document.Watermark = txtWatermark;

}

}

}

Ключевые моменты

  • Водяной знак связан со всем объектом документа, а не с отдельной страницей или разделом. Это означает, что после добавления водяной знак автоматически применяется ко всем страницам документа.

  • При сохранении необходимо явно указать формат FileFormat.Docx, чтобы информация о водяном знаке была корректно записана в структуру файла Word.

  • Если требуется горизонтальное центрированное отображение водяного знака, установите свойство Layout в WatermarkLayout.Horizontal.

3. Добавление водяного знака-изображения

По сравнению с текстовыми водяными знаками, водяные знаки-изображения подходят для более широкого круга сценариев:

  • Добавление логотипа компании в качестве водяного знака во внутренние документы

  • Наложение изображений с авторскими правами на дизайнерские макеты

  • Использование изображения подписи как утверждающего водяного знака документа

Описание основных свойств

Класс PictureWatermark предоставляет следующие настраиваемые свойства:

Реализация кода

using System;

using System.Drawing;

using Spire.Doc;

using Spire.Doc.Documents;

namespace InsertImageWatermark

{

internal class Program

{

static void Main(string[] args)

{

// Создание экземпляра объекта Document

Document document = new Document();

// Загрузка документа Word

document.LoadFromFile("Input.docx");

// Вставка водяного знака-изображения

InsertImageWatermark(document);

// Сохранение документа

document.SaveToFile("InsertImageWatermark.docx", FileFormat.Docx);

}

private static void InsertImageWatermark(Document document)

{

PictureWatermark picture = new PictureWatermark();

picture.Picture = Image.FromFile("watermark.png"); // Загрузка изображения

picture.Scaling = 200; // Масштаб (%)

picture.IsWashout = false; // Использовать ли эффект выцветания

document.Watermark = picture;

}

}

}

Два визуальных эффекта для водяного знака-изображения

4. Удаление водяного знака

Жизненный цикл документа обычно включает несколько этапов, и необходимость в водяных знаках не всегда постоянна. Например, документ на стадии проверки может требовать заметного водяного знака «Конфиденциально», но после завершения проверки и официальной публикации водяной знак может стать лишним и потребовать удаления.

Принцип работы

В Spire.Doc удаление водяного знака реализовано очень просто: свойство Document.Watermark по сути является ссылкой на объект. Когда оно указывает на экземпляр TextWatermark или PictureWatermark, это означает, что водяной знак активен. Если же присвоить этому свойству пустую ссылку, водяной знак будет удалён из документа.

Реализация кода

using Spire.Doc;

namespace RemoveWatermark

{

class Program

{

static void Main(string[] args)

{

// Создание экземпляра Document

Document doc = new Document();

// Загрузка документа Word с водяным знаком

doc.LoadFromFile("Input.docx");

// Удаление водяного знака

doc.Watermark = null;

// Сохранение результата

doc.SaveToFile("RemoveWatermark.docx", FileFormat.Docx2013);

}

}

}

⚠️ Важные замечания

Этот способ удаления работает только для стандартных водяных знаков, добавленных через Spire.Doc. Если «водяной знак» реализован нестандартным способом (например, полупрозрачная фигура в колонтитуле или встроенное фоновое изображение), данный метод не сработает — потребуется использовать другие стратегии удаления содержимого документа.

5. Заключение

С помощью Spire.Doc for .NET разработчики могут легко и стандартизированно добавлять и удалять водяные знаки в документах Word с использованием C#. Основные операции, рассмотренные в статье:

Рекомендации по применению

  • Текстовые водяные знаки : подходят для сценариев с динамической генерацией текста, например отображения различных уровней конфиденциальности в зависимости от прав пользователя

  • Водяные знаки-изображения : подходят для брендированных сценариев, когда компания использует единый логотип в качестве фона документа

  • Удаление водяных знаков : подходит для документооборота, например когда документы содержат водяной знак на этапе внутреннего согласования и очищаются перед внешней публикацией

Это решение не зависит от среды Microsoft Office и подходит для развёртывания в серверных приложениях и фоновых службах, обеспечивая хорошую стабильность и масштабируемость.

Показать полностью 6
3

Добавление нумерации страниц в PDF через Python (подробное руководство)

При работе с контрактами, отчетами, научными работами и техническими документами PDF добавление нумерации страниц является обязательной функцией. Традиционные инструменты для редактирования PDF часто имеют сложную настройку разметки. С помощью библиотеки Free Spire.PDF for Python на языке Python можно легко прописать код и разместить нумерацию страниц в нижнем колонтитуле PDF файла по центру, слева или справа.

В данном руководстве рассказывается, как при помощи мощной библиотеки Spire.PDF for Python автоматически добавить русскую нумерацию страниц в PDF-документы. Представлены готовые варианты кода для трех вариантов выравнивания, которые можно использовать под любые задачи.

I. Подготовка к работе

Сначала установите библиотеку Free Spire.PDF for Python:

pip install spire.pdf.free

После установки импортируйте необходимые модули в код проекта:python

from spire.pdf.common import * from spire.pdf import *

II. Разбор основных компонентов

Перед написанием кода разберем назначение ключевых классов библиотеки:

Проще говоря: PdfPageNumberField и PdfPageCountField являются переменными с числовыми значениями, а PdfCompositeField формирует итоговый текст по заданному шаблону.

III. Готовый код (нумерация по центру)

Ниже представлен полный код для добавления русской нумерации страниц по центру с подробными комментариями:

from spire.pdf.common import *

from spire.pdf import *

# Загрузка PDF-документа

doc = PdfDocument()

doc.LoadFromFile("Input.pdf")

# Установка шрифта Times New Roman (поддержка кириллицы)

font = PdfTrueTypeFont("Times New Roman", 12.0, PdfFontStyle.Regular, True)

brush = PdfBrushes.get_Black()

pen = PdfPen(brush, 1.0)

# Инициализация полей номера и общего количества страниц

pageNumberField = PdfPageNumberField()

pageCountField = PdfPageCountField()

# Шаблон русской нумерации страниц

compositeField = PdfCompositeField(

font,

brush,

"Страница {0} из {1}",

[pageNumberField, pageCountField]

)

# Задание отступов (единица измерения: пункты)

leftMargin = 54.0

rightMargin = 54.0

bottomMargin = 72.0

# Добавление нумерации на все страницы

for i in range(doc.Pages.Count):

page = doc.Pages.get_Item(i)

pageSize = page.Size

# Отрисовка разделительной линии

lineY = pageSize.Height - bottomMargin + 15.0

page.Canvas.DrawLine(pen, leftMargin, lineY, pageSize.Width - rightMargin, lineY)

# Определение размера текста для корректного выравнивания

pageNumberSize = font.MeasureString(f"Страница {i + 1} из {doc.Pages.Count}")

# Координаты расположения нумерации по центру

compositeField.Location = PointF(

(pageSize.Width - pageNumberSize.Width) / 2,

pageSize.Height - bottomMargin + 18.0

)

# Отрисовка нумерации на странице

compositeField.Draw(page.Canvas, 0.0, 0.0)

# Сохранение готового файла и закрытие ресурсов

doc.SaveToFile("Output.pdf")

doc.Dispose()

IV. Реализация выравнивания слева и справа

Для смены положения достаточно изменить координату X в параметре compositeField.Location.

4.1 Выравнивание по левому краю

# Координата X равна левому отступу

compositeField.Location = PointF(

leftMargin,

pageSize.Height - bottomMargin + 18.0

)

Результат: надпись «Страница 1 из 10» отображается в левом нижнем углу страницы.

4.2 Выравнивание по правому краю

# Расчет координаты для расположения в правой части

compositeField.Location = PointF(

pageSize.Width - pageNumberSize.Width - rightMargin,

pageSize.Height - bottomMargin + 18.0

)

Результат: надпись «Страница 1 из 10» отображается в правом нижнем углу страницы.

V. Разные варианты оформления русской нумерации

Помимо стандартного варианта «Страница X из Y» можно использовать другие форматы:

5.1 Компактный вариант

compositeField = PdfCompositeField(

font, brush, "{0} / {1}",

[pageNumberField, pageCountField]

)

# Отображение: 1 / 10

5.2 Вариант с декоративными знаками

compositeField = PdfCompositeField(

font, brush, "- {0} / {1} -",

[pageNumberField, pageCountField]

)

# Отображение: - 1 / 10 -

5.3 Только номер страницы (без общего количества)

compositeField = PdfCompositeField(

font, brush, "{0}",

[pageNumberField]

)

# Отображение: 1

VI. Рекомендуемые шрифты для кириллицы

Пример установки шрифта:

font = PdfTrueTypeFont("Arial", 12.0, PdfFontStyle.Regular, True)

VII. Настройка рабочих параметров

7.1 Изменение отступов

Корректируйте значения для изменения расположения нумерации:

leftMargin = 54.0 # Увеличение смещает текст вправо

rightMargin = 54.0 # Увеличение смещает текст влево

bottomMargin = 72.0 # Увеличение смещает нумерацию выше, уменьшение – ниже

7.2 Корректировка вертикального положения

# Положение разделительной линии

lineY = pageSize.Height - bottomMargin + 15.0

# Положение текста нумерации

compositeField.Location = PointF(x, pageSize.Height - bottomMargin + 18.0)

Увеличение числовых значений опускает элементы вниз, уменьшение – поднимает вверх.

7.3 Изменение размера шрифта

# Установка размера шрифта 14 пунктов

font = PdfTrueTypeFont("Times New Roman", 14.0, PdfFontStyle.Regular, True)

После смены размера система автоматически пересчитывает габариты текста и подстраивает расположение.

VIII. Решение распространенных проблем

Вопрос 1: Кириллические символы отображаются некорректно

Ответ: Используйте шрифты с полной поддержкой кириллицы (Times New Roman, Arial, PT Sans).

Вопрос 2: Нумерация отображается в верхнем колонтитуле

Ответ: Проверьте формулу расчета координаты Y, чем выше значение, тем ближе элемент к нижнему краю страницы.

Вопрос 3: Нумерация перекрывается основным текстом документа

Ответ: Увеличьте значение bottomMargin, чтобы выделить свободное место в нижней части страницы.

Вопрос 4: Пропустить нумерацию для титульного листа

Ответ: Измените начало цикла, чтобы нумерация начиналась со второй страницы:

for i in range(1, doc.Pages.Count):

Вопрос 5: Добавить нумерацию только на определенные страницы

Ответ: Добавьте условие проверки в цикл перебора страниц:

for i in range(doc.Pages.Count):

if 2 <= i <= 10:

# Код добавления нумерации

IX. Итог

С помощью библиотеки Free Spire.PDF for Python можно быстро добавить русскую нумерацию страниц в массовом режиме, поддерживая три варианта выравнивания.

Основная последовательность действий:

  1. Загрузка исходного PDF-документа

  2. Инициализация шрифта и полей нумерации

  3. Формирование текстового шаблона на русском языке

  4. Перебор страниц и расчет координат для размещения текста

  5. Сохранение готового документа

Данный способ отличается высокой скоростью работы и универсальностью, подходит для документов любого объёма.

Показать полностью 3
4

Добавление или чтение формул Excel с помощью C#: Полное руководство

В повседневных задачах обработки офисных данных формулы и функции Excel являются основой автоматизированных вычислений и анализа данных. Для .NET разработчиков распространённой и практичной задачей является программное добавление формул в файлы Excel или извлечение логики формул из существующих таблиц. В этой статье мы используем легковесную и бесплатную библиотеку Free Spire.XLS for .NET, чтобы подробно продемонстрировать, как добавлять и читать формулы Excel с помощью C#.

Добавление или чтение формул Excel с помощью C#: Полное руководство

Подготовка: подключение Free Spire.XLS

Перед началом кодирования нам нужно добавить Free Spire.XLS for .NET в проект. Этот компонент легко устанавливается через менеджер пакетов NuGet. Выполните следующую команду в консоли диспетчера пакетов:

Install-Package FreeSpire.XLS

После установки мы можем использовать пространство имён using Spire.Xls; для доступа ко всем классам и методам, связанным с операциями Excel.

1. Добавление формул в Excel

Сценарии добавления формул очень разнообразны: например, массовый расчёт общего объёма продаж, вычисление среднего балла студентов, создание динамических отчётов и т.д. Пример ниже показывает, как создать новую книгу Excel, записать в неё базовые данные и добавить формулы в определённые ячейки.

using Spire.Xls;

Workbook workbook = new Workbook();

Worksheet sheet = workbook.Worksheets[0];

// Добавление базовых числовых данных

sheet.Range[1, 1].NumberValue = 1;

sheet.Range[1, 2].NumberValue = 2;

sheet.Range[1, 3].NumberValue = 3;

sheet.Range[1, 4].NumberValue = 4;

sheet.Range[1, 5].NumberValue = 5;

sheet.Range[1, 6].NumberValue = 6;

// Добавление функции: среднее значение (AVERAGE)

string averageFormula = "=AVERAGE(Sheet1!$A$1:A$6)";

sheet.Range[2, 1].Formula = averageFormula;

// Добавление арифметической формулы

string calcFormula = "=1+2+3+4+5-6-7+8-9";

sheet.Range[3, 1].Formula = calcFormula;

workbook.SaveToFile("AddFormulasAndFunctions.xlsx", ExcelVersion.Version2016);

workbook.Dispose();

Пояснение ключевых моментов кода:

  • Свойство sheet.Range[строка, столбец].Formula напрямую присваивает строку формулы ячейке. Синтаксис полностью совпадает с родными формулами Excel.

  • В формулах поддерживаются абсолютные ссылки (например, $D$2) и относительные ссылки (например, F$2), как и в Excel.

  • Можно добавлять не только простые арифметические операции, но и встроенные функции, такие как AVERAGE, SUM, IF.

2. Чтение существующих формул из Excel

В реальной работе часто требуется проанализировать отчёты Excel, созданные другими, и извлечь логику вычислений для аудита, переноса или документирования. Следующий код демонстрирует загрузку существующего файла Excel, перебор всех используемых ячеек и поиск тех, которые содержат формулы.

using Spire.Xls;

using System.IO;

using System.Text;

Workbook workbook = new Workbook();

workbook.LoadFromFile("Formulas.xlsx");

Worksheet sheet = workbook.Worksheets[0];

StringBuilder sb = new StringBuilder();

CellRange usedRange = sheet.AllocatedRange;

foreach (CellRange cell in usedRange)

{

if (cell.HasFormula)

{

string cellName = cell.RangeAddressLocal;

string formula = cell.Formula;

sb.AppendLine($"{cellName} содержит формулу: {formula}");

}

}

File.WriteAllText("ReadFormulasAndFunctions.txt", sb.ToString());

Пояснение ключевых моментов кода:

  • Свойство cell.HasFormula возвращает булево значение для быстрой проверки, содержит ли ячейка формулу.

  • cell.Formula возвращает строковое представление формулы, например =AVERAGE(D2:F2).

  • AllocatedRange позволяет получить диапазон использованных данных на листе, избегая перебора всех пустых ячеек и повышая эффективность.

  • Извлечённая информация о формулах записывается в текстовый файл для последующего анализа или архивации.

3. Практические сценарии использования

Освоив добавление и чтение формул, можно создать множество полезных инструментов автоматизации:

  1. Генератор отчётов : автоматическая запись исходных данных в шаблон Excel и динамическое добавление статистических формул, таких как SUM, COUNTIF.

  2. Инструмент аудита формул : массовое чтение сложных формул в финансовых отчётах и проверка их логики для предотвращения ошибок.

  3. Помощник миграции формул : извлечение формул из старых файлов Excel и массовое применение их в соответствующих местах новых шаблонов.

  4. Учебная вспомогательная система : автоматическая проверка заданий Excel, сданных студентами, чтение формул для определения правильности шагов решения.

4. Примечания и рекомендации

  • Строка формулы должна начинаться со знака равенства =, иначе компонент будет обрабатывать её как обычный текст.

  • Диапазон ячеек, на который ссылается формула, должен быть корректным. Ссылка на несуществующие данные может вызвать ошибку #REF! при открытии файла в Excel.

  • Free Spire.XLS — бесплатная версия, но имеет ограничение по количеству страниц (не более 5 страниц на рабочий лист). Для большинства небольших и средних проектов этого вполне достаточно.

  • Для работы с очень большими файлами или снятия ограничения на количество страниц можно рассмотреть переход на коммерческую версию Spire.XLS.

Заключение

Из примеров кода в этой статье мы ясно видим, что использование Free Spire.XLS for .NET для работы с формулами Excel в C# является интуитивно понятным и эффективным. Будь то добавление сложной логики вычислений в таблицы или обратный анализ существующих формул, этот компонент предоставляет полноценный и простой в использовании API. Надеемся, что эта статья поможет вам более уверенно решать задачи разработки, связанные с формулами Excel, в ваших реальных проектах.

Показать полностью 1
15

Преобразование отсканированных PDF в PDF с возможностью поиска с помощью Python

Отсканированные PDF-файлы по сути представляют собой изображения, помещённые в контейнер PDF. Это означает, что вы можете их просматривать — но не можете искать текст, копировать его или извлекать данные. Если вы когда-либо пытались скопировать содержимое из отсканированного счёта или документа и у вас ничего не получилось, значит, вы столкнулись именно с этим ограничением.

Решение? OCR (оптическое распознавание символов) .

В этом руководстве вы узнаете, как преобразовать отсканированные PDF-файлы в полностью searchable PDF с помощью Python. Мы рассмотрим установку, зависимости, настройку языков и приведём чистый, готовый к использованию пример кода.

Что потребуется

Для выполнения OCR над PDF в Python мы будем использовать два основных компонента:

1. ocrmypdf (Python-библиотека)

Мощная оболочка, объединяющая OCR и обработку PDF в одной команде.

2. OCR-движок Tesseract

Основной OCR-движок, который использует ocrmypdf.

Установка

Шаг 1: Установка ocrmypdf

pip install ocrmypdf

Шаг 2: Установка Tesseract OCR

Windows

Скачайте и установите из официального репозитория Tesseract.

Во время установки обязательно обратите внимание на следующие параметры :

  • Additional language data (download)

  • Additional script data (download)

Преобразование отсканированных PDF в PDF с возможностью поиска с помощью Python

Если вы не отметите эти пункты , по умолчанию будет установлен только английский языковой модуль .

Это одна из самых распространённых ошибок — позже пользователи пытаются запускать OCR для китайского или японского языка и получают ошибки, потому что языковые данные просто не установлены.

macOS (Homebrew)

brew install tesseract

Linux (Ubuntu/Debian)

sudo apt install tesseract-ocr

Настройка Tessdata (важно)

Tesseract должен знать, где расположены файлы языковых данных (.traineddata).

В Windows обычно необходимо вручную задать переменную окружения:

os.environ["TESSDATA_PREFIX"] = r"C:\Program Files\Tesseract-OCR\tessdata"

Если путь указан неверно или отсутствует, OCR завершится ошибкой, связанной с языковыми файлами.

Поддерживаемые языки и использование Enum

Чтобы сделать выбор языка безопаснее и удобнее для разработчиков, в коде используется Enum:

class OcrLanguage(Enum):

"""Поддерживаемые OCR-языки с использованием кодов ISO 639-2."""

ENGLISH = "eng"

SIMPLIFIED_CHINESE = "chi_sim"

TRADITIONAL_CHINESE = "chi_tra"

CHINESE_ENGLISH = "chi_sim+eng"

JAPANESE = "jpn"

KOREAN = "kor"

Зачем использовать Enum?

  • Исключает опечатки вроде "engg" или "chn"

  • Поддерживает автодополнение в IDE

  • Делает код более понятным и самодокументируемым

Как добавить новые языки

Вы можете легко расширить enum OcrLanguage.

Шаг 1: Установите языковые данные

Убедитесь, что соответствующий файл .traineddata находится в папке tessdata.

Примеры:

  • fra.traineddata → французский

  • deu.traineddata → немецкий

  • spa.traineddata → испанский

Шаг 2: Расширьте Enum

class OcrLanguage(Enum):

ENGLISH = "eng"

FRENCH = "fra"

GERMAN = "deu"

SPANISH = "spa"

Шаг 3: Используйте язык

language=OcrLanguage.FRENCH

OCR для нескольких языков

Можно комбинировать несколько языков:

CHINESE_ENGLISH = "chi_sim+eng"

Это особенно полезно для:

  • двуязычных документов

  • счетов с несколькими языками

  • научных статей

Полный пример кода

Ниже приведён полностью рабочий скрипт:

import ocrmypdf

from enum import Enum

import os

# ==============================================

# Указываем каталог данных Tesseract (только Windows)

# ==============================================

os.environ["TESSDATA_PREFIX"] = r"C:\Program Files\Tesseract-OCR\tessdata"

# ==============================================

# Enum языков OCR (без опечаток, удобно выбирать)

# ==============================================

class OcrLanguage(Enum):

"""Поддерживаемые OCR-языки с использованием кодов ISO 639-2."""

ENGLISH = "eng"

SIMPLIFIED_CHINESE = "chi_sim"

TRADITIONAL_CHINESE = "chi_tra"

CHINESE_ENGLISH = "chi_sim+eng"

JAPANESE = "jpn"

KOREAN = "kor"

# ==============================================

# Основная функция конвертации

# ==============================================

def convert_scanned_pdf_to_searchable(

input_pdf_path: str,

output_pdf_path: str,

language: OcrLanguage

):

"""

Преобразует PDF на основе изображений (сканированный PDF)

в PDF с возможностью поиска с помощью OCR.

Args:

input_pdf_path: Путь к исходному сканированному PDF

output_pdf_path: Путь для сохранения searchable PDF

language: OCR-язык, выбранный из enum OcrLanguage

"""

try:

# Выполняем OCR и создаём оптимизированный searchable PDF

ocrmypdf.ocr(

input_file=input_pdf_path,

output_file=output_pdf_path,

language=language.value,

optimize=1,

force_ocr=True

)

print(f"✅ Готово! PDF с поиском сохранён в: {output_pdf_path}")

except Exception as error:

print(f"❌ Ошибка при конвертации: {str(error)}")

# ==============================================

# Запуск конвертера

# ==============================================

if __name__ == "__main__":

# Укажите пути к файлам

INPUT_FILE = "ScannedPDF.pdf"

OUTPUT_FILE = "searchable.pdf"

# Выбор языка через Enum (безопасно и удобно)

convert_scanned_pdf_to_searchable(

input_pdf_path=INPUT_FILE,

output_pdf_path=OUTPUT_FILE,

language=OcrLanguage.ENGLISH

)

Результат:

Отсканированный PDF становится доступным для выделения и поиска текста.

Отсканированный PDF становится доступным для выделения и поиска текста.

Объяснение ключевых параметров

  • language → определяет язык(и) OCR

  • optimize=1 → уменьшает размер файла без потери качества

  • force_ocr=True → принудительно запускает OCR, даже если текст уже обнаружен

Распространённые ошибки

1. Отсутствуют языковые данные

Если вы видите ошибку вида:

Error opening data file...

→ Скорее всего, не установлен языковой пакет.

2. Неверный путь Tessdata

Проверьте переменную:

TESSDATA_PREFIX

3. Низкая точность OCR

Качество OCR сильно зависит от:

  • разрешения изображения (рекомендуется 300 DPI)

  • шумов и размытия

  • чёткости шрифта

Полезные советы

Повышение точности OCR

  • Выполняйте предварительную обработку PDF (выравнивание, удаление шумов)

  • Перед OCR переводите изображения в оттенки серого

  • Используйте корректный DPI

Пакетная обработка

Оберните функцию в цикл:

for file in os.listdir("input_folder"):

if file.endswith(".pdf"):

convert_scanned_pdf_to_searchable(...)

Сохранение исходного внешнего вида

ocrmypdf добавляет скрытый текстовый слой без изменения визуальной структуры документа , поэтому внешний вид исходного PDF полностью сохраняется.

Заключение

Всего несколькими строками Python-кода вы можете превратить бесполезные отсканированные PDF-файлы в полностью searchable, копируемые и индексируемые документы.

Комбинация:

  • ocrmypdf

  • Tesseract

  • структурированного управления языками через Enum

…позволяет создать надёжный и масштабируемый OCR-конвейер, подходящий как для личного использования, так и для корпоративных задач.

Если вам приходится работать с большими объёмами сканированных файлов, этот подход способен сэкономить часы ручной работы — и мгновенно открыть доступ к вашим данным.

Показать полностью 2
Отличная работа, все прочитано!

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества