Облачный API парсера документов

Просмотрите наши продукты

Are you looking for an evaluation version of a product?

If so you can download any of the below versions for testing. The product will function as normal except for an evaluation limitation. At the time of purchase we provide a license file via email that will allow the product to work in its full capacity. If you would also like an evaluation license to test without any restrictions for 30 days, please follow the directions provided here.

Are you having troubles in downloading?

If you experience errors, when you try to download a file, make sure your network policies (enforced by your company or ISP) allow downloading ZIP and/or MSI files.

Установка
Пакет доступен в PyPI и его можно установить через pip, выполнив следующую команду:
pip install groupdocs-parser-cloud

Требования

Python 2.7 или 3.4+
менеджер пакетов pip
Учетные данные GroupDocs Cloud — Client ID и Client Secret из панели управления

Зависимости

SDK автоматически устанавливает следующие пакеты:

Пакет	Ограничение
urllib3	>= 1.15
six	>= 1.10
certifi	—
python-dateutil	—

Анализ документов и извлечение данных Python Cloud REST API

GroupDocs.Parser Cloud SDK для Python позволяет разработчикам интегрировать расширенный анализ документов и извлечение данных в веб-приложения Python, сценарии и рабочие процессы автоматизации. Извлекайте текст, изображения, метаданные и структурированные данные из более чем 70 форматов файлов, включая Word, Excel, PDF, презентации, электронные письма, архивы и электронные книги. Определите собственные шаблоны извлечения для извлечения текстовых полей, чисел и таблиц из счетов, форм и деловых документов. Независимо от того, анализируете ли вы отдельный файл или обрабатываете элементы контейнера из ZIP-архивов, почтовых хранилищ PST/OST или портфолио PDF, GroupDocs.Parser предоставляет точные масштабируемые инструменты для облачной аналитики документов.

Извлечение текста

Извлечение обычного текста - Извлекайте текстовое содержимое из документов в простой форме.
Извлечение форматированного текста - Извлекайте текст, сохраняя исходное форматирование.
Извлечение текста по диапазону страниц - Извлекайте текст только с определенных страниц.
Извлечение текста из контейнеров - Извлекайте текст из документов внутри ZIP-архивов, файлов PST/OST и портфолио PDF.

Извлечение изображения

Извлечь все изображения - Извлеките каждое встроенное изображение из всего документа.
Извлечение изображений по диапазону страниц - Извлекайте изображения с определенных страниц на основе диапазона страниц.
Извлечение изображений из контейнеров - Извлекайте изображения из документов внутри файлов-контейнеров.

Анализ на основе шаблонов

Разбор по шаблону - Анализируйте документы, используя определяемые пользователем шаблоны для извлечения структурированных данных.
Создавайте или обновляйте шаблоны - Определите и сохраните шаблоны извлечения в облачном хранилище.
Получение и удаление шаблонов - Извлекайте или удаляйте шаблоны, хранящиеся в хранилище пользователя.
Разбор по объекту шаблона - Передайте определение шаблона непосредственно в запросе API.

Информация о документе

Получить информацию о документе - Получите расширение файла, размер в байтах и количество страниц.
Получить информацию о контейнерах - Перечисляйте элементы в ZIP-архивах, портфолио PDF и почтовых хранилищах.
Получите поддерживаемые форматы файлов - Получите полный список поддерживаемых форматов синтаксического анализа.

Операции с файлами

Загрузить файлы в облако - Загружайте файлы в облачное хранилище через API.
Загрузить файлы из облака - Загружайте файлы из облачного хранилища в локальные системы.
Копировать файлы - Копируйте файлы из облачного хранилища в разные места.
Переместить файлы - Перемещайте файлы между папками в облачном хранилище.
Удалить файлы - Удалите определенные файлы из облачного хранилища.

Операции с папками

Создать папку - Создайте новые папки в облачном хранилище.
Копировать папку - Дублирование папок в облачном хранилище.
Переместить папку - Перемещайте папки между каталогами в облачном хранилище.
Удалить папку - Удалите целые папки из облачного хранилища.

Лицензирование и аутентификация

Режим оценки - Попробуйте API с помощью бесплатной пробной учетной записи.
Безопасная аутентификация - Используйте идентификатор клиента и секрет клиента для безопасного доступа к API.
Лицензия MIT - Python SDK лицензируется по Лицензии MIT.

Поддерживаемые форматы документов

GroupDocs.Parser Cloud поддерживает более 70 форматов файлов с возможностью извлечения текста, изображений и анализа на основе шаблонов:

Обработка текста: DOC, DOCX, DOCM, DOT, DOTX, DOTM, TXT, RTF, ODT, OTT
PDF: PDF
Разметка: HTML, XHTML, MHTML, MD, XML
электронные книги: CHM, EPUB, FB2
Таблицы: XLS, XLT, XLSX, XLSM, XLSB, XLTX, XLTM, ODS, OTS, CSV, XLA, XLAM, NUMBERS
Презентации: PPT, PPS, POT, PPTX, PPTM, POTX, POTM, PPSX, PPSM, ODP, OTP
Электронная почта: PST, OST, EML, EMLX, MSG
Примечания: ONE (Microsoft OneNote)
Архивы: ZIP

Поддерживаемые операции зависят от формата. Полную матрицу форматов см. в документации.

Быстрый старт

Получите учетные данные API

Чтобы использовать GroupDocs.Parser Cloud, зарегистрируйтесь на GroupDocs.Cloud Dashboard и получите свой Идентификатор клиента и Секрет клиента.

Инициализируйте API

Используйте следующий код, чтобы начать использовать Cloud SDK GroupDocs.Parser для Python:

import groupdocs_parser_cloud

# Get your ClientId and ClientSecret at https://dashboard.groupdocs.cloud
client_id = "YourClientId"
client_secret = "YourClientSecret"

# Create API configuration
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"

# Create instance of the Parse API
parse_api = groupdocs_parser_cloud.ParseApi.from_config(configuration)

Извлечь текст из документа

После инициализации используйте этот базовый пример для извлечения текста из документа в облачном хранилище:

import groupdocs_parser_cloud

client_id = "YourClientId"
client_secret = "YourClientSecret"

parse_api = groupdocs_parser_cloud.ParseApi.from_keys(client_id, client_secret)

options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "email/eml/embedded-image-and-attachment.eml"

request = groupdocs_parser_cloud.TextRequest(options)
result = parse_api.text(request)

print("Text: " + result.text)

Благодаря этому краткому руководству вы можете начать анализировать документы с помощью GroupDocs.Parser Cloud в своих приложениях Python. Для получения более подробной информации посетите документацию.

Получить поддерживаемые форматы файлов

Получите полный список поддерживаемых форматов файлов, доступных через API Parser.

import groupdocs_parser_cloud

info_api = groupdocs_parser_cloud.InfoApi.from_keys("YourClientId", "YourClientSecret")

result = info_api.get_supported_file_formats()

for fmt in result.formats:
    print(fmt.file_format)

Разбор документа по шаблону

Анализируйте документ с помощью пользовательского шаблона, хранящегося в облачном хранилище, для извлечения структурированных полей и таблиц.

import groupdocs_parser_cloud

parse_api = groupdocs_parser_cloud.ParseApi.from_keys("YourClientId", "YourClientSecret")

options = groupdocs_parser_cloud.ParseOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "words-processing/docx/companies.docx"
options.template_path = "templates/companies.json"

request = groupdocs_parser_cloud.ParseRequest(options)
result = parse_api.parse(request)

for data in result.fields_data:
    if data.page_area.page_text_area is not None:
        print("Field name: " + data.name + ". Text: " + data.page_area.page_text_area.text)

    if data.page_area.page_table_area is not None:
        print("Table name: " + data.name)
        for cell in data.page_area.page_table_area.page_table_area_cells:
            print("Row " + str(cell.row_index) + " column " + str(cell.column_index) + ": " + cell.page_area.page_text_area.text)

Извлечь изображения из документа

Извлеките все встроенные изображения из документа, получите пути к их облачному хранилищу и URL-адреса загрузки.

import groupdocs_parser_cloud

parse_api = groupdocs_parser_cloud.ParseApi.from_keys("YourClientId", "YourClientSecret")

options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "slides/three-slides.pptx"

request = groupdocs_parser_cloud.ImagesRequest(options)
result = parse_api.images(request)

for image in result.images:
    print("Image path: " + image.path + ". Download url: " + image.download_url)
    print("Format: " + image.file_format + ". Page index: " + str(image.page_index))

Получить информацию о документе

Получите метаданные о документе, такие как количество страниц и свойства файла.

import groupdocs_parser_cloud

info_api = groupdocs_parser_cloud.InfoApi.from_keys("YourClientId", "YourClientSecret")

options = groupdocs_parser_cloud.InfoOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "words-processing/docx/password-protected.docx"
options.file_info.password = "password"

request = groupdocs_parser_cloud.GetInfoRequest(options)
result = info_api.get_info(request)

print("Page count: " + str(result.page_count))

Получить информацию о предметах контейнера

Перечислите элементы в файлах-контейнерах, таких как ZIP-архивы или почтовые хранилища.

import groupdocs_parser_cloud

info_api = groupdocs_parser_cloud.InfoApi.from_keys("YourClientId", "YourClientSecret")

options = groupdocs_parser_cloud.ContainerOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "containers/archive/zip.zip"

request = groupdocs_parser_cloud.ContainerRequest(options)
result = info_api.container(request)

for item in result.container_items:
    print("Name: " + item.name + ". FilePath: " + item.file_path)

Примеры проектов на GitHub

Репозиторий GroupDocs.Parser Cloud Python Samples включает готовые примеры, охватывающие:

Категория	Примеры
Info Operations	Supported file formats, document information, container items information
Parse Operations — Extract Text	Extract text from whole document, formatted text, text by page range, text from container
Parse Operations — Extract Images	Extract images from whole document, images by page range, images from container
Parse Operations — Parse by Template	Parse by template in user storage, template defined as object, parse document inside container
Template Operations	Create or update template, get template, delete template

Как запустить примеры

Клонируйте или загрузите репозиторий образцов.
Отредактируйте RunExamples.py и установите app_sid и app_key.
Перейдите в каталог «Примеры».
Запустите pip install groupdocs-parser-cloud -U
Выполните python RunExamples.py

Для получения более подробной информации посетите Начало работы.