ドキュメントパーサークラウド API

製品を閲覧する

Are you looking for an evaluation version of a product?

If so you can download any of the below versions for testing. The product will function as normal except for an evaluation limitation. At the time of purchase we provide a license file via email that will allow the product to work in its full capacity. If you would also like an evaluation license to test without any restrictions for 30 days, please follow the directions provided here.

Are you having troubles in downloading?

If you experience errors, when you try to download a file, make sure your network policies (enforced by your company or ISP) allow downloading ZIP and/or MSI files.

インストール
パッケージは、availablePyPI にあり、経由でインストールできますpip次のコマンドを実行します。
pip install groupdocs-parser-cloud

要件

Python 2.7 または 3.4+
pip パッケージマネージャー
GroupDocs クラウド認証情報 —Client ID and Client Secretダッシュボードから

依存関係

SDK は次のパッケージを自動的にインストールします。

パッケージ	制約
urllib3	>= 1.15
six	>= 1.10
certifi	—
python-dateutil	—

ドキュメントの解析とデータ抽出 Python クラウド REST API

GroupDocs.Parser Cloud SDK for Python開発者は、高度なドキュメント解析とデータ抽出を Python Web アプリ、スクリプト、自動化ワークフローに統合できます。 Word、Excel、PDF、プレゼンテーション、電子メール、アーカイブ、電子書籍など、70 を超えるファイル形式からテキスト、画像、メタデータ、構造化データを抽出します。カスタム抽出テンプレートを定義して、請求書、フォーム、ビジネス文書からテキストフィールド、数値、表を抽出します。単一ファイルを解析する場合でも、ZIP アーカイブ、PST/OST メールストア、PDF ポートフォリオからのコンテナアイテムを処理する場合でも、GroupDocs.Parser は、クラウドベースのドキュメントインテリジェンスのための正確でスケーラブルなツールを提供します。

テキストの抽出

プレーンテキストの抽出 - ドキュメントから単純な形式でテキストコンテンツを抽出します。
書式設定されたテキストを抽出 - 元の書式を維持しながらテキストを抽出します。
ページ範囲ごとにテキストを抽出 - 特定のページのみからテキストを抽出します。
コンテナからテキストを抽出 - ZIP アーカイブ、PST/OST ファイル、PDF ポートフォリオ内のドキュメントからテキストを抽出します。

画像の抽出

すべての画像を抽出 - ドキュメント全体からすべての埋め込み画像を抽出します。
ページ範囲に基づいて画像を抽出 - ページ範囲に基づいて特定のページから画像を抽出します。
コンテナから画像を抽出 - コンテナファイル内のドキュメントから画像を抽出します。

テンプレートベースの解析

テンプレートによる解析 - 構造化データ抽出のためのユーザー定義のテンプレートを使用してドキュメントを解析します。
テンプレートの作成または更新 - 抽出テンプレートを定義し、クラウドストレージに保存します。
テンプレートの取得と削除 - ユーザーストレージに保存されているテンプレートを取得または削除します。
テンプレートオブジェクトによる解析 - API リクエストでテンプレート定義を直接渡します。

ドキュメント情報

ドキュメント情報の取得 - ファイル拡張子、バイト単位のサイズ、およびページ数を取得します。
コンテナアイテム情報の取得 - ZIP アーカイブ、PDF ポートフォリオ、およびメールストア内のアイテムを一覧表示します。
サポートされているファイル形式の取得 - サポートされている解析形式の完全なリストを取得します。

ファイル操作

ファイルをクラウドにアップロード - API 経由でファイルをクラウドストレージにアップロードします。
クラウドからファイルをダウンロード - クラウドストレージからローカルシステムにファイルをダウンロードします。
ファイルのコピー - クラウドストレージ内のファイルを別の場所にコピーします。
ファイルの移動 - クラウドストレージ内のフォルダー間でファイルを移動します。
ファイルの削除 - クラウドストレージから特定のファイルを削除します。

フォルダーの操作

フォルダーの作成 - クラウドストレージに新しいフォルダーを作成します。
フォルダーのコピー - クラウドストレージ内でフォルダーを複製します。
フォルダーの移動 - クラウドストレージ内のディレクトリ間でフォルダーを移動します。
フォルダーの削除 - フォルダー全体をクラウドストレージから削除します。

ライセンスと認証

評価モード - 無料試用アカウントで API を試してください。
安全な認証 - 安全な API アクセスにはクライアント ID とクライアントシークレットを使用します。
MIT ライセンス - Python SDK は、以下に基づいてライセンスされています。MIT License.

サポートされているドキュメント形式

GroupDocs.Parser Cloud は、テキスト抽出、画像抽出、テンプレートベースの解析機能を備えた 70 以上のファイル形式をサポートしています。

ワードプロセッサ: DOC、DOCX、DOCM、DOT、DOTX、DOTM、TXT、RTF、ODT、OTT
PDF: PDF
マークアップ: HTML、XHTML、MHTML、MD、XML
電子書籍: CHM、EPUB、FB2
スプレッドシート: XLS、XLT、XLSX、XLSM、XLSB、XLTX、XLTM、ODS、OTS、CSV、XLA、XLAM、数値
プレゼンテーション: PPT、PPS、POT、PPTX、PPTM、POTX、POTM、PPSX、PPSM、ODP、OTP
電子メール: PST、OST、EML、EMLX、MSG
メモ: ONE (Microsoft OneNote)
アーカイブ: ZIP

サポートされる操作は形式によって異なります。完全な形式マトリックスについては、documentation.

クイックスタート

API 認証情報を取得する

GroupDocs.Parser Cloud を使用するには、次の URL でサインアップしてください。GroupDocs.Cloud Dashboardクライアント ID と クライアントシークレット を取得します。

API を初期化する

GroupDocs.Parser Cloud SDK for Python の使用を開始するには、次のコードを使用します。

import groupdocs_parser_cloud

# Get your ClientId and ClientSecret at https://dashboard.groupdocs.cloud
client_id = "YourClientId"
client_secret = "YourClientSecret"

# Create API configuration
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"

# Create instance of the Parse API
parse_api = groupdocs_parser_cloud.ParseApi.from_config(configuration)

ドキュメントからテキストを抽出する

初期化したら、次の基本的な例を使用して、クラウドストレージ内のドキュメントからテキストを抽出します。

import groupdocs_parser_cloud

client_id = "YourClientId"
client_secret = "YourClientSecret"

parse_api = groupdocs_parser_cloud.ParseApi.from_keys(client_id, client_secret)

options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "email/eml/embedded-image-and-attachment.eml"

request = groupdocs_parser_cloud.TextRequest(options)
result = parse_api.text(request)

print("Text: " + result.text)

このクイックスタートガイドを使用すると、Python アプリケーションで GroupDocs.Parser Cloud を使用してドキュメントの解析を開始する準備が整います。詳細については、次のサイトを参照してください。documentation.

サポートされているファイル形式を取得する

パーサー API を通じて利用できる、サポートされているファイル形式の完全なリストを取得します。

import groupdocs_parser_cloud

info_api = groupdocs_parser_cloud.InfoApi.from_keys("YourClientId", "YourClientSecret")

result = info_api.get_supported_file_formats()

for fmt in result.formats:
    print(fmt.file_format)

テンプレートによるドキュメントの解析

クラウドストレージに保存されているユーザー定義のテンプレートを使用してドキュメントを解析し、構造化フィールドとテーブルを抽出します。

import groupdocs_parser_cloud

parse_api = groupdocs_parser_cloud.ParseApi.from_keys("YourClientId", "YourClientSecret")

options = groupdocs_parser_cloud.ParseOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "words-processing/docx/companies.docx"
options.template_path = "templates/companies.json"

request = groupdocs_parser_cloud.ParseRequest(options)
result = parse_api.parse(request)

for data in result.fields_data:
    if data.page_area.page_text_area is not None:
        print("Field name: " + data.name + ". Text: " + data.page_area.page_text_area.text)

    if data.page_area.page_table_area is not None:
        print("Table name: " + data.name)
        for cell in data.page_area.page_table_area.page_table_area_cells:
            print("Row " + str(cell.row_index) + " column " + str(cell.column_index) + ": " + cell.page_area.page_text_area.text)

ドキュメントから画像を抽出する

ドキュメントからすべての埋め込み画像を抽出し、そのクラウドストレージパスとダウンロード URL を取得します。

import groupdocs_parser_cloud

parse_api = groupdocs_parser_cloud.ParseApi.from_keys("YourClientId", "YourClientSecret")

options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "slides/three-slides.pptx"

request = groupdocs_parser_cloud.ImagesRequest(options)
result = parse_api.images(request)

for image in result.images:
    print("Image path: " + image.path + ". Download url: " + image.download_url)
    print("Format: " + image.file_format + ". Page index: " + str(image.page_index))

ドキュメント情報の取得

ページ数やファイルのプロパティなどのドキュメントに関するメタデータを取得します。

import groupdocs_parser_cloud

info_api = groupdocs_parser_cloud.InfoApi.from_keys("YourClientId", "YourClientSecret")

options = groupdocs_parser_cloud.InfoOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "words-processing/docx/password-protected.docx"
options.file_info.password = "password"

request = groupdocs_parser_cloud.GetInfoRequest(options)
result = info_api.get_info(request)

print("Page count: " + str(result.page_count))

コンテナアイテム情報の取得

ZIP アーカイブやメールストアなどのコンテナファイル内のアイテムを一覧表示します。

import groupdocs_parser_cloud

info_api = groupdocs_parser_cloud.InfoApi.from_keys("YourClientId", "YourClientSecret")

options = groupdocs_parser_cloud.ContainerOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "containers/archive/zip.zip"

request = groupdocs_parser_cloud.ContainerRequest(options)
result = info_api.container(request)

for item in result.container_items:
    print("Name: " + item.name + ". FilePath: " + item.file_path)

GitHub のサンプルプロジェクト

のGroupDocs.Parser Cloud Python Samplesリポジトリには、以下をカバーするすぐに実行できるサンプルが含まれています。

カテゴリー	例
情報操作	サポートされているファイル形式、ドキュメント情報、コンテナアイテム情報
解析操作 — テキストの抽出	文書全体からテキストを抽出、書式設定されたテキスト、ページ範囲ごとのテキスト、コンテナーからテキストを抽出
解析操作 — 画像の抽出	ドキュメント全体から画像、ページ範囲ごとに画像、コンテナから画像を抽出
解析操作 — テンプレートによる解析	ユーザーストレージ内のテンプレートによる解析、オブジェクトとして定義されたテンプレート、コンテナ内のドキュメントの解析
テンプレートの操作	テンプレートの作成または更新、テンプレートの取得、テンプレートの削除

サンプルの実行方法

クローンを作成するか、ダウンロードします。samples repository2.編集RunExamples.pyそしてあなたの設定をapp_sidそしてapp_key3. に移動します。Examplesディレクトリ
走るpip install groupdocs-parser-cloud -U5. 実行python RunExamples.py

詳細については、次のサイトをご覧ください。Getting Started.