クラウド・ストレージ内のオブジェクトへのリンク
Oracle Autonomous Databaseからクラウド・ストア・バケット内のファイルへのリンクを作成する場合、クラウド・ストア内のファイルにリンクする外部表を作成します。
AVRO、CSV、JSON、GeoJSON、Parquet、ORC、デリミタ付きTXTのファイル形式のファイルにリンクできます。サポートされているファイル形式の詳細は、「JSON、AVROおよびXMLファイルの形式の仕様」を参照してください。
「クラウド・オブジェクトのリンク」ページからデータ・リンク・ジョブを構成および実行します。このページを開くには:
- データベース・アクションの起動パッドを開き、「Data Studio」タブをクリックして、「データ・ロード」メニューを選択します。「「データ・ロード」ページ」を参照してください。
- 「データのリンク」および「クラウド・ストア」を選択します。
ページの左側にはナビゲータ・ペインがあり、そこでクラウド・ストア接続と、データを含むフォルダまたはファイルを選択します。ページの右側には、データ・ロード・カートがあり、そこでデータ・リンク・ジョブのファイルおよびフォルダがステージングします。データ・リンク・ジョブを実行する前に、そのオプションを設定できます。Autonomous Databaseには、様々なコンシューマ・グループに割り当てられた事前定義済のCPU/IOシェアが付属しています。ワークロードに応じて、データ・ロード・ジョブの実行中にコンシューマ・グループを低、中または高のいずれかに設定できます。
- データ・リンク・ジョブ用のクラウド・ストレージ・リンクの管理
クラウド・ストアのデータにリンクする前に、使用するクラウド・ストアへの接続を確立する必要があります。 - データ・リンク・ジョブの準備
- データ・リンク・ジョブのファイルまたはフォルダの追加
- データ・リンク・ジョブ詳細の入力
「クラウド・ストレージからのデータ・リンク・ジョブ」ペインにデータ・リンク・ジョブに関する詳細を入力します。 - データ・リンク・ジョブの実行
データ・リンク・カートにデータ・ソースを追加し、データ・リンク・ジョブに関する詳細を入力したら、ジョブを実行できます。 - 実行後のデータ・リンク・ジョブの詳細の表示
「データ・ロード」ダッシュボードでジョブの進捗を確認できます。 - データ・リンク・ジョブから生成される表の表示
データ・リンク・ジョブの実行後、データ・リンク・ジョブによって作成された表をデータ・ロード・ダッシュボードに表示できます。
親トピック: データのリンク
データ・リンク・ジョブのクラウド・ストレージ・リンクの管理
クライアント・ストアのデータにリンクする前に、使用するクラウド・ストアへの接続を確立する必要があります。
「クラウド・オブジェクトのリンク」ページで:
-
クラウド・ストアの場所を入力するフィールドの横にある「クラウド・ストアの管理」アイコンをクリックします。「+クラウド・ストアの場所の作成」を選択します。
-
クラウド・ストアの場所の追加ペインに情報を入力します。クラウド・ストレージの場所の追加を確認してください。
「接続の管理」を参照してください。
「クラウド・オブジェクトのリンク」ページに戻るには、ページ上部のブレッドクラムで「データ・ロード」をクリックし、ページに戻ります。
親トピック: クラウド・ストレージ内のオブジェクトへのリンク
データ・リンク・ジョブの準備
ソース・データが外部ターゲット表に正しくリンクされるように、ソース・データまたはターゲット表の調整が必要になる場合があります。次のことを考慮してください。
-
複数のファイルにリンクする場合は、次のことを確認する必要があります:
-
すべてのソース・ファイルが同じタイプ(CSV、JSONなど)です。
-
すべてのソース・ファイルの列の数、順序およびデータ型が一致します。
-
-
日付でパーティション化する場合:
-
ソース・ファイルに、データ型が日付またはタイムスタンプであるデータが含まれている必要があります。
-
2つ以上のデータ・ソースが含まれるフォルダをロードする必要があります。
-
フォルダ内のファイルの名前には、
MAR-1999.csv
や2017-04-21.xlsx
などの日付(1つまたは複数)を指定する必要があります。
-
親トピック: クラウド・ストレージ内のオブジェクトへのリンク
データ・リンク・ジョブのファイルまたはフォルダの追加
クラウド・ストアからデータ・リンク・カートにファイルを追加し、そこでデータ・リンク・ジョブの詳細を編集できます。ファイルを追加するには:
-
左側のナビゲータ・ペインの上部にあるリストから、ソース・データが含まれるバケットを選択します。
リストには、「クラウド・ストレージの管理」ページで確立されたリンクが表示されます。使用するクラウド・ストアがまだ登録されていない場合は、Data Studioツール・スイートの「データ・ロード」メニューの「接続」ボタンをクリックし、接続を登録します。
-
左側のファイル・ナビゲータから1つ以上のアイテムをドラッグし、右側のカートにドロップします。
-
ファイル、フォルダ、またはその両方を追加できます。ドラッグするファイルまたはフォルダごとに、カードがカートに追加されます。カードでは、ソース・ファイルまたはフォルダの名前と、ターゲット表に対して提案される名前がリストされます。
-
複数のファイルが含まれるフォルダを追加する場合、すべてのファイルは同じタイプ(CSV、TXTなど)である必要があります。
フォルダをカートに追加すると、複数のソース・ファイルから単一のターゲット表にすべてのオブジェクトをロードするかどうかを尋ねるプロンプトが表示されます。続行する場合は「はい」を、取り消す場合は「いいえ」をクリックします。
-
複数の個別ファイルまたは複数のフォルダをカートに追加すると、各カードで表されるデータが個別の表にロードされますが、カート内のすべてのアイテムが同じデータ・ロード・ジョブの一部として処理されます。
-
別のバケットからファイルまたはフォルダを追加できますが、追加する場合は、続行する前に、すでにカートに存在するすべてのファイルを削除するように求められます。別のバケットからファイルを選択するには、前述のとおり、左側のナビゲータ・ペインのドロップダウン・リストからバケットを選択し、ファイルを追加します。
-
ファイルまたはフォルダをデータ・ロード・カートにドロップし、データ・リンク・オブジェクト・ページから移動できます。ページに戻ると、これらのアイテムはページに残りますが、次のメッセージが表示されることがあります: 「すべてのデータ・リンク・アイテムを削除します。別のクラウド・ストレージの場所に変更するには、すべてのアイテムをデータ・ロード・ジョブから削除する必要があります。続行しますか?」カートからアイテムを削除するには、「はい」をクリックします。カート内のアイテムを保持するには、「いいえ」をクリックします。その後、作業を続行できます。
-
データ・リンク・ジョブを実行する前に、カートからアイテムを削除できます:
-
カートからアイテムを削除するには、ペインの上部にあるアイテム「データ・リンク」カート・メニュー・バーのカードで「削除」を選択します。
-
カートからすべてのアイテムを削除するには、ペインの上部にあるデータ・リンク・カート・メニュー・バーで「すべて削除」をクリックします。
親トピック: クラウド・ストレージ内のオブジェクトへのリンク
データ・リンク・ジョブの詳細の入力
クラウド・ストレージからのデータのリンク・ペインで、データ・リンク・ジョブの詳細を入力します。
データ・リンク・カートのカードで、「設定」をクリックし、そのジョブの「クラウド・ストレージからのデータのリンク」ペインを開きます。ペインの内容は次のとおりです:
「設定」タブ - 「表」セクション
「表」セクションで、ターゲット表の詳細を設定します。
- 名前:ターゲット表の名前。
-
パーティション列:
リスト・パーティションと日付ベースのパーティションは、データ・リンクで使用できる異なるタイプのパーティションです。
リスト・パーティション化は、特に離散値に基づいて行をパーティションにマップする場合に必要です。
特定の列に従ってパーティション化するには、「パーティション列」ドロップダウン・リストをクリックし、パーティション化に使用する列を選択します。
パーティション値ごとにN個のファイルがあり、選択したパーティション列ですべてパーティション化されます。
ノート
- (外部表からの)リンクされたファイルの場合、各ファイルに対して、リスト・パーティション化列には、すべての行にわたって単一の個別値のみを含めることができるという要件もあります。
- ファイルがリスト・パーティション化される場合、パーティション化キーに使用できるのは表の1列のみです。
日付ベースのパーティション化を使用できるのは、日付またはタイムスタンプ・データが含まれる列がある2つ以上のデータ・ソースが含まれるフォルダにリンクする場合です。
日付に従ってパーティション化するには、「パーティション列」ドロップダウン・リストをクリックし、パーティション化に使用する「日付」または「TIMESTAMP」列を選択します。
-
検証タイプ:検証では、指定したフォーマット・オプションに一致しないソース・ファイル、オプションのパーティション化情報、およびレポートの行を調べます。検証しない場合には「なし」を選択します。データ・サンプルに基づいて検証を実行するには「サンプル」を選択します。または、すべてのデータに基づいて検証を実行するには「全体」を選択します。
- ワイルドカードの使用:このチェック・ボックスを使用すると、検索条件にワイルドカード文字を使用すると、フィルタ基準に一致する特定のファイル・グループを取得できます。
アスタリスク(*)などのワイルドカード文字を使用して、新しいファイルを検出して外部表に追加するファイルのグループを検索、フィルタおよび指定できます。
たとえば、file*と入力すると、file01、file02、file03などがキーワードと一致するとみなされます。アスタリスク(*)は、ゼロ個以上の可能性のある文字をキーワードに一致させます。
ノート
ワイルドカードのサポートはパーティション化と互換性がありません。パーティション化されたデータでワイルドカードを使用した場合、ソース・ファイルの検証は失敗します。
「設定」タブ - 「プロパティ」セクション
ソース・データの解釈、プレビューおよび処理の方法を制御するオプションを指定します。これらのオプションは、ソース・データのタイプによって異なります。
-
エンコーディング:リストから文字エンコーディング・タイプを選択します。このオプションは、リンクされたファイルがプレーン・テキスト形式(CSV、TSVまたはTXT)である場合に使用できます。デフォルトのエンコーディング・タイプはUTF-8です。
-
テキスト囲い:テキストを囲む文字として、「」(二重引用符)、「」(一重引用符)または「なし」を選択します。このオプションは、選択したファイルがプレーン・テキスト形式(CSV、TSVまたはTXT)である場合にのみ表示されます。
-
フィールド・デリミタ:ソース内の列を区切るために使用するデリミタ文字を選択します。たとえば、ソース・ファイルで列の区切りにセミコロンを使用する場合は、このリストから「セミコロン」を選択します。デフォルトは「カンマ」です。このオプションは、選択したファイルがプレーン・テキスト形式(CSV、TSVまたはTXT)である場合にのみ表示されます。
-
行でデータの処理を開始:ソース・データをターゲット外部表にリンクするときにスキップする行数を指定します:
-
「ソース列名」(次を参照)で「列ヘッダー行」オプションを選択し、「行でデータの処理を開始」フィールドに0より大きい数字を入力した場合、最初の行よりも後のその行数がターゲットにリンクされません。
-
「ソースの列名」で「列ヘッダー行」オプションの選択を解除し、「行でデータの処理を開始」フィールドに0より大きい数字を入力した場合、最初の行を含むその行数がターゲットにリンクされません。
-
-
ソース列名:ターゲット表でソース表の属性名を使用するには、「列ヘッダー行」チェック・ボックスを選択します。
-
このオプションを選択すると、ファイルの最初の行が列名として処理されます。下の「マッピング」セクションの行には、これらの名前(および変更しないかぎり既存のデータ型)が入力されます。
-
このオプションの選択を解除すると、最初の行はデータとして処理されます。列名を手動で指定するには、「マッピング」セクション内に各ターゲット列の名前を入力します。(データ型も入力する必要があります。)
-
-
数値列: 「無効なデータをNULLに変換」チェック・ボックスを選択して、無効な数値列値をNULL値に変換します。
-
データ値に改行の内容を含む: データ・フィールドに改行の文字がある場合、または現在の行の先頭に戻る場合は、このオプションを選択します。このオプションを選択すると、ロードの処理にかかる時間が長くなります。データのロード時にこのオプションを選択しない場合、フィールドの改行を含む行は拒否されます。「ジョブ・レポート」パネルで否認された行を表示できます。
「設定」タブ - 「マッピング」セクション
「マッピング」セクションの設定によって、ソース・ファイルのデータがターゲット外部表の行にどのようにリンクされるかを制御します。各行について、「ソース列」にリストされている列のデータは、「ターゲット列」にリストされている列にリンクされます。
-
ソース列: ソース・ファイルの列がリストされます。
「プロパティ」で「列ヘッダー行」オプションが選択されている場合、「ソース列」にはソース・ファイル内の列の名前が表示されます。「列ヘッダー行」オプションが選択されていない場合は、COLUMN_1、COLUMN_2などの汎用名を使用します。このフィールドは、常に読取り専用です。
2つのソース列
FILE$NAME
およびSYSTIMESTAMP
を表示できます。FILE$NAME
列を使用すると、特定のデータ・レコードを含むソース・ファイルを検索できます。たとえば、ファイルのリストを含むソース・ファイルをロードします。ファイル・リストのファイル名は、組織全体の部門名を参照します。たとえば、finance.txtファイルには、財務部門のデータが含まれます。マッピングでは、文字列データ型を使用して、ファイル名列の出力から部門名を抽出できます。抽出した部門名を使用して、部門ごとに異なる方法でデータを処理できます。SYSTIMESTAMP
列を使用すると、データベースの現在のタイムスタンプを表示できます。ノート
- デフォルトでは、
FILE$NAME
およびSYSTIMESTAMP
ソース列は含まれません。これらの2つの列を表示するには、「含む」チェック・ボックスを選択し、ターゲット表のロードを実行する必要があります。 - ライブフィードを作成すると、デフォルトで
FILE$NAME
およびSYSTIMESTAMP
ソース列がマッピング表に表示されます。
- デフォルトでは、
-
ターゲット列:ターゲット表の列がリストされます。
-
「列ヘッダー行」オプションが選択されている場合、「ターゲット列」ではソース・ファイル内の列の名前が使用されます。指定した名前を新しい列に置き換えることで、ターゲット列の名前を変更できます。ターゲット列が空でないことを確認する必要があります。ターゲット列名は、別のターゲット列と重複できません。ターゲット列名を別のターゲット列と重複させることはできません。ターゲット列の長さは128バイトを超えることはできません。128バイトの制限はデータベース制限です。
-
「列ヘッダー行」オプションが選択されない場合、COLUMN_1、COLUMN_2などの汎用名を使用します。指定した名前を新しい列に置き換えることで、ターゲット列の名前を変更できます。
ノート
1つのデータ・リンク・ジョブでフォルダから複数のファイルをリンクする場合、最初のファイルのみが「マッピング」セクションに表示されます。ただし、列名とデータ型が一致するかぎり、すべてのソース・ファイルのデータがリンクされます。
-
-
データ型:その列のデータに使用するデータ型がリストされます。内容は、「ファイル・ヘッダーから取得」オプションが選択されているかどうかによって異なります。
-
「列ヘッダー行」オプションが選択されている場合、「データ型」にソース・ファイル内の列のデータ・タイプが表示されます。ターゲットのデータ型を変更する場合は、名前をクリックしてリストから別のデータ型を選択します。
-
「列ヘッダー行」オプションが選択されていない場合、「データ型」には使用可能なすべてのデータ型が表示されます。ターゲット列に使用するデータ型をリストから選択します。
-
-
長さ/精度(オプション): データ型がNUMBERの列の場合、列内の数値の長さ/精度を入力します。精度とは、数値の有効桁数を指します。精度は1から38までです。
データ型がVARCHAR2の列の場合、「長さ/精度」フィールドの「自動」値により、自動サイズ設定機能が有効になります。
「列幅の自動調整」機能を使用すると、列内の最大値に合うように列のサイズを自動的に調節できます。「長さ/精度」ドロップダウン値またはドロップダウン・リストから「自動」を選択するか、ドロップダウン・リストから値を選択してください。
-
スケール(オプション): 「データ型」がNUMBERの列の場合、列内の数値のスケールを入力します。位取りとは、小数点の右(正)または左(負)の桁数を指します。位取りの範囲は、-84から127です。
-
形式: 「データ型」列のデータ型がDATEまたはいずれかのTIMESTAMP型の場合、「形式」ドロップダウン・リストからその型の書式を選択します。
プレビュー・タブ
「プレビュー」タブの「プレビューのロード」メニューには、ソース・データが表形式で表示されます。表示には「プロパティ」セクションで選択した設定が反映されています。「ファイル」メニューには、列名を含むソース・データが表示されます。
複数のファイルが含まれるフォルダをデータ・リンク・カートにドラッグし、そのカードの 「設定」をクリックすると、「プレビュー」ペインには、フォルダ内のすべてのファイルがリストにリストされている「オブジェクト(ファイル)のプレビュー」ドロップダウン・リストがペインの上位に表示されます。プレビューするソース・ファイルをそのリストから選択します。
「表」タブ
「表」タブには、データがリンクされた後のターゲット表がどのように見えるかが表示されます。
「SQL」タブ
「SQL」タブには、このデータ・リンク・ジョブを完了するために実行されるSQLコマンドが表示されます。
SQLコードは、表が作成される前であっても確認できます。
「閉じる」ボタン - ペインを保存して閉じる
データ・リンク・ジョブの詳細をすべて入力した後、ページの下部にある「閉じる」をクリックします。これにより、入力した詳細が保存され、クラウド・ストレージからのデータのリンク・ペインに戻ります。
親トピック: クラウド・ストレージ内のオブジェクトへのリンク
データ・リンク・ジョブの実行
データ・リンク・カートにデータ・ソースを追加し、データ・リンク・ジョブに関する詳細を入力したら、ジョブを実行できます。
ジョブを実行するには:
- まだ行っていない場合は、「クラウド・ストレージからのデータのへのリンク」ペインで「閉じる」ボタンをクリックして設定を保存し、ペインを閉じます。いずれかの設定が無効な場合、エラー・メッセージで問題がレポートされます。問題を修正し、「閉じる」をクリックします、
-
データ・リンク・カート・メニュー・バーで
「開始」をクリックします。データ・リンク・ジョブを停止するには、
「停止」をクリックします。
データ・リンク・ジョブが完了すると、「データ・ロード」ダッシュボード・ページに、「表およびビューのロード」セクションの下にジョブの結果が表示されます。
データ・リンク・ジョブが開始されると、「データ・ロード」ダッシュボードでジョブの進捗を表示できます。
親トピック: クラウド・ストレージ内のオブジェクトへのリンク
実行後のデータ・リンク・ジョブに関する詳細の表示
「データ・ロード」ダッシュボードでジョブの進捗を表示できます。
データ・ロード・ジョブが完了すると、「データ・ロード」ダッシュボード・ページにジョブの結果が表示されます。表ロードのヘッダーの上部に、表の名前と表に存在する列の合計を表示できます。
「ジョブ・レポート」をクリックして、正常に処理した行の合計数および却下された行の数を表示します。開始時間を表示することもできます。ジョブ・レポートの「SQL」ペインには、ジョブと同等のSQLコードが表示されます。
ジョブ内のアイテムに関する情報を表示するには、表ロードの「アクション」アイコンをクリックします。
ロード操作のログを表示するには、「ロギング」アイコンをクリックします。ログの保存、クリアまたはリフレッシュができます。「OK」をクリックして、ログを閉じます。
親トピック: クラウド・ストレージ内のオブジェクトへのリンク
データ・リンク・ジョブから生成された表の表示
データ・リンク・ジョブの実行後、「データ・ロード」ダッシュボードでデータ・リンク・ジョブによって作成された表を表示できます。
データ・ロード・ジョブを修正します。データ・ロード・ジョブの後、修正が必要なエラーが表示される場合や、検査時に、列の名前を変更する必要があることに気付く場合があります。このような場合は、選択した表のロードの「再ロード」オプションをクリックして最近のカートからカードを再ロードし、最初の試行前に行ったように編集します。「再ロード」アイコンは、ツールで提示された修正を使用してソース・データをリロードします。表ヘッダーの「アクション」アイコンをクリックし、「表」を選択して、「編集」を選択して、データ・ロード・ジョブに変更を加えます(つまり列名を変更)。
親トピック: クラウド・ストレージ内のオブジェクトへのリンク