「StiLL」 デザイン情報294 StiLLコマンド-- データ量の多いCSVファイルからの取込み時間を短縮する手法のご紹介
                             
  【テーマ】
データ量の多いCSVデータを取込むとき時間が気になりませんか?
今回は時間短縮できる方法をご紹介します。
    【方法】
(CSVデータ取得「BtTextRead」)ボタンの設定でデータに存在しない区切り文字を指定して丸ごとデータを取込みます。
取込んだデータから必要な項目を分離します。
    【参考】
1.分離する数式を(セル値セット「BtSetValue」)ボタンで設定することが出来ます。 2. 本例はデータ件数が多く、また集計等で実際に利用する項目が限定される場合に特に有効な方法となります。 3.CSVデータは(Excelデータ取得「BtMerge」)ボタンでも取得できます。
 
                 
                             
■ 今回の内容                          
データ量が多いCSVファイルからの取込み時間を短縮する方法(考え方)をご紹介いたします。
基本的にCSVデータを取込むときは(CSVデータ取得「BtTextRead」)ボタンを使用します。
CSVファイルはカンマ区切りの文字列データですので、ボタンの処理ではカンマ部分でデータを分離してシートに出力します。 
そのためデータ件数や項目数(列)が多いと分離して出力する処理に時間が多く必要となります。
例えば下図ような58万件(7項目)のデータ(Test58m.csv)をノートPC(※)で取込む場合、概ね40秒弱かかります。
※Core i7-8550U メモリ8GB環境で実行、なお処理時間はPCの性能や実行環境により変動します。
↓ Test58m.csv のデータ イメージ
↓ CSVデータ取得ボタンの設定例(カンマ指定)
 下段拡大図
↓ 取込まれたデータのイメージ
この取込み時の分離処理を最小限(無し)にすることで処理時間を短縮することができます。
分離の最小限化は分離条件の区切り文字を工夫することで可能となります。
・ポイント
 1.CSVデータ取得「BtTextRead」ボタンの テキスト区切り文字(その他)でデータには存在しない文字列を入力します。
    ⇒ データを丸ごと塊で取込みます。
 2.取込んだ塊のデータから必要な項目を分離します。
本例では取込んだデータの項目を TEXTBEFORE関数TEXTAFTER関数 を使用して分離します。
※TEXTBEFORE関数、TEXTAFTER関数は Microsoft365 および Excel2024で使用できる関数です。
■ ボタンの作成と設定                        
今回使用するボタンを赤枠で示します。(リボン - StiLL - ボタンテンプレート)
今回のボタン設定例を以下に示します。
下段拡大図
上記ボタンの設定で冒頭説明での取込み時間(40秒弱)が、10秒未満に短縮されました。(最速8秒台)
↓ 塊で取込まれたデータのイメージ
取込まれたデータの項目を分離する数式は以下のように入力しておきます。
ここでは、売上月、支店名、売上、粗利 の4項目を分離します。
※数式は4つのセルに入力します。(入力された数式はスピル機能で動的に展開されます)
・売上月:セルB2 =TEXTAFTER(A2:A580001,",",-1)
       ⇒ 塊の最後の列(売上月)を分離取得
・支店名:セルC2 =TEXTBEFORE(TEXTAFTER(A2:A580001,",",3),",")
       ⇒ 塊の最初のカンマから3つ目の次(支店名)を分離取得
・売 上:セルD2 =VALUE(TEXTBEFORE(TEXTAFTER($A2:$A580001,",",4),","))
       ⇒ 塊の最初のカンマから4つ目の次(売上)を分離取得(VALUEで数値化)
・粗 利:セルE2 =VALUE(TEXTBEFORE(TEXTAFTER($A2:$A580001,",",5),","))
       ⇒ 塊の最初のカンマから5つ目の次(粗利)を分離取得(VALUEで数値化)
また見出しを次のセルに入力します。
 セルB1:売上月、セルC1:支店名、セルD1:売上、セルE2:粗利
上記数式を予め入力した状態で、取込みから分離まで含めても10秒程度で完了しました。
↓ 塊のデータと分離された項目(売上月、支店名、売上、粗利)のイメージ
なお、上記数式での範囲($A2:$A580001)は取得ボタンの出力範囲名を入力することでデータ件数にあわせた範囲を定義できます。
 ⇒ 見出し行を除く範囲をDATAと名前定義した場合の数式例(売上月):=TEXTAFTER(DATA,",",-1)
■ ご参考までに                        
1. 分離する数式を(セル値セット「BtSetValue」)ボタンで設定することが出来ます。
↓ ボタン設定例:売上月を分離する数式をセットした状態(設定された数式はスピル機能で動的に展開されます)
  ※イコールの後に "^" ハット記号を付けてから数式を記述します。
  ※本機能は StiLL v.4.0 以降でご使用いただけます。
2. 本例はデータ量が多く、また集計等で実際に使用する項目が限定される場合に特に有効な方法となります。
  参考値:列数を49列(本例の7倍)とした場合、取込みだけに要した時間は同じノートPCで概ね54秒でした。
        また売上月、支店名、売上、粗利の4項目の列展開処理を含めた全体の時間は約56秒となります。
        一方、カンマ区切り(通常)での取込みでは、同じノートPCで約23分を要しました。(全49列展開)
3. CSVデータは(Excelデータ取得「BtMerge」)ボタンでも取得できます。(カンマ区切りのみ)
  項目名での列選択、また抽出条件指定や集計処理等の機能もございますので用途に応じてご利用ください。
  このボタンでは、冒頭のCSVデータ取得ボタンで区切り文字にカンマを指定したときより速く取込めます。(本例では5秒程度短縮)
  列数が多い場合にはその差が拡大する傾向がありますのでご自分の環境でシミュレーションの上ご利用をご検討ください。
  ・同様に49列から売上月、支店名、売上、粗利の4列を取込む処理時間は80秒強となりました。
(各ボタンの設定内容の詳細はStiLLヘルプをご確認ください)  
Copyright(C) アイエルアイ総合研究所 無断転載を禁じます