現役データ分析者による分析事例・分析環境設定方法をお伝えします。
データ分析に必要なSnowparkとPandas操作の基本知識
Snowpark for Pythonを使用してストアドプロシージャーを作成することで、Pythonのライブラリを使った柔軟な集計・分析用処理を実現することができます。例えば、SQLでは難しいPandasを使ったデータ加工・集計、sklea...
Cursor+Pythonによるデータ分析環境構築
これまでデータ分析環境としては、VSCode+Pythonを使ってきましたが、AIによるコード作成支援機能を搭載したCursorというコードエディタが流行っていると耳にしたので、PCを入れ替えたタイミングで、Cursor+Pythonによる...
【Snowflake】分析・集計に役立つSQLの関数一覧!
Snowflakeで分析・集計に役立つSQLの関数一覧をまとめました。分析業務に必要な基本的な集計関数はもれなく存在しますが、AUC、AR、エントロピー、カイ2乗値等の統計値を算出する関数は、組み込み関数にはなく、ユーザー定義関数(UDF)...
【Snowflake】ユーザー定義関数(UDF)の引数に配列を指定する方法。
ユーザー定義関数(UDF)の引数には、文字列や数値を指定することができますが、配列の引数も指定できます。引数に配列を使うことで、UDFで実現できる処理の幅も広がります。なおUDFの基本について知りたい場合は、こちらの記事を参照ください。この...
【Snowflake】再帰SQLを使って単方向リストをさかのぼる!
分析業務をしていると、単方向リストのデータを扱うことがあります。単方向リストとは、各要素が次または前の要素の情報を保持しており先頭から末尾まで数珠繋ぎに要素が並んでいるリストのことです。実際のデータで説明すると、A、B、Cという各要素が、A...
【Snowflake】SnowSQLを利用した複数CSVファイルのエクスポート方法
分析・集計業務では、報告書やレポートを作成するために、各種集計や検証結果をCSVファイルとしてエクスポートできると便利です。SnowflakeでCSVファイルをエクスポートする方法としては、WebUIを使う方法と、SnowSQLを使う方法の...
【Snowflake】レコードの重複を除く方法。分析屋ならOver句を使おう!
分析のためのデータ加工処理では、特定の条件で行レコードの重複を除くといった処理をよく行います。例えば、更新日付を持っているお客様属性情報からお客様毎に日付が一番新しいレコードを取得する処理、複数の契約情報から契約期間が一番長いレコードを取得...
【Snowflake】ユーザー定義関数(UDF)の作成方法。サンプルコードあり
分析業務の中でデータ加工・集計作業を実施していると、Snowflakeが提供する組み込みのシステム定義関数だけは実現できない加工処理や、同じ構文を繰り返すことでSQLが冗長となるケースがありますが、ユーザー定義関数(UDF)を使うことで、課...
【Snowflake】WebUIの画面イメージとSQLの実行方法の説明
Snowflakeでは、WebUIというブラウザベースのツールを使ってデータの加工・集計を行います。ただ、このWebUIツールをWEBで調べても、初心者に分かりやすく説明してくれるページがありませんでした。そこで、この記事ではWebUIのイ...
【Snowflake】ストアドプロシージャの戻り値でテーブル情報を返す方法。サンプルコードあり
Snowflakeのストアドプロシージャには、戻り値にテーブル情報を指定できる機能があることをご存じでしたか?この戻り値にテーブル情報を指定できる機能はとても便利です。これまではストアドプロシージャで処理を実行し、結果についてはSelect...