統計

機械学習

Lasso回帰の特徴とメリットデメリットとは

Lasso回帰とは Lasso回帰、またはL1正則化線形回帰は、統計学および機械学習の分野でよく用いられる手法の一つです。 通常の線形回帰では、予測値と実際の値との差(残差)を最小化するようにパラメータを調整しますが、Lass...
マーケティング

RCT等で用いられる「傾向スコア」とは。算出方法とメリットを理解しよう

傾向スコアとは 傾向スコアとは、実験や観察研究などで観測されたデータから、因果関係を推定するために用いられる数値です。具体的には、介入群(例えば治療群)と非介入群(例えば対照群)との間で、バイアスを調整するために使用されます。傾向ス...
統計

NMF(非負値行列因子分解NMF)の特徴と使い方

NMFとは データ解析の領域では、非負値行列因子分解(Non-negative Matrix Factorization、NMF)は強力な統計処理手法として注目を浴びています。NMFは、多次元データの表現を非負の要素から構成される基...
統計

集合の計算に用いられるダイス係数とは

はじめに データ分析や自然言語処理において、2つのデータセットやテキストの類似度を測る手法は非常に重要です。類 似度を計算するための指標として、一般的に使われるのが「ダイス係数(Dice Coefficient)」です。この記...
統計

ミニバッチを活用する「SGD回帰」とその特徴とは

SGD回帰とは SGD回帰は、確率的勾配降下法を用いて回帰モデルのパラメータを最適化する手法です。SGD回帰では、データセット全体ではなく、ランダムなサンプル(ミニバッチ)を使用してパラメータの更新を行います。これにより、大規模なデ...
統計

「ポアソン分布」とは。稀な事象やカウントデータの分析に用いられる分布を理解しよう

はじめに ポアソン分布は、自然科学や社会科学、ビジネス分析など、多くの分野で広く利用されている確率分布の一つです。この分布は、一定の期間や空間内で発生する稀な事象やカウントデータをモデル化するために特に有用です。この記事では、ポアソ...
統計

集合の計算に用いられるジャッカード係数とその使用例

はじめに データ分析や情報検索の現場では、異なるデータ同士の「どれだけ似ているか」を定量的に評価することが重要です。たとえば、ユーザーの興味の近さを比較したり、類似する文書を検索したりといったシーンで活用されます。こうした類似度の計...
統計

統計検定準1級を取得したので勉強方法を公開します

はじめに このたび統計検定準1級を取得しました。私は都内でデータサイエンティストとして働いており、その周辺知識を体系的に学びたいと考えたため、今回統計検定準1級を受験し、合格することができました。 今回合格することができました...
統計

分析やモデル作成の際に注意すべき「内挿」と「外挿」とは

はじめに 内挿と外挿とは分析の時に注意すべきポイントであり、特に予測時や推定時に想定外のことが起きないように言葉の意味を理解し分析に生かすことが重要です。こちらの記事では内挿と外挿およびそれらの違いについて解説します。 内挿や...
統計

データ分析の際に考えるべき「サンプリングバイアス」とは

はじめに データ分析において、私たちは様々な種類のバイアスに注意を払う必要があります。その中でも特に重要なのが、「サンプリングバイアス」です。このバイアスは、データ収集の過程でサンプリングの方法やプロセスに起因するものであり、分析結...
Copied title and URL