Kou

IT

高速な表計算ライブラリ「Polars」と「Pandas」でテーブル処理の速度を比較してみた

はじめに データサイエンスの分野では、表形式のデータ処理が欠かせない作業の一つとなります。これまで「Pandas」が広く使われてきましたが、最近はRustで開発された「Polars」というライブラリが注目を集めています。 Po...
機械学習

クロスバリデーション(交差検証)とは。pythonを用いた例も紹介

はじめに クロスバリデーション(交差検証)は、モデルの性能をより正確に評価するためにデータセットを複数の分割に分けて訓練とテストを繰り返す方法です。 通常、データを訓練セットとテストセットに単純に分割する方法では、データの偏り...
IT

動的なグラフ描画ライブラリ「plotly」とは。expressとgraph_objectsの違いも紹介

はじめに データを視覚化する際、見やすくてインタラクティブなグラフが作れると非常に便利です。Pythonのplotlyは、そんな要望にぴったりです。 Jupyter Notebookやウェブ上での使用も簡単なので、データサイエ...
IT

コマンドプロンプトでよく使うコマンドを7個紹介

コマンドプロンプトとは コマンドプロンプトは、Windows OSにおいて直接コマンドを入力してPCを操作するためのインターフェースとなります。GUI(グラフィカルユーザーインターフェース)とは異なり、黒い画面にコマンドを入力するこ...
統計

「ベイズの定理」とは。条件付き確率と合わせて紹介

はじめに ベイズの定理は、確率論において非常に重要な考え方であり、特に条件付き確率と深い関係があります。この記事では、条件付き確率を通じてベイズの定理の意味をわかりやすく説明し、その例を紹介します。 ベイズの定理は、様々な場面...
機械学習

決定係数R2とは。使い方を理解しよう

はじめに 決定係数(R2) とは、回帰分析においてモデルがデータどれだけ説明できるかを示す指標です。R2の値は 0から1 の範囲にあり、 1に近いほどモデルがデータをよく説明していることを意味します。 決定係数を含め、様々なモ...
機械学習

2つのデータ間距離を測る「ハミング距離」とは

はじめに データサイエンスや情報理論において、データ同士の違いを測ることは非常に重要です。 特に、デジタル通信やエラーチェックの分野でよく使われる「ハミング距離」は、2つのデータ間の違いを簡単に数値化できる便利な指標です。 ...
機械学習

機械学習で用いられる評価指標をまとめて紹介

はじめに 機械学習モデルのパフォーマンスを測るには、目的に応じた適切な評価指標を選ぶことが重要です。分類モデルと回帰モデルでは、それぞれ異なる評価指標が使われるため、この記事ではそれらを整理して紹介します。 評価指標は多くあり...
機械学習

「マハラノビス距離」とは。python例も合わせて紹介

はじめに マハラノビス距離(Mahalanobis Distance)は、データのばらつきや相関関係を考慮して距離を測る方法です。 ユークリッド距離(単純な直線距離)と異なり、異なるスケールを持つデータや変数間の相関を考慮して...
統計

統計学で用いられる「尤度」とは。わかりやすく紹介

はじめに 統計学において「尤度(ゆうど)」は、データが観測された際に、そのデータがある特定のモデルやパラメータによってどれだけ「もっとも(尤も)らしい」かを示す指標です。この概念は、特に統計モデルの評価やパラメータの推定において重要...
Copied title and URL