Dive into hoge

データ分析関連の備忘録

2017-01-01から1年間の記事一覧

Tableauで2軸グラフ(ヒストグラム&累積%線グラフ)

dev.classmethod.jp

欠損値を0で埋める

データフレームはすでに作っていて欠損値NaNが入っている前提。 import numpy as np df = df.replace(np.NaN,0)

redshiftからデータ読み込んでpandasのデータフレームに入れる

まずはRedshiftに接続する。 import psycopg2 import redshift_sqlalchemy from sqlalchemy import create_engine engine = create_engine('{dialect}+{driver}://{user}:{pwd}@{url}:{port}/{db}'.format( dialect = 'redshift', driver = 'psycopg2', user…

Tableau基礎

web-kaizen.co.jp移動平均 web-kaizen.co.jp

cdコマンド(ディレクトリ移動)

www.garunimo.com

EC2にsshでログインできなくなった場合の対処法

環境構築時にハマったので備忘として。 gist.github.com

emacsについて

emacsのコピペのメカニズム コピーアンドペーストを使いこなす(松山智大) — ありえるえりあemacsを使って文章を書く Emacs を使って,文章を書く - Linux による Web プログラミング入門

SSHの公開鍵を作成しGithubに登録する手順

最初にしかやらないから忘れがちなので備忘として。 monsat.hatenablog.com qiita.com

クラスタリング

<非階層的手法> 評価関数(例えばクラスタ内誤差平方和、SSE)を定義し、これが最適になるような分割する。 k-meansの流れは次の4段階にまとめられる。1: k個の中心点をランダムに選ぶ。 2: 各サンプルを最も近い中心点に割り当てクラスタを作る。 3: クラ…

numpy.ndarrayにappendしたいとき

numpy.ndarrayにattributionとしてappendは用意されていない。 例えば x = np.arange(-100,101,1) というとき、 x.append ではattribution errorとなる(listと同じようには扱えない)。 np.append(x, 1) とやる必要がある(1には追加したい要素)

Inputデータの次元が合わないとエラーが出たとき

まず前提のimportが下記。 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.svm import SVCデータセットはこれ。ここからが本文。 df = pd.read_csv("Wholesale customers data.csv") X = pd.DataFrame(df, columns…

pandas操作①:loc, iloc, ixの違い

StandardScalerとMinMaxScaler

sklearnの標準化と規格化モジュールの比較。 正規化、標準化とは 正規化:正規化とは、特徴量の値の範囲を一定の範囲におさめる変換標準化:標準化とは、特徴量の平均を0、分散を1にする変換 基本は、標準化を用いる。正規化だと、外れ値が強く影響してしま…

numpyの配列のスライス

すぐに忘れる。備忘。

ベイズの定理

ベイズの定理のわかりやすい説明。 <補足>P(A):事前確率例では迷惑メールの確率となっているが、これはあくまでサンプルにおける確率であり、真の母集団における確率ではないので恣意性が入る。この恣意性を入れることができるのがベイズの特徴でもある。