論文の読み方・書き方

exotic その他

グラム先生のチュートリアル資料「国際会議論文の読み方・書き方」 http://www.phontron.com/slides/neubig15nlptutorial.pdf「論文の読み方・書き方」改め ArXiv時代の論文の読み方こう書くと落ちる論文の書き方 AHC-Lab M1勉強会論文の読み方・書き方 fr…

2019-04-29

集計の軸を探す方法

exotic 分析全般

下記資料から抜粋。 speakerdeck.com 仮説と集計結果が異なる場合、取るアプローチ。エキスパートジャッジメントで探す（深いドメイン知識が必要）でいい感じのパラメタ探す因果推論で探す共変量の影響を除外して目的変数への影響を知りたい。傾向スコ…

2019-02-21

BigQueryでのGA360データ利用

exotic SQL BQ

やりたいこと GA360と連携されたBigQuery（以下BQ）でカスタムディメンションの集計対象テーブルを動的にする（平日のみ実行。月曜は金土日を対象、それ以外の平日は前日を対象として抽出）前提このエントリで説明しないこと。 GA360とBQの連携の仕方カ…

2019-02-12

pipとconda

python exotic

pipとcondaとはなにか？ pipはPython標準のパッケージ管理ツールでPyPIからインストールする。 condaはAnacondaのパッケージ管理ツールでAnaconda社が提供するレポジトリからパッケージをインストールする（だからPyPIにはあるけどAnacondaにはない場合があ…

2018-09-12

pandas操作⑧：queryに変数を指定する場合

pandas python exotic

queryで条件指定にリストを使いたくて、生のリストではなく変数を入れたい場合。 # tmpはリスト何らかのデータフレーム.query('カラム名==tmp') そのまま変数入れるとエラーになる。 UndefinedVariableError: name 'tmp' is not defined 下記のように変数の…

2018-08-27

xgboost：エラー編

python exotic

RandomForestのグリッドサーチと同じようにxgboostでもやろうとした。下記はmax_depthとmin_child_weightのみを使ったグリッドサーチ。 X_train, X_test, y_train, y_testはpandas。 GridSearchCVのパラメーターは今回の話に関係ないから無視してよい。 from…

2018-05-03

pandas操作⑦：列表示

python pandas exotic

列が省略されるときに全表示させたいデフォルトは20らしいので好きな数値に変更する。 # pandasの表示列数設定 pd.set_option('display.max_columns',65) レコード毎にmaxの列番号を抽出したい最大値の列番号をmax列に突っ込む。 # DataFrameでレコード毎…

2018-04-23

pandas操作⑥：横持ち変換

pandas python SQL 前処理大全 exotic

縦持ち（レコード形式）から横持ち（表形式）への変換をするとき、スマートではないのはわかっていたけどSQLで横持ち変換したい値に応じたcase文をシコシコ書いていた。値が増えたりしたときにまた書き換える必要あるのでこれはクソなコードである。pythonに…

2018-03-26

pandas操作⑤：複数条件で抽出

pandas python exotic

複数条件でpandasから抽出したいときに下記エラー。 ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all(). 各条件は丸括弧で括って、かつアンド条件のときはandではダメで&を使わないといけない。 …

2018-03-23

pandas操作④：結合(concat)、いらない行除外、インデックス振り直し、カウントして確認

python pandas exotic

①いくつか作ったDataFrameを統合して、 ②ある条件に合致するいらない行以外を抽出して、 ③インデックスが飛び飛びになっているから振り直しして、 ④最後にカウント import pandas as pd test = pd.concat([hoge1, hoge2, hoge3, hoge4]) #① test = test[test…

2018-03-22

pandas操作③：作業ディレクトリ確認・変更、エンコード失敗したとき

python pandas exotic

何かファイルを読み取ってDataFrameに入れたいとき、どこが作業ディレクトリだろう、という場合。 import os os.getcwd() で、これを変えたい場合は下記。 os.chdir('変更したいフォルダへのパス') これをread_csvやread_tableとかで読み取って import panda…

2018-03-15

sklearn.metrics.f1_scoreでエラーが出るとき

pandas python exotic

from sklearn.metrics import f1_score f1_score(検証データ, 予測データ) 上記モデル検証でF-score出すときに下記エラーが出た。ValueError: pos_label=1 is not a valid label: array([ 0., 21.])多分ラベルがだめってことなんだろうけど確認する（jupyter…

2018-02-04

Redshift既存テーブルへの操作：置換、カラム追加、データ型変換、値追加

SQL exotic

テーブルコピー置換したいが既存のものをダイレクトに置換して失敗すると怖いからまずはテーブルコピーしたい。 SELECT * INTO <コピー先テーブル名> FROM <コピー元テーブル名> 置換コピーしたテーブルにやりたい置換をかける。 UPDATE <テーブル名> SET …

2018-01-19

EC2にsshで接続しているときのタイムアウトを防止する

AWS 設定 pandas exotic

EC2にssh接続してPython環境を利用している場合、ちょっと処理に時間がかかっていると接続がきれてしまう。これを回避するためにには~/.ssh/configに"ServerAliveInterval 60"と書き込む。でも操作に慣れていないと毎回忘れるので備忘として下記のステップで…

2018-01-09

pandas操作②：arrayから変換、カラム名をコピーから作成

python pandas exotic

よく忘れるので備忘２。 arrayをDataFrameに変換したいとき単純にDataFrameにつっこむだけ。 import numpy as np import pandas as pd a = np.array([[1,2,3], [4,5,6]]) df_a = pd.DataFrame(a) 一応記載すると、df_aは下記のようになる 0 1 2 0 1 2 3 1 4…

2018-01-03

ローカルでの処理結果をRedshiftに入れる

python AWS pandas exotic

spark使わないでローカルで素朴にやる時の方法 sparkのpipeline使えば入出力は簡単だけど、まだ使い方がわからない…けどsklearn使えばローカル環境で色々できるんだオレは！というヒト向けに、下記のRedshiftに接続してデータ受け取ってPandasに入れるやつの…

2017-12-26

Tableauで2軸グラフ（ヒストグラム＆累積％線グラフ）

BI pandas exotic

dev.classmethod.jp

2017-12-25

欠損値を０で埋める

python pandas exotic

データフレームはすでに作っていて欠損値NaNが入っている前提。 import numpy as np df = df.replace(np.NaN,0)

2017-12-22

redshiftからデータ読み込んでpandasのデータフレームに入れる

python AWS pandas exotic

まずはRedshiftに接続する。 import psycopg2 import redshift_sqlalchemy from sqlalchemy import create_engine engine = create_engine('{dialect}+{driver}://{user}:{pwd}@{url}:{port}/{db}'.format( dialect = 'redshift', driver = 'psycopg2', user…

2017-12-08

Tableau基礎

BI pandas exotic

web-kaizen.co.jp移動平均 web-kaizen.co.jp

2017-11-15

cdコマンド（ディレクトリ移動）

Linux pandas exotic

www.garunimo.com

2017-11-14

EC2にsshでログインできなくなった場合の対処法

設定 AWS pandas exotic

環境構築時にハマったので備忘として。 gist.github.com

2017-11-05

emacsについて

pandas exotic

emacsのコピペのメカニズムコピーアンドペーストを使いこなす(松山智大) — ありえるえりあemacsを使って文章を書く Emacs を使って，文章を書く - Linux による Web プログラミング入門

2017-11-05

SSHの公開鍵を作成しGithubに登録する手順

設定 pandas exotic

最初にしかやらないから忘れがちなので備忘として。 monsat.hatenablog.com qiita.com

2017-10-24

クラスタリング

python pandas exotic

＜非階層的手法＞評価関数（例えばクラスタ内誤差平方和、SSE）を定義し、これが最適になるような分割する。 k-meansの流れは次の4段階にまとめられる。1: k個の中心点をランダムに選ぶ。 2: 各サンプルを最も近い中心点に割り当てクラスタを作る。 3: クラ…

2017-08-25

numpy.ndarrayにappendしたいとき

python array exotic

numpy.ndarrayにattributionとしてappendは用意されていない。例えば x = np.arange(-100,101,1) というとき、 x.append ではattribution errorとなる（listと同じようには扱えない）。 np.append(x, 1) とやる必要がある（1には追加したい要素）

2017-08-14

Inputデータの次元が合わないとエラーが出たとき

python エラー処理 exotic

まず前提のimportが下記。 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.svm import SVCデータセットはこれ。ここからが本文。 df = pd.read_csv("Wholesale customers data.csv") X = pd.DataFrame(df, columns…