Cucco’s Compute Hack

コンピュータ関係の記事を書いていきます。

分割してCSVに書く、分割されたCSVを読む

1年前のプログラムの一部改良。 複数ファイルを連続して読むプログラム - Cucco’s Compute Hackディレクトリのパスと、ファイル名(拡張子ナシ、連番ナシ)を与えて、 決まった行数を書いたファイルを保存する、それらのファイルを開いて読む、というプログラ…

pythonの引数ライブラリargparse

argparseのサンプルコード。-から始まる名前にしてOptional引数にして、 action="store_true"をつけておけば、フラグとして利用できそう。 プログラム import argparse if __name__ == "__main__": parser = argparse.ArgumentParser() # 必須引数(=位置引…

pythonの.formatに辞書を渡すときの書き方

pythonの.formatに辞書を渡すときの書き方。 dic={"key": "value"} "value: {key}".format(**dic)

複数の2クラス分類の一括学習

タイトルでは、わけがわからないと思うが、 1種類のデータに対して、2クラス分類問題が複数ある場合の学習。 整数dに対して、2の倍数かどうかと、3の倍数かどうか、・・・を例に学習してみた。 訓練データ形式 x : 8桁のビット整数。アンダーバー2つは、xベ…

LEFT OUTER JOINの評価

LEFT OUTER JOINの評価 一瞬で終わる。メモリも食わない。 UNIQUE属性付けておくとさらに早い。 実施内容 データのテーブルと、クラス分け結果のテーブルのJoin。 クラス分け結果は適当に%演算で作った。 ソースコード import sqlite3 from faker import Fa…

Neural Network ConsoleのCrossEntropy損失関数(ロス関数)の使い方

Neural Network Consoleの損失関数(ロス関数)の使い方の記録。 画像処理系はSquareErrorでもいいが、カテゴリ系はそんなわけにもいかないので。入力データ次第で、ある程度決まった形になるので、記録として残しておく。 CategoricalCrossEntropyを使う場合 …

sqlite3のexecutemanyの動作確認

1回で10万件を挿入するのに、0.35秒。 別実行した1件ソートの繰り返しでは0.42秒。大した差ではないが、ループを組まなくていいメリットあり。値を埋めたいところは、"INSERT INTO users VALUES(?,?,?)" のようにハテナにしておく。 リストのリストや、タプ…

sqlite3とpandasの連動確認

やっていること 0. sqliteのDB(インメモリ)の用意 1. データ準備 2. sqliteのDB(インメモリ)に書き込み 3. sqliteのDB(インメモリ)のテーブル定義を確認 4. sqliteのDB(インメモリ)のテーブルの内容を確認 ORDER BY numberでソート。 5. fillnaでNaN…

可変引数のテスト**kwargs

可変引数のテスト プログラム def func1(**kwargs): print(kwargs) # キーに一致する値の取得。キーがない場合はNoneになる。 print(kwargs.get("a")) print(kwargs.get("b")) print(kwargs.get("c")) print(kwargs.get("key1")) print(kwargs.get("key2")) …

pythonでyamlファイルの読み込み(コンフィグファイルとして)

yamlに書いた内容が、文字列や数値がその型で取得できる。辞書型と、リストにはいった辞書のyamlの書き方を追記。ソースコード import yaml import os import pprint # yamlファイルは、このhello_yaml.pyと同じディレクトリにある想定 default_yaml_filenam…

Visual Studio Code & Anaconda環境構築

最近、VSCodeでPython環境を作るとデバッグ実行がうまくいかないことがあるので、試行錯誤のメモ。 path(ユーザーの環境変数)に以下を追加 C:\Users\\Anaconda3\Scripts C:\Users\\Anaconda3\ anacondaの初期設定 「CommandNotFoundError: Your shell has …

pandasでcsv読みこみ datetime型の型指定で。

pandasでファイルの読み書きのテスト。datetimeの処理が必要なので、型指定の手順を確認。 読んでるファイル 'Book2.csv' ,time,x,y,z 0,2019-03-23 08:53:16,0.384126267,0.791150474,1 1,2019-03-23 08:53:16,0.121509436,0.161273729,3 2,2019-03-23 08:5…

移動標準偏差

移動平均同様、numpyを使って、2次元のマトリックスに対する移動標準偏差の計算。 移動平均も内部で利用。 プログラム import numpy as np def moving_sum(data_2d,axis=1,windowsize=3): answer = np.zeros((data_2d.shape)) answer[:,:] = np.nan v = np.o…

移動平均(numpy.convolve利用)

移動平均の関数のテスト。 numpy.convolveは、以下が想定とちょっと違ったので。 平均の範囲 戻ってくる大きさ 計算範囲と結果の数(データ数8、平均幅3) 想定 入力と出力が同じ大きさの配列 2次元配列を処理してほしい データがないところはNAN プログラ…

より大きな値の数や割合

こんな感じ。要素数で割れば、割合がわかる。 for文を回さなくていいので、numpy便利。 >>> import numpy as np >>> >>> a=np.array([71,77,80,80,89,83]) >>> b=np.sum(a>=80) >>> print(b) 4実際のところTrueを1として計算してくれている。 >>> c=a>=80 >>…

移動分散のサンプルプログラム

移動分散のサンプルプログラム プログラム import numpy as np a=np.array([71,77,80,80,89,83]) windowsize=3 for i in range(a.shape[0]-windowsize): print("print a[{0}:{1}]".format(i,i+windowsize)) np.std(a[i:i+windowsize]) 実行結果 print a[0:3]…

ujsonのインストールができない

解決方法 https://visualstudio.microsoft.com/downloads/から、下のほうにある、Build Tools for Visual Studio 2017 をダウンロード。 実行して、以下を選択してインストール ワークロードタブ Visual C++ Build Tools 個別のコンポーネントタブ VC++ 2017…

iPhoneのボイスメモをmp3にする

icloud driveにボイスメモを保存する。 PCでicloud driveにアクセスして、ファイルをPCに持ってくる。 iTunesで開く ファイルを選択した状態で、ファイルメニューから変換→MP3バージョン ファイルはC:\Users\\Music\iTunes\iTunes Media\Music\Unknown Artis…

matplotlibの日本語対応

plotに日本語を含めていると化けるので、日本語フォントを使えるようにする。 matplotlibのフォントディレクトリに対応フォントを入れて、fontlistを更新する。 事前準備 https://ipafont.ipa.go.jp/ から、フォントファイルをダウンロードする。 C:\Program…

sklearnでクラスタリング(その2)

プロットするプログラムhello_scatterもつけてみた。 import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans def hello_kmeans_demo(): X = np.array([[1, 2], [1, 4], [1, 0],[10, 2], [10, 4], [10, 0]]) """ array([[ …

sklearnでクラスタリング(その1)

データ形式がこうなっていれば、直接KMeansに渡せる。2次元データ6件分。 array([[ 1, 2], [ 1, 4], [ 1, 0], [10, 2], [10, 4], [10, 0]])以降、確認に使ったコード >>> import numpy as np >>> from sklearn.cluster import KMeans >>> X = np.array([[1, …

anacondaでTensorFlow環境の準備 その3

gpu環境向けにやったことのメモ。 conda install -c anaconda cudnn conda install -c anaconda cudatoolkit pip install tensorflow-gpu 確認方法。TureならOK. import tensorflow print(tensorflow.test.is_built_with_cuda())

anacondaでTensorFlow環境の準備 その2

VS Codeを使っているので、デバッグとかのための手続き。 Pythonのパスを書き換えればよいらしい。フォルダごととか、ワークスペースごととか設定がありそう。 "python.pythonPath": "C:\\Users\\Cucco\\AppData\\Local\\Continuum\\anaconda3\\envs\\tensor…

anacondaでTensorFlow環境の準備

何が起きているかわからないが以下で成功した。 (base) C:\>conda create -n tensorflow_gpuenv tensorflow-gpuいろいろインストールしていい?と質問があるのでyを回答。以上で使えました。環境を使うときのおまじないは以下。 # To activate this environm…

python開発環境初期設定

作りかけ。gitのインストールと設定 git CMDで以下を実行 git config --global user.name "First-name Family-name" git config --global user.email "username@example.com"anacondaインストール インストーラが連携して、VSCodeを入れてくれる。PythoPath…

複数ファイルを連続して読むプログラム

複数に分割されたファイルを決まった順番で、連続して読む。 csv.readerっぽく。forで1行ずつ読めるようにイテレータとして実装。 import csv class MyIterator(object): def __init__(self, readFileNames, skipHeader=False): self.readFileNames = readFi…

Neural Network Consoleによる学習済みニューラルネットワークの利用

環境構築 ベースはanaconda。nnablaがなく、importに失敗するのでパッケージ追加しました。以下のコマンドを管理者で開いたコンソールで実行。 pip install ipykernel pip install nnabla事前にpip自体の更新が必要な場合もあり。 python -m pip install --u…

時刻ちょうどに実行する その3

5秒に1回のタスクAと、15秒に1回のタスクBがある。 タスク自体は、マルチプロセスで動く。 タスクの実行中は、メインプロセスはある作業を実施できない。 タスクAまたはタスクBを実行した場合は、メインタスクを1回だけ実行する。 import multiprocessing im…

時刻ちょうどに実行する その2

マルチプロセス版の時刻ちょうどに実行する 2秒ごとと5秒ごとに実行する。ただし開始は0秒から。 import multiprocessing import datetime import time class Worker(multiprocessing.Process): def __init__(self,queue,interval=5): self.interval=interva…

sqliteをインメモリで使ってみた

やりたいことは以下。全部できた。 インメモリDBは早い。 インメモリで動かす 日付、日時を格納する 日時、日時の新しいN件だけをDB内に維持する 日付、日時の新しいM件を取り出す ソースコード import sqlite3 import time import datetime start=time.time…