Cucco’s Compute Hack

コンピュータ関係の記事を書いていきます。

Python

DBのテーブルから列データをリストで取得する

DBのテーブルから列データをリストで取得する。fetch()で取得すると、行ごとのタプルのリストになっていて、処理しづらいので、ほしい列の値だけをリストにする関数get_one_column_data_list()を作成。 リストのメモリ確保のため、件数確認のget_countも作成…

分割してCSVに書く、分割されたCSVを読む

1年前のプログラムの一部改良。 複数ファイルを連続して読むプログラム - Cucco’s Compute Hackディレクトリのパスと、ファイル名(拡張子ナシ、連番ナシ)を与えて、 決まった行数を書いたファイルを保存する、それらのファイルを開いて読む、というプログラ…

pythonの引数ライブラリargparse

argparseのサンプルコード。-から始まる名前にしてOptional引数にして、 action="store_true"をつけておけば、フラグとして利用できそう。 プログラム import argparse if __name__ == "__main__": parser = argparse.ArgumentParser() # 必須引数(=位置引…

pythonの.formatに辞書を渡すときの書き方

pythonの.formatに辞書を渡すときの書き方。 dic={"key": "value"} "value: {key}".format(**dic)

複数の2クラス分類の一括学習

タイトルでは、わけがわからないと思うが、 1種類のデータに対して、2クラス分類問題が複数ある場合の学習。 整数dに対して、2の倍数かどうかと、3の倍数かどうか、・・・を例に学習してみた。 訓練データ形式 x : 8桁のビット整数。アンダーバー2つは、xベ…

LEFT OUTER JOINの評価

LEFT OUTER JOINの評価 一瞬で終わる。メモリも食わない。 UNIQUE属性付けておくとさらに早い。 実施内容 データのテーブルと、クラス分け結果のテーブルのJoin。 クラス分け結果は適当に%演算で作った。 ソースコード import sqlite3 from faker import Fa…

Neural Network ConsoleのCrossEntropy損失関数(ロス関数)の使い方

Neural Network Consoleの損失関数(ロス関数)の使い方の記録。 画像処理系はSquareErrorでもいいが、カテゴリ系はそんなわけにもいかないので。入力データ次第で、ある程度決まった形になるので、記録として残しておく。 CategoricalCrossEntropyを使う場合 …

sqlite3のexecutemanyの動作確認

1回で10万件を挿入するのに、0.35秒。 別実行した1件ソートの繰り返しでは0.42秒。大した差ではないが、ループを組まなくていいメリットあり。値を埋めたいところは、"INSERT INTO users VALUES(?,?,?)" のようにハテナにしておく。 リストのリストや、タプ…

可変引数のテスト**kwargs

可変引数のテスト プログラム def func1(**kwargs): print(kwargs) # キーに一致する値の取得。キーがない場合はNoneになる。 print(kwargs.get("a")) print(kwargs.get("b")) print(kwargs.get("c")) print(kwargs.get("key1")) print(kwargs.get("key2")) …

Visual Studio Code & Anaconda環境構築

最近、VSCodeでPython環境を作るとデバッグ実行がうまくいかないことがあるので、試行錯誤のメモ。 path(ユーザーの環境変数)に以下を追加 C:\Users\\Anaconda3\Scripts C:\Users\\Anaconda3\ anacondaの初期設定 「CommandNotFoundError: Your shell has …

pandasでcsv読みこみ datetime型の型指定で。

pandasでファイルの読み書きのテスト。datetimeの処理が必要なので、型指定の手順を確認。 読んでるファイル 'Book2.csv' ,time,x,y,z 0,2019-03-23 08:53:16,0.384126267,0.791150474,1 1,2019-03-23 08:53:16,0.121509436,0.161273729,3 2,2019-03-23 08:5…

より大きな値の数や割合

こんな感じ。要素数で割れば、割合がわかる。 for文を回さなくていいので、numpy便利。 >>> import numpy as np >>> >>> a=np.array([71,77,80,80,89,83]) >>> b=np.sum(a>=80) >>> print(b) 4実際のところTrueを1として計算してくれている。 >>> c=a>=80 >>…

移動分散のサンプルプログラム

移動分散のサンプルプログラム プログラム import numpy as np a=np.array([71,77,80,80,89,83]) windowsize=3 for i in range(a.shape[0]-windowsize): print("print a[{0}:{1}]".format(i,i+windowsize)) np.std(a[i:i+windowsize]) 実行結果 print a[0:3]…

ujsonのインストールができない

解決方法 https://visualstudio.microsoft.com/downloads/から、下のほうにある、Build Tools for Visual Studio 2017 をダウンロード。 実行して、以下を選択してインストール ワークロードタブ Visual C++ Build Tools 個別のコンポーネントタブ VC++ 2017…

matplotlibの日本語対応

plotに日本語を含めていると化けるので、日本語フォントを使えるようにする。 matplotlibのフォントディレクトリに対応フォントを入れて、fontlistを更新する。 事前準備 https://ipafont.ipa.go.jp/ から、フォントファイルをダウンロードする。 C:\Program…

sklearnでクラスタリング(その2)

プロットするプログラムhello_scatterもつけてみた。 import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans def hello_kmeans_demo(): X = np.array([[1, 2], [1, 4], [1, 0],[10, 2], [10, 4], [10, 0]]) """ array([[ …

sklearnでクラスタリング(その1)

データ形式がこうなっていれば、直接KMeansに渡せる。2次元データ6件分。 array([[ 1, 2], [ 1, 4], [ 1, 0], [10, 2], [10, 4], [10, 0]])以降、確認に使ったコード >>> import numpy as np >>> from sklearn.cluster import KMeans >>> X = np.array([[1, …

複数ファイルを連続して読むプログラム

複数に分割されたファイルを決まった順番で、連続して読む。 csv.readerっぽく。forで1行ずつ読めるようにイテレータとして実装。 import csv class MyIterator(object): def __init__(self, readFileNames, skipHeader=False): self.readFileNames = readFi…

Neural Network Consoleによる学習済みニューラルネットワークの利用

環境構築 ベースはanaconda。nnablaがなく、importに失敗するのでパッケージ追加しました。以下のコマンドを管理者で開いたコンソールで実行。 pip install ipykernel pip install nnabla事前にpip自体の更新が必要な場合もあり。 python -m pip install --u…

sqliteをインメモリで使ってみた

やりたいことは以下。全部できた。 インメモリDBは早い。 インメモリで動かす 日付、日時を格納する 日時、日時の新しいN件だけをDB内に維持する 日付、日時の新しいM件を取り出す ソースコード import sqlite3 import time import datetime start=time.time…

リングバッファと計算

# -*- coding: utf-8 -*- class RingBuffer(): def __init__(self,bufferSize): self.size = bufferSize self.pc= 0 #次に使うバッファの番号 self.data=[None]*self.size #固定長さのリスト self.valid=False #リングバッファがいっぱいになったらTrueにす…

multiprocessingのサンプルコード

multiprocessingのサンプルコード。 マルチコア処理してほしい&処理には共通の情報を利用する、という条件あり。 メンバ変数の書き換えは、returnには反映されるが、実行のたびに1に戻っている感じ。 # -*- coding: utf-8 -*- from multiprocessing import …

Threadを使うときの"TypeError: function1() got multiple values for argument 'arg1'"

threading.Threadを使って引数持つ関数を実行すると、以下のようなエラーになることがある。 run()に直接関数を記述せず、すでにある関数をrun()の中で実行しようとすると起きる。 "TypeError: function1() got multiple values for argument 'arg1'" 原因は…

ファイルの最後の1行を読む

ファイルの最後の1行を読みたい時。 # -*- coding: utf-8 file_name="some_file.csv" with open(file_name,'r') as f: num_lines = sum(1 for line in f) f.seek(0) for line in range(0, num_lines-1): f.readline() line = f.readline() print(line)

QueueをつかったPython マルチスレッド

マルチスレッドのテストプログラム。 Listをもらって、加算して、結果をグローバルのリストに書き込む。 import threading import queue import time commonList=[] q=queue.Queue() def worker(): """ マルチスレッドで走らせる関数 Queueからデータをもら…

DBに特定のデータがあるかどうかを確認する

DB内にデータがあるかどうか確認する。 あった時は更新(update)、なかった時は挿入(insert)するように処理すればよい。cur.execute(sql,data)に渡した時にSQL文がうまく展開されない?問題で困った。 # -*- coding: utf-8 import mysql.connector import dat…

pythonのunittestのコード

ちょっと前に書いた記事compute-cucco.hatenablog.comのテストコード。というか抽象クラスは関係ないので、ただのテストコード。 raiseに対するテストコードの書き方が分からない。。。 # -*- coding: utf-8 -*- import unittest import movingCalcs from mo…

mysqlでのテーブルの1対多のjoin。

mysqlでのテーブルの1対多のjoin。TABLE_SECには、5秒ごとのデータが入っている。 TABLE_HOURには、1時間ごとのデータが入っている。10:00:06の時点では、10:00:00からの5秒間のデータは確定しているが、 10:00:00から1時間のデータは確定していない。 その…

pythonで逐次入力に対して移動平均を計算するためのクラス

pythonで、逐次入力に対して移動平均を計算する。 移動平均幅は、コンストラクタの引数に与えておく。以下、ソース。 # -*- coding: utf-8 -*- class MovingAverage: """逐次入力に対して移動平均を計算するためのクラス""" def __init__(self,size): # コン…