はじめてみた。
とりあえず勉強した事を残すために始める事にする。とりあえずは統計学機械学習データマイニングRと呼ばれるものを対象にしようと思う。あと上記のデータ基盤として BI(DataWareHouse) 関連や MongoDB, Hadoop...
View Article『はじめての統計学』
お仕事と趣味の必要に迫られて統計が必要になったので本格的に勉強する前に以前読んだやさしめの本を復習中。今だいたい5章の途中で、標本から母集団の代表値を推定するとかなんとか。電車の中とかで読んでふむふむするだけで特に紙で計算とかはしていないのでまあまあ進みが早い。この後は統計学入門でもう少しまともに統計をやるか確率・統計入門で数学寄りの勉強をするか考え中。とりあえずこの本を早く片付けようと思う。
View ArticleRStudio を使ってみた。
統計分析ツール R の統合分析環境(?)である RStudio を使ってみる。http://www.r-project.org から R 本体を、そしてhttp://rstudio.org から RStudio パッケージをそれぞれ取得してインストールを実施。RStudio には Desktop 版と Server 版が存在するが通常の分析作業では Desktop...
View Article『はじめての統計学』〜第7章
『はじめての統計学』の復習を第7章まで消化。第5〜7章で学んだ母数(母集団の代表値)の推定に関する事柄をまとめてみる。母平均 μ の推定母標準偏差 σ が既知の場合: 標本平均の分布が正規分布となる事を用いる母標準偏差 σ が未知の場合小標本(30以下)の場合: t 分布を用いる大標本(30以上)の場合: 正規分布を用いる母標準偏差 σ の推定: χ2乗分布を用いる1-2-2...
View ArticleMongoDB 環境構築(その1: Replica Set)。
今年明けてすぐに gmail アカウントが乗っ取られるという事態になり復旧するまで google アカウントに紐づいたサービスが全て使用不可となってしまった。セキュリティは大事だと思った。復旧後すぐに二段階認証を導入しました。MongoDB の環境構築をする必要に迫らてしばらく MongoDB...
View ArticleMongoDB 環境構築(その2: Sharding)。
前回に続き今回は MongoDB の Sharding 環境を構築してみる。Sharding 環境を構築する事でデータを効果的に分散させて保持し、パフォーマンスの向上を狙う。MongoDB の Sharding では分割用のキーを指定する事でデータが分散して登録される。今回は下記4つの項目を持つログを登録するが、その中で Sharding 用のキーとして {ym, account_id}...
View ArticleMongoDB 環境構築(その3: ReplicaSet + Sharding)。
先日Tokyo.R第20回勉強会に参加してきた。西新宿のNifty新社屋での開催で自宅から近かったのでちょっと見に行ったのだが思ったよりずっと面白くて今後も継続して参加する予定。外に出て人の話を聞くのは新鮮で気持ちが引き締まるし勉強のモチベーション向上に良いと思った。今回は前回・前々回の内容を合わせた ReplicaSet + Sharding...
View ArticleMongoDB で MapReduce 試してみた。
MongoDB で MapReduce を試してみる。年齢のみを項目としてもつ age コレクションを作成しヒストグラム各種統計量(件数, 合計, 平均, 分散, 標準偏差)を算出してみようと思う。2. の統計量の算出では2段 MapReduce...
View ArticleRMeCab をインストールしてみた。
形態素解析ツール MeCabをR から使ってみようと思ったがインストールでハマったので備忘録。R + MeCab + RMeCab を組み合わせるのだが上手くバージョンを合わせないと動かない。間違うとこんな感じのエラーになる。 library(RMeCab)RMeCabC("吾輩は猫である") *** caught segfault ***address 0x0, cause...
View Articlermongodb 試してみた。
R から MongoDB へアクセスする為のモジュール rmongodb を試してみた。試した環境は以下。Mac OS X 10.7.3 lionMongoDB 2.0.4R 2.15.0特に問題無くデータの登録・取得まで実施できてしまった。至れり尽くせりでかなり楽。以下、作業は RStudio 上で行う。1. CRAN から rmongodb をインストール>...
View Articleカラム指向DB比較 - MonetDB インストールの巻。
久しぶりに記事を書くけど解析の話ではない。解析用DWH構築の選択肢としてのカラム指向DBについてしばらく試行錯誤してみたい。かねがね解析用のDBとしてカラム指向を試してみたかったので頑張ってみる。CloudCoreのサーバ(Ubuntu12.04)を借りたのでそこでカラム指向DBの比較をしてみたいと思う。対象DBは下記を予定。...
View Articleカラム指向DB比較 - MonetDB パフォーマンス検証の巻。
前の続き。今回は MonetDB のパフォーマンス検証をしてみたいと思う。検証用DB作成検証データ投入クエリによるパフォーマンス検証という流れで実施。実施環境CloudCore OS: Ubuntu 12.04CPU: AMD Phenom(tm) 9550 Quad-Core Processor 2.2GHzMomory: 2G1. 検証用DB作成$ monetdbd create...
View Articleカラム指向DB比較 - InfiniDB インストールの巻。
カラム指向DB比較 - MonetDB インストールの巻。カラム指向DB比較 - MonetDB パフォーマンス検証の巻。 のつづき。今回は InfiniDB の環境構築を実施してみたいと思うよ。 インストール起動および準備おためし実施環境CloudCoreOS: Ubuntu 12.04 CPU: AMD Phenom(tm) 9550 Quad-Core Processor...
View Articleカラム指向DB比較 - InfiniDB(番外編) - はまりポイント挙げるの巻。
前回までの続きっぽい番外編。カラム指向DB比較 - MonetDB インストールの巻。カラム指向DB比較 - MonetDB パフォーマンス検証の巻。 カラム指向DB比較 - InfiniDB インストールの巻。前回 InfiniDB のインストールを行ったが、その時ハマった事や後から分かった Community Edition...
View Articleカラム指向DB比較 - InfiniDB パフォーマンス検証の巻。
カラム指向DB比較 - MonetDB インストールの巻。カラム指向DB比較 - MonetDB パフォーマンス検証の巻。 カラム指向DB比較 - InfiniDB インストールの巻。カラム指向DB比較 - InfiniDB(番外編) - はまりポイント挙げるの巻。の続き。Infinidb をインストールしたので MonetDB...
View Articleカラム指向DB比較 - Infobright インストールの巻。
カラム指向DB比較 - MonetDB インストールの巻。カラム指向DB比較 - MonetDB パフォーマンス検証の巻。カラム指向DB比較 - InfiniDB インストールの巻。カラム指向DB比較 - InfiniDB(番外編) - はまりポイント挙げるの巻。カラム指向DB比較 - InfiniDB パフォーマンス検証の巻。のつづき。MonetDB, Infinidb に続いて...
View Article喫煙率の推定
7 年ぶりくらいに新しい記事を書いてみる。 適当に疑問に思った事などを計算して確かめてはすぐ捨てるみたいな感じを続けてたんだけどたまには記録に残していこうかなと。 Qiita にしようか迷ったけど何となくこっちに。 浜田 宏「その問題、数理モデルが解決します...
View Articleノイズの付加による見せかけの自己相関
カウントデータの末尾に一定の値(0)の系列が追加される事で独立(だと考えられる)な系列に自己相関が検出されるという事例に遭遇した。そこでこの事例が一般的な事なのかを確認してみる。 ポアソン過程まずポアソン分布に従う乱数の系列を考えてみる。このときこの乱数列は自己相関を持たない。 seq.pois ポアソン過程 + 0 x10上記データの末尾に 0 を 10 個追加。ちょっと変化してるっぽい。...
View Articlek-NN Feature Extraction を試す
機械学習について色々と調べていたら特徴量エンジニアリングの 1 つとして k-NN Feature Extraction という手法がある事を知ったので試してみた。考え方としては Python: k-NN Feature Extraction について が分かり易く説明してくれていたので参考にさせてもらった。簡易版の実装は...
View ArticleIris で k-NN Feature Extraction
前回 は k-NN Feature Extraction を自分で作成したテストデータに適用して試してみた。 そこで今回は Iris データに対して適用してみたいと思う。 関数のコードは https://github.com/you1025/knn_feature_extraction/blob/master/knn_feature_extraction.R Iris...
View Article
More Pages to Explore .....