Posted by & filed under R, コンピュータ関連, 分析.


今週はかなりの量となりました。

Rコミュニティ関連

第47回R勉強会@東京(#TokyoR)
2015年3月28日(土)に開催されます。すでに参加枠が埋まっていますね…
あと、タイトルのほとんどが未定…
Nagoya.R #13
2015年3月21日に名古屋大学にて開催されました。主な発表については上のATNDのサイトに資料リンクが公開されております。
rlistパッケージの紹介やapply族の説明、メタ分析やタイタニックデータを使用した機械学習などがありました。

データ読み込みパッケージについて

最近立て続けにこの手のパッケージが出てきていていますので、ここでまとめてみます。

readrパッケージ
先週パッケージ関連で紹介した、csvなどのデータを高速で読み込めるパッケージです。検証や日本語による解説は、@yutannihilation さんのこちらの記事をご覧ください。
readxlパッケージ
あのExcelファイルから直接データを読み込むパッケージです。.xlsでも.xlsxでもいけますし、baseのものよりも高速で読み込めるそうです。三重大学の奥村先生(@h_okumura)もオススメしています。

havenパッケージ
以前紹介したパッケージで、SAS、SPSS、Stataのデータフォーマットを読み込むパッケージです。ReadStatというCライブラリをWrapしたものだそうです。
SQL関連
SQLを使用するデータベースは色々あって、それごとにパッケージ化されてたりしますが、sqldfパッケージは割と広く対応しています。ただRMySQLパッケージ等は開発が早く、cranにある最新版は2月にリリースされていたりしますので注意したほうがよさそうです。

Tidy data

Rを使っている方ならおそらく多くの方がお世話になっているであろうHadley Wickham氏が提案する”Tidy data framework”を説明した文献です。
これがどのようなものかを私がここで言葉足らずで説明するより、上記リンクの文献を一読していただいた方がずっとわかりやすいと思います。何らかの形でデータを扱う方は一読する価値があると思いました。

なお、この思想を現実にするパッケージがtidyrパッケージです。ただ先の文献ではこのパッケージを使ったコードは記載されておりませんが、tidyrパッケージをインストールした後に、> vignette("tidy-data")をコンソールで実行するとtidyrで実行するためのコード解説が表示されます。vignette()については、@yutannihilation さんのこちらの記事をご覧ください。

rlistパッケージとpurrrパッケージ

最近私の周りでrlistパッケージがじわじわきており、上述のNagoya.Rでもrlistパッケージの使い方がわかりやすく解説してあります。ですが、ちょっと留意点もあったりします。この辺りは @yutannihilation さんのこちらの記事などにあります。
また、同じくリストデータを操作するパッケージとしてはpurrrパッケージがあります。こちらはHadley Wickham氏が作成したもので、目指すところは近いですが、その哲学が異なるとのことです。pipeの件といい、なんとも…。

パッケージ関連

boxrパッケージ
オンラインストレージサービスboxのAPIを叩くためのRインターフェースを提供するパッケージとのことです。試用の際は必ずReadmeを熟読して使用するかどうかを判断してください。
leafletパッケージ
インタラクティブな地図を作成するJavaScript libraryであるLeafletをRで使えるようにしたパッケージです。
地図データはOpenStretMapからのようで、レイヤー構造でシンプルなコードから気軽に地図を作れます。具体的な例としては先週ご紹介したこちらの記事などがあります。
ztableパッケージ
要約すると、data.frameからhtmlもしくはlatex形式の表を出力するパッケージです。
これまではxtableパッケージなどが有名でしたが、xtableでは細かい書式設定をする際にどうしても出力されたlatexを編集することもしばしば。でもこのパッケージなら比較的簡単に編集可能です。
おそらく論文やレポートなどをRで作成しようと思っている方には強い味方になるかと思います。なお、以前紹介したように、こちらで動的にデモンストレーションとコード生成ができます。
rtypeパッケージ
まずトップのreadmeで吹き出しますが、関数の引数に型を指定できるパッケージとのことです。内容については @yutannihilation さんのこちらの記事をご覧ください。

その他

Stan のデータ型についてまとめてみた
@hoxo_m さんのQiitaに投稿された記事です。いつもありがとうございます。
何回も使うリストの要素は変数に突っ込んでおいた方がいい
先週はlistのトピックがよく出てきましたが、こちらは @teramonagi さんの記事です。ほんのちょっとの違いでも、思った以上に時間が変わるのがよくわかりますね…
リサンプリング(復元抽出)で積分値を評価する
またまた @teramonagi さんの記事です。これはその前のこちらの記事の応用的続きです。リサンプリングで積分値計算…色々ためさないと…
朝食欠食率の年次推移
e-Statのデータを活用して可視化した、@yutannihilation さんの記事です。ここのデータ、Rで使うデータに落としこむのが相当大変だってよく聞きます…。そしてさりげなくvagrant環境というのがかっこいいです。そして{printr}も使ってます。
「統計解析ソフトRのスクリプト集」(Ver. 3.0β)公開のお知らせ
名古屋大学の石井先生が作成した標記の資料が公開されております。すごいボリュームです。
MCMC導入編 – Simulation Methodsの基本 –
MCMCの導入の導入として、モンテカルロ法のシミュレーションをRで実行して説明しています。これはとってもわかりやすいです。
時系列データの統計モデリング入門
北海道大学の久保先生が2015年3月19日に生態学会にて発表された内容について、スライド及び関連資料がおいてあります。
未知の非線形な交互作用をマルチレベルモデリングでモデル化してみる
標記の内容についてStanを実行しています。コードもついていますし、WAICについても触れています。
Distribution of p-values when comparing two groups
2群の独立したサンプル集団の差について、p値の分布を可視化したものです。これ、2月にうちが(以下略
Tile plane with rectangles.
ggplot2パッケージで、タイルを使う方法を説明した公式のドキュメントです。
旅の思い出画像
先週紹介したこちらの記事を改良した内容です。「元々の関数でパラメータを設定できないなら、関数を作ればいい」、本当に勉強になりました。またNamespaceについてもうちょっと理解しないといけないと思いました…。
Bayesian Estimation: Number of Steps
ある方が公開している日々の運動データを用い、モデル作成および検証を行っています。すぐ上の記事と合わせてご覧ください。素晴らしいです。

今回はかなり絞ったのですが、それでもこれだけの記事となりました…。
もし不都合がございましたら、コメントもしくは@kazutan までお知らせください。ありがとうございました。

なお、現在私のTLでは匿名知的集団「ホクソエム」によりえらいことになってます。

Leave a Reply

  • (will not be published)