tidyrは「tidy data」の原則に基づいて設計された、データ再構造化の専門パッケージです。混沌としたデータを美しく整理し、分析しやすい形に変換する強力なツールを提供します。
現実のデータは常に理想的な形ではありません。Excel形式の幅の広いテーブル、不規則な欠損値、ネストされた複雑な構造...。tidyrは、これらすべてを「tidy」な形に変換する魔法を提供します。
tidyrでデータを自在に操る。Wide/Long形式の変換、欠損値の優雅な処理、複雑なデータ構造の整理術をマスターし、データサイエンスの真の力を解き放とう。
tidyrは「tidy data」の原則に基づいて設計された、データ再構造化の専門パッケージです。混沌としたデータを美しく整理し、分析しやすい形に変換する強力なツールを提供します。
現実のデータは常に理想的な形ではありません。Excel形式の幅の広いテーブル、不規則な欠損値、ネストされた複雑な構造...。tidyrは、これらすべてを「tidy」な形に変換する魔法を提供します。
データの形状変換は、tidyrの最も重要な機能です。Wide形式(横に広い)とLong形式(縦に長い)を自在に変換し、分析の目的に最適な形にデータを整形できます。
Wide形式からLong形式への変換。複数の列を1つの列にまとめ、データを「長く」します。
Long形式からWide形式への変換。1つの列の値を複数の列に展開し、データを「広く」します。
売上データをExcel形式(Wide)から分析用形式(Long)に変換する実例を見てみましょう。
店舗 | Q1 | Q2 | Q3 | Q4 |
---|---|---|---|---|
東京店 | 1200 | 1350 | 1180 | 1420 |
大阪店 | 980 | 1100 | 1250 | 1380 |
名古屋店 | 750 | 820 | 890 | 950 |
店舗 | 四半期 | 売上 |
---|---|---|
東京店 | Q1 | 1200 |
東京店 | Q2 | 1350 |
東京店 | Q3 | 1180 |
東京店 | Q4 | 1420 |
大阪店 | Q1 | 980 |
... | ... | ... |
アンケートデータをクロス集計表形式に変換する例を見てみましょう。
回答者ID | 質問項目 | 評価 |
---|---|---|
1 | 満足度 | 5 |
1 | 利便性 | 4 |
1 | 価格 | 3 |
2 | 満足度 | 4 |
... | ... | ... |
回答者ID | 満足度 | 利便性 | 価格 |
---|---|---|---|
1 | 5 | 4 | 3 |
2 | 4 | 5 | 4 |
3 | 3 | 3 | 5 |
4 | 5 | 4 | 4 |
現実のデータには欠損値が付き物です。tidyrは、欠損値を適切に処理し、データの完全性を保ちながら分析を進めるための強力なツールを提供します。
欠損値を含む行を削除します。シンプルで直接的なアプローチです。
前後の値で欠損値を埋めます。時系列データに特に有効です。
欠損値を指定した値で置換します。カスタマイズされた補完が可能です。
データの組み合わせを完全にし、暗黙的な欠損値を明示的にします。
センサーデータの欠損値を様々な方法で処理する例を見てみましょう。
時刻 | 温度 | 湿度 |
---|---|---|
00:00 | 22.5 | 65 |
01:00 | NA | 68 |
02:00 | 23.1 | NA |
03:00 | 22.8 | 70 |
04:00 | NA | 72 |
時刻 | 温度 | 湿度 |
---|---|---|
00:00 | 22.5 | 65 |
01:00 | 23.3 | 68 |
02:00 | 23.1 | 68.0 |
03:00 | 22.8 | 70 |
04:00 | 23.3 | 72 |
separate()とunite()を使って、複雑な文字列データを分割・結合する方法を学びましょう。