IPAのデータサイエンティスト スキルチェックリストを読んでみたらとても良かった
はじめに
Twitterにも呟きましたが、IPAのITSS+にあるデータサイエンティスト スキルチェックリストを読んでみたら思いの外よかったので紹介記事を書いてみます。
IPAのITSS+のデータサイエンティスト - スキルチェックリスト、めっちゃ良いこと書いてあるな。サイエンス、エンジニア、ビジネスのそれぞれにちゃんと評価項目がある! https://t.co/ErXnCLxXzN pic.twitter.com/o3nJ9osCmc
— 紅月さん@がんばらない (@koduki) May 24, 2020
なお、私自身はデータサイエンティストでもデータエンジニアでも特に無いので中の人から見たら現実と相違してるとかはあるかも。
何が良いの?
そもそもこのチェックリストの何を私がそんなに称賛してるかなのですが、みなさん「データサイエンティスト」ってどんな職種だと思いますか?
AIを使いこなして会社の課題を解決する人ですか? データを分析してダッシュボードにする人ですか? データを集計したりビックデータ処理基盤を作る人ですか? あるいはアルゴリズムの研究者ですか?
たぶん、どれも正解です。今の所データサイエンティストはAI/ML/BIに関わる全てを含んで使われることが多いと感じるので、実際の定義はお「そう思うならそうだろ、おまんなかではな」状態です。
そこが曖昧なせいで、周りにもデータサイエンティストになりたいとか雇いたいと言う話もあり、それが叶ったのも見たことがあるのですが求める実際のスキルや働き方が違い不幸になった結果も知っています。
なので、自分が話すときにはせめてアナリスト(ビジネス分析)なのかサイエンティスト(アルゴリズム系)なのかエンジニア(基盤系)なのかは分けて話してましたがオレオレ定義なので定義から説明が必要なことも当然しばしば。
で、たまたまこう言うのあるよと言われて見つけたのがITSS+のデータサイエンティスト スキルチェックリストです。
このチェックシートの良いところは図のようにデータサイエンティストの領域をフェーズ分けして可視化した上で、チェックシートではデータサイエンス力、データエンジニアリング力、ビジネス力 を大項目としてカテゴライズしていることです。
ref: ITSS+/「データサイエンス領域」 タスク構造図(中分類)
これによってフワッとしてた「データサイエンティスト」の人物像を明確にし、どのフェーズを動かす人間が必要でそれにはどのスキルセットが必要かがクリアになります。
スキルレベル判定基準
スキルセットは以下のような方法で評価していくようです。判定方法は各項目を何%満たしてるかでチェックするようなので機械的で良いですね。各領域に求められる詳細な説明もPDFにはきちんと載ってますので要参照。
- Senior Data Scientist(業界を代表するレベル)
- Full Data Scientist (棟梁レベル)
- Associate Data Scientist(独り立ちレベル)
- Assistant Data Scientist (見習いレベル)
スキルカテゴリ一覧
データスキルチェックリスト自体はこちらにありますが、PDFにあるカテゴリの一覧だけ参考に転載しておきます。 チェックリストは膨大なので読むの大変ですが、そもそもどんなこと書いてあるかはこちらのカテゴリ一覧で雰囲気掴めるかと。
カテゴリ | ID | サプカテゴリ | 項目数 |
---|---|---|---|
データサイエンンス力 | 1 | 基礎数学 | 24 |
2 | 予測 | 23 | |
3 | 検定/判断 | 7 | |
4 | グルービング | 12 | |
5 | 性質・関係性の把握 | 15 | |
6 | サンプリング | 5 | |
7 | データ加工 | 15 | |
8 | データ可視化 | 38 | |
9 | 分析プロセス | 4 | |
10 | データの理解・検証 | 23 | |
11 | 意咲合いの抽出、洞察 | 4 | |
12 | 機械学習技法ー | 39 | |
13 | 時系列分析 | 9 | |
14 | 言語処理 | 16 | |
15 | 画像・動画処理 | 10 | |
16 | 音声/音楽処理 | 6 | |
17 | パターン発見 | 3 | |
18 | グラフィカルモデル | 4 | |
19 | シミュレーション/データ同化 | 5 | |
20 | 最適化 | 9 | |
デークサイエンスカ項目数 | 271 | ||
データエンジニア力 | 1 | 環境構 | 28 |
2 | デーク収集 | 18 | |
3 | データ構造 | 11 | |
4 | データ蓄積 | 18 | |
5 | データ加工 | 14 | |
6 | データ共有 | 15 | |
7 | プログラミング | 24 | |
8 | ITセキュリティ | 16 | |
データエンジニア力項目数 | 144 | ||
ビジネスカ | 1 | 行動規範 | 15 |
2 | 契約・権利保護 | 9 | |
3 | 論理的思考 | ||
4 | 着想・デザイン | 7 | |
5 | 課題の定義 | 17 | |
3 | データ入手 | 3 | |
7 | ビジネス観点のデータ理解 | 6 | |
8 | 分析評価 | 3 | |
9 | 事業への実装 | 7 | |
10 | 活動マネジメント | 30 | |
ビジネスカ項目数 | 113 | ||
スキル項目数合計 | 52S |
使い方
個人的にはまず自社が必要としているデータサイエンティストのスキルを自分たち自身が理解するために利用することが第一でしょう。時間と予算が無限にあるならば全てを100%満たせる超人を揃えることも夢では無いかもしれませんが、時間と予算には限りがあるので大抵は夢です。
なので、そもそもどう言うスキルセットの人間が必要なのか? どのタイプのスキルは社内人材で転用できそうなのか? どのスキルは外部から新規雇用をするのか? どのスキルは外注するのか? など人事/採用的には考える必要がありますよね。
特に「最初の一人目」は薄くても良いので全領域、特にビジネス力が必要です。プラットフォームが「あれば」データが分析できる人間も、エンジニアリングだけができる人間も最初の一人目としては厳しくて、それらが見よう見まねで良いからできてビジネス側と会話してソリューションに落とし込める人間が必要です。もちろん、最初からチームを組んで分担できればなお良いですね。
だいたい不幸になるケースは最初の一人目にそもそも自社にデータ分析基盤が無いのにサイエンティストを雇うとか、データエンジニアだけ雇って基盤は作ったけどこのあとどうしよう? となるパターンです。こういったフレームワークを活用すればそのような不幸なミスマッチを避けやすくなります。
こうして採用戦略/育成戦略を立てやすくなるのが企業側のメリットですね。
もちろん、被雇用者側にもメリットはあって自分のスキルを可視化する事でどこを伸ばしていくのか、どこを強みとして押していくのかを整理してキャリアパスを作りやすくなります。
こう言ったみんなで共通の認識を作るという点に関してはIPAのような公の機関が出してる「標準」あるいは業界団体やベンダー/コンサルが作ったフレームワークが役立ちます。
まとめ
「標準」と聞くとやっぱりプロセスが重いとか古臭いとかで軽視しがちな所もありますが、IPAのITSSにしろ共通フレームワークにしろカスタマイズするにしても軸として採用しとくと色々便利だったりはします。
特に、スキル分類とかは自社や自分自身で組み上げたオレオレ定義を使うよりは、ある程度大きな団体が作り普及した標準ないしはデファクトスタンダートを採用する事でスキルの可視化やコンバートがしやすくなり評価や採用/転職に活用しやすくなるので積極的に使いたいですよね。
とはいえ、ITSSv3 個人的にはちょっとだけ古いとやはり思うのでITSS+に書かかれてる内容やDEVOPS, クラウドインフラ, スマホアプリ開発などある程度トレンドを反映したv4をそろそろ作ってくれないかなと期待する今日この頃です。
それではHappy Hacking!