ゆるくまとめてみるPeople Analytics #1 Performance Evaluation

marumaru
8 min readOct 30, 2018

--

こんにちは、marumaruです。先日からUniversity of Pennsylvania WhartonのPeople Analyticsというコースを受講しています。Andrew先生のMLのような授業ではなく(あまり具体的にコードを走らせることはないので)、ちょっとがっかりしていますが、様々な事例が知れるので面白いです。

ちゃんと理解するためにも、そこで話されている内容を自分なりに超ダイジェスト版でまとめてみようという試みです。テーマ一覧は以下になります。

・Performance : 業績や結果をどう評価するか
・Staffing : 採用、異動、退職など人財フロー
・Collaboration : 社内外含めたコラボレーション
・Talent Management : タレントをどう評価し育てるか

どれも興味深いですが、個人的にはCollaborationが一番面白かったです。

本題と少しずれますが、私は留学経験はあるもののそこまで英語が得意ではなく、雇用環境の違いがあるためか、流行っているキーワードも日本語でうまく表現できません。もちろん、類似の日本語が存在せずカタカナで表現することが適切な場合もありますが、そもそも曖昧にとらえてついカタカナばかり使って話してしまうこともあります。改めて、翻訳をされている方々の表現力、概念というかイデーへの理解は素晴らしいと思います。

さて、本題に戻ります。今回は第一回の’Performance’について。

Pay For Performanceと叫ばれるこのご時世で、人のパフォーマンスとは一体何なのでしょうか?

年功序列ではなく実力主義?ここでいう実力はどういう意味なのでしょうか?何で測るのでしょうか?

冒頭に結論をお伝えすると、このコースの内容は、以上に挙げた疑問を一振りで解決するような魔法の杖を授けているわけではありません。
個人的な意見ですが、正直なところ世界のどこを探してもそんなものはないと思います。ただ、このコースではどんなことに気をつけないといけないか、そして実際の事例を紹介していたので、その一部を共有できれば幸いです。

1. パフォーマンスを評価するとは

なぜパフォーマンスを評価することが大事なのか?まずは目的を以下に定義しています。

■パフォーマンスを評価することの目的
・本人へのフィードバックのため
・報酬 / 賞罰を判断するため

補足として、以下も述べられています。

・タレントマネジメントではなくパフォーマンスに対する評価。
・同じ状況ではない場合、従業員同士のパフォーマンスを比較することはかなり難しい。
・全ての従業員が同じ能力を持っていると仮定するところから始まる

そして パフォーマンスを評価することは、ノイズが入りやすいです。例えば、成果・結果は従業員の努力を完全に反映するわけではありません。

例えば、以下のようなチャートを例に、所謂”運と実力”的状態を可視化しています。

Figure 1: Examples of overlap between two normally distributed groups for different Cohen d values.

Source: https://github.com/MartinHeroux/ScientificallySound_files/blob/master/cohen_overlap.py

インタラクティブに見れるサイトもありますね。http://rpsychologist.com/d3/cohend/

2. 気をつけること

①平均への回帰
平均への回帰とは、統計的な現象の一つでwikipediaにも載っている有名な例もあります。

回帰の誤謬(regression fallacies)とは、平均回帰に気づかずにデータの収集と解釈を行い、さも科学的根拠があるような誤った結論(改善効果があった、悪化が見られる、等)を出してしまうことをいう。

有名な例には統計学者Horace Secristの著書“The Triumph of Mediocrity in Business”(ビジネスにおける平凡さの勝利、1933年)がある。ここでは「競合するビジネスの利益率には時間平均に近づく傾向がある」という「経営学の法則」を示すために、膨大なデータを集めたが、実際のところ平均回帰の一例(あるいは盛者必衰の理?)を示したにすぎない。

授業の中では、ある一時期の評価やランクだけを見るのではなく、5年後や10年後などある一定期間をもって抽出をしています。

②サンプルサイズ

言わずもがななことですが、サンプルサイズは必要不可欠です。
サイズを気にするなんて常識中の常識ですが、サービスで取得できるデータと違って従業員のデータはかなり量が少ないです。

授業の中では、
Q:「コンピューターチップを生産している大小2つのプラント(クオリティは全く同じ)があるが、どちらが欠陥品を多く出すか」
という、ビジネススクールで良く出てきそうな事例を用いています。

答えは「小さいプラント」。なぜなら、生産量が少ない方が分散が大きいからだそうです。
ここからはあくまで個人的な仮説ですが、統計的にサンプル数を出す場合はどれだけ少なくてもn=60、できればn>400を最小値として捉えるように心がけています。

データ量が気にならなくなるほど大量のデータを綺麗に収集して、丁寧に分析できたら幸せですよね。

③独立しているかどうか
これも有名な事例を用いて説明していました。
The Wisdom of Clouds という本は知っていますか?
本を知らなくても、以下の例はどこかで聞いたことがあると思います。

カウンティフェアでの群集による雄牛の体重予想をまとめた平均値が、正味の体重とほぼ一致したというフランシス・ゴルトンの驚きのエピソードである(平均値はどんな牛の専門家による予想値よりも誤差が少なかった)。

この本の要旨は、wikiでもまとめられていますね。

本書は伝統的に理解されてきた群集心理学だけでなく、個々の決断による意見の多様性にも触れる。伝統的群集心理学での定説では、独立した個々の意見を集約すると、その決断や予測は、個々(専門家であろうとも)よりも良いものになることが、多くの統計サンプリングから浮き出してくる類似点である。このことは統計的観点からの議論が、本書の中で持たれている。

授業の中でこの書籍を用いた理由は、この”意見の総意が案外正しくなる”ためには以下4つの条件のうちの一つが独立性が必要だからです。

・独立性:個々の意見は周りに流されるものであってはいけない

彼はこの本で、グループの中に意見が強い人がいたり、事前に誰かにその意見を主張するなど、個々の意見の独立性を阻害することをすると、結局その意見に引っ張られて正しくならないと言及しています。

人事でいえば、360度評価はもしかしたら偏りなく人を正しく評価する手法になり得るのかもしれないですが、運用には注意が必要そうですね。

④プロセスか結果か

この要素では、2000年代初旬にDell Computersが100%成果重視の評価から、成果50%・プロセス50%に変化させた事例を紹介していました。
背景としては、外的環境の変化が著しく、従業員個人の努力以外にも成果に影響すると考えたためだそうです。
その後のDellの業績を見てみると、この評価制度の転換がどう好影響をもたらしたか分かり兼ねますが、有名な事例の一つだそうです。

この要素で重視しているのはプロセスを評価に入れるにしても、「出すべきバリューのキードライバーを見極める」ことだそうです。細かく定量的なプロセスのKPIを決めても意味ないですもんね。

特に、マネーボールでも有名ですがMLB以外にもNBAやNFLなどスポーツでの変化が語られていました。
例えば、以前はよく得点率や得点直前の防御率だけを見て来られたのが、打ったショット数・ディフェンスした回数・ボールの保持時間など、プロセスの数字も吟味されてチーム編成が行われているそうです。

3. まとめ

以下、まとめ&補足って感じです。

・評価の目的をシャープにする

・成果には運と実力どちらも存在することを理解する

・平均への回帰があることを理解する

・少ないサンプルは避ける(またはその場合は分散が激しいことを理解する)

・そもそもの評価自体、独立性を担保する

・成果だけではなく、キードライバーとなるプロセスを評価に組み込む

・自分自身にバイアスがあることを理解する(ファスト&スローは必読かと)

かなりざっくりしましたが、引き続きゆるーくシェアできればと思います。もっとすぐ書けると思ってたのですが、日本語にしてみるの意外と大変でした笑

翻訳がちょっと違うかもしれないので、気づいた方いたら自分の理解のためにもフィードバックをいただけると嬉しいです。

ではでは!また次回!

--

--

marumaru

People Analyst/ a dog person/ Machine Learning/ Deep Learning/ HR / All stories are my own