Pages

Informaion Visualisation:このごろ増えたグラフ表現

コンピューターを使った情報可視化は、1980年以降、ワークステーションによる研究室レベル、パソコンによる個人レベル、ブラウザによるオンラインレベルと実行環境を変化させながら、洗練されてきた。
マスメディアでも、恐らく、技術系デザイナーが活躍するようになったため、多次元大量データを扱うグラフが「締め切りがある世界」に導入されるようになった。(オンライン用コンテンツがプリント媒体に「下向き再利用」されている)
説明が不要で、直感的にデータの特徴を明らかにできる、一般読者向けグラフ表現は、このあたりが限界かもしれない。

  • TreeMap
  • StreamGraph
  • LineAreaGraph
  • Circular Connection
  • Bubble

Tree Map



長方形の組み合わせで、樹形図構造(階層構造)の数量データを表すグラフ。大きさと色に相関関係があると、一目で分かる。
メリーランド大のBen Shneidermanによって1990年代に提案された。1998年によってMartin WattenbergとJarke van Wijkによって、新アルゴリズム(squarifying)が提案され、タイルが正方形に近くなった。2000年以降かなり流行したため、本来の階層構造を表さない、単なるタイル表現も増えてきた。

自動で描くためには、squarifying(正方形に近づけること)とstability(数値によって隣接関係が安定していること)が必要なので、簡単ではない。
パリ在住のNicolas Garcia BelmonteがJavaScript InfoVis Toolkitでコードを公開している。

Stream Graph


映画の売り上げのような、流行廃りのある数量について、時系列で表現するグラフ。ここ数年、やたらと見るようになった。

折れ線グラフを滑らかにしただけではなく、序列をコントロールする必要があるので、細部の処理が難しい。
アメリカのLee Byaronがjavascript用コードを公開している。

Line Area Graph


写真は、アメリカの高校留学生の出入りを流れを表現している。名前に反して、数量と比例しているのは帯の幅で、面積ではない。手書きでも可能。アジア、欧州など大カテゴリーと国別の下位カテゴリーを色で表している。

Circular Connection Graph


学術論文の分野を円上に配置し、各論文の参照関係を示したもの。
ちょっとグラフのためのグラフという感じがしないでもない。

Bubble Chart


一時期大流行したバブルチャートのインタラクティブ版。地図と連動するDorling Cartogramほどの制約はないが、円の大きさが変化すると、微妙に位置を変更しないと重なってしまうので、プログラム的な処理が必要になる。

Wikileaks:アフガン文書を公開、米英独3紙が協調展開

Wikileaks(ウィキリークス)が25日、2004年から2010年までの、米軍アフガニスタン介入に関する米国防総省の機密文書75000点を公開した。日本のメディアがほとんど無視した、バグダッドの市民虐殺ビデオを公表した時に予告していたものだ。
2008年8月26日午前6時30分(現地時間)頃、アフガニスタン東部・ナンガルハール州で、人道支援活動を行っていたペシャワール会職員、伊藤和也さんがタリバンに拉致され、殺害された事件は、たった1枚のCRIMINAL EVENTとして報告されている。
大量にある文書を検証するため、米ニューヨークタイムズ英ガーディアン独シュピーゲルの3紙に事前にデータを見せ、25日の解禁日を設定して、wikileaksのサイト「Afghan War Diary」と3紙(紙面とそのサイト)で一斉に公開する手法をとった。大量の生文書を公開されても、一般読者に真偽の確認が難しいことや、大量であるために「文脈」が分からないことなどから、以前から提案されていた手法だ。
(この手法に踏み切ったのは、3週間前、バグダッドのビデオ映像を漏らしたとしてブラドレー・マニング元米陸軍情報兵が起訴されたからかもしれない)

Afghan War Diaryでは、情報元の要請によって、これまで15000点の文書だけを先行して公開してきた。個人が特定される恐れがある文書15000点は、名前を消す作業が続いていて、逐次公開していくという。

文書は、兵士や情報将校によって書き取られた前線報告や、海兵隊や大使館からの情報、復興や汚職など行政情報からなる。
wikileaksのサイトでは、ミッションの種類(反乱や友軍相打ちなど)、攻撃の形態、場所、日付などによって分類されている。略号が多いので、従軍経験でもなければ意味は分からない。(wikileaksによるガイドがある)
NATO軍など「有志連合」に関する文書はなく、情報の出元が米軍中枢であることを暗示している。

Wikileaks自身は、報道されない事件で、両軍と民間に大量の死者、負傷者が出ていること(特に特殊部隊Task Force 373が子供7人を殺した作戦)を強調している。しかし、3国の主要マスコミと共同戦線を張ったのは、国によって関心が違うことを意識しているからだろう。

3紙それぞれ違う注目点

ニューヨークタイムズのトップ記事は、「パキスタン軍の諜報組織がアフガンの内乱を支援しているのではないか、という疑いが確認された」という観点だ。文書によって、パキスタン政府が、、米軍と戦う反乱軍を組織するため、軍諜報組織の代表がタリバンと直接会合を持ったことが示されているという。毎年1000億円以上支援しているパキスタンの裏切りはアメリカにとって重大だ。
文書そのものは、米軍でさえ、事実かどうか確認しようもなく、報酬狙いの通報者による虚偽情報もあると注記している。
より詳細な現場の様子は
NYTimes:View Is Bleaker Than Official Portrayal of War in Afghanistan
に詳しい。

ガーディアンは、ライブブログ形式で、自分自身による文書公表(逐次すすめている)、Wikileaksの状況、英米政府の反応(パキスタンも)を時系列で速報している。この形式を総選挙以外で使っているのは意外で、いかに重大なリーク情報と捉えているかが分かる。極めて視野が広い編集者という印象だ。
記事は、NATO軍の失敗(タリバンが地対空兵器を持っていること)、米軍との相打ちなど、イギリスの視点が際立つ。
文書をGoogle Mapと結びつけるフラッシュなど、膨大なコンテンツを用意している。
Wikileaksの代表Julian Assangeはロンドンで記者会見(ビデオ)をしている。アメリカでは拘束される恐れがあるため、豪政府がアメリカ渡航を控えるよう忠告しているそうだ。

ドイツの週刊誌シュピーゲルのトップ記事は「Task Force 373:Die dreckigste Seite des Krieges(戦争のもっとも醜悪な1ページ)」で、アフガンのドイツ管轄区域で、アメリカ特殊部隊が女性と子供6人がいる農村を襲撃し、タリバン司令官を殺害する話。同部隊はエリート軍人による高官生け捕り専門部隊で、行動はトップシークレット。作戦地域からは通常兵士さえ「所払い」されるという。

3紙だけを選んだため、ほかのメディアは一報ではなく、ホワイトハウスの反応を初報として扱うハメになった。日本のメディアが選ばれなかったのは、軍を派遣していないからだが、もしそうでなかったら、どこが指名されていただろうか。





層化サンプリングの誤差の推定

時々、「アメリカの新聞では世論調査の誤差を表記するのに、日本の新聞ではしないのはけしからん」という人がいる。俺は統計調査を知っているぜ、とか、(神保哲生記者にように)俺は留学していたんだぜといいたい訳だ。

西平重喜先生の本に書いてある通り、アメリカの誤差表示はめちゃくちゃだ。そもそも、多段階層化サンプリングをしておいて、計算できるはずがない。

とはいえ、どんなオーダーなのか、担当者は知りたいはずだ。

N人からn人を無作為抽出して、比率Pの事象を調査するとき、標準誤差(se)は
で計算できる。総務省の資料では、全国レベル(1億人)の概算値は以下のようになる。
ここまでは教科書に書いてある。
パソコンで無作為抽出を再現して「とにかくやってみる」方法もある。統計ソフトRで1億人から3000人を抽出し、45%のものを調べるとすると
> res <- numeric(10000)
> for(i in 1:10000) res[i] <- sum(sample(10000000, 3000) <= 10000000*0.45)
> hist(res)
> sd(res)
で分布が分かる。

2010年の参院選比例で、民主党の絶対得票率(有権者数に対する割合)は、全国平均で17.76%だった。
有権者1億400万人から、無作為で3000人に調査すると、計算上の標準誤差は0.00697。
「とにかくやってみる」で1000回のシミュレーションすると、誤差は例えば0.00791(毎回変動)で、分布は以下のようになる。
ところで、面接調査などでは、まず市町村を選び、その市町村で無作為抽出する層化抽出法を採ることがある。1億人の無作為抽出リストなんて納税者番号制度でもないかぎり、不可能だからだ。
1901市町村から、規模に比例する確率でランダムに30市町村を選び、それぞれ100人を無作為抽出する(つまり合計3000人)と、以下のようになる。(このシミュレーションが可能なのは、市町村別の結果がわかっているからだ。調査前には分からない)
2段階シミュレーション誤差(30分割) 0.008999563
30市町村を選んだ時点で、その平均値は全国平均から外れてしまうので、結果がぼやけるのは当然だ。とはいえ、市町村によって民主党投票者の比率はそれほど違わないことが幸いして、思ったよりも精度低下はみられない。

しかし、調査主体が「どうせ無作為抽出するのだから、10市町村で300人づつでいいではないか」と怠けると、標準誤差は2倍近くまで拡大してしまう。
2段階シミュレーション誤差(10分割)0.01151522
層化抽出では、全国平均から大きく外れた市町村(部分集合)を選ぶと、その外れた値を目指して、以後の調査をする羽目になる。最初の段階の、市町村を選ぶということがいかに大切かということが分かる。

世論調査の誤差の意味

世論調査の標本誤差とはなにか。

母集団として、男2人(M1とM2と名付ける)と女2人(F1とF2)の4人しかいない教室を考える。
ここから2人を選ぶ組み合わせは(M1,M2)(M1,F1)(M1,F2)(M2,M1)(M2,F1)(M2,F2)(F1,M1)(F1,M2)(F1,F2)(F2,M1)(F2,M2)(F2,F1)の12通りしかないので、男2人=2通り(16%)、男女1人づつ=8通り(66%)、女2人=2通り(16%)になる。男女の組み合わせを変化させると、次のような結果が得られるはずだ。
構成男の比率組み合わせ
男4人100%男4人(100%)
男3人、女1人75%男2人=6通り(50%)、男女1人づつ=6通り(50%)
男2人、女2人50%男2人=2通り(16%)、男女1人づつ=8通り(66%)、女2人=2通り(16%)
男1人、女3人25%男女1人づつ=6通り(50%)、女2人=6通り(50%)
女4人0%女4人(100%)

いま、教室の男女比が分からないまま、選び出された2人の構成だけが分かるとすると、
結果男4人男3人男2人男1人男0人
男2人100%50%16%0%0%
男女1人0%50%50%50%0%
男0人0%0%16%50%100%

設定を世論調査に代えると、人口4人の街でサンプル数2で男女比調査を行ったことになる。いま、結果が男100%だといっているとすると、それが意味することは
「もし真の値が100%だったら100%の確率、75%だったら50%の確率、50%だったら16%で、こんな結果が出る」
ということになる。
この結果、最も確からしい母集団推定値は100%という結論に一応なるのだが、75%でさえ、2回に1回の偶然でこのような結果が出ることは頭に叩き込んでおく必要がある。
そして、男4人の相対値、100/(100+50+16)=0.60を考えると、「男2人が出たとき、教室は男ばかり4人である確率は60%」といえるかもしれない。


このような組み合わせは超幾何分布といわれ、M人のクラスにN人の男がいて、k人のサンプルの中にx人の男がいる確率は
P(X=x)=\frac{\binom{M}{x}\binom{N-M}{k-x} }{\binom{N}{k}}
と(もちろんエクセルで)計算できる。
10人のクラスから5人を無作為抽出したとき、クラスの男の数(縦方向)とサンプルの男の数(横方向)の関係は以下のようになる。(4人の表とは縦横が逆になっている)
いま、5人中3人が男だったとき、正確には以下のようなことが言える。
「クラスの男が6人なら、48%の確率でこのような結果になり、これが一番高い確率だ。しかし、クラスに5人だとしても40%の確率だし、7人だとしても42%、4人だとしても24%(その他は省略)の確率でこのような結果が生じうる。」
たとえば、3人のとき、縦方向に0,0,8,24,40,48,42,22,0,0と並んだ数字を合計してパーセント表示すると、以下のような確率が得られる。

母集団についての事前情報が全くないのだから、もし5人のうち3人が男だったとき、
「母集団の男は26%の確率で6人、23%の確率で7人、22%の確率で5人」
などということができる。あるいは、合計して
「5−7人である確率は71%」
ということができる。

同じ計算を1000人の教室で100人をサンプリングし、50人が男だった場合も計算すると、
1000人のうち500人が男である確率は0.84%程度にすぎない。
だが、499人が男である確率も0.84%程度あるので、累積的に考えると、480人から520人までの確率は34%程度になる。400人から600人まででは97%になる。(横軸は真の値として可能性のある0−1000人)

数学者は、以上のような計算を、具体的な人数ではなく、連続的な数値として考えている。(大抵の場合、最終的に「正規分布に近似できる」という結論になる)

ところで、「1000人の教室で100人をサンプリングし、50人が男だった場合」に最も確からしい推測である「1000人のうち500人が男である」としたとき(つまり未知の値を既知であるとするとき)、あらためて100人をサンプリングすると、50人が男である確率は8.4%程度になる。累積的に考えると、40人から60人までで97%程度になる。(横軸は0−100人)

このグラフの形状は基本的に同じになるが、横軸が違うので、根本的に別の話だ。

本題。「内閣の支持率は43%。90%標本誤差は40-46%」という表現は何を意味するか。
前半の把握方法は「支持率が0から100%まですべての場合を考えたとき、この調査結果になる場合は、40-46%の場合を足し合わせると90%を占める。ちなみに43%の時に最高値になる」という意味だ。これが本当の確率で、調査はすでに実施された1回だけだ。
一方、後半の把握方法は「この調査結果のもっともらしい推定値は43%。もし、43%だとしたら、この規模の調査を繰り返すと、90%の割合で40-46%にブレる」という意味だ。これは調査精度の解説をしているだけで、念頭にあるのは、仮想的に繰り返される多数の実験だ。これを標本誤差(sampling error)という。

前者の方法を「40-46%になる確率は90%」と表現する場合があるが、「お前が真の値を知らないだけで、40−46%になるか、ならないかのどちらかではないか」と指摘をされかねない。また、「43%のとき最大になる」では何を言っているか分からないので、新聞での説明は大抵、後者が使われる。

世論調査のリテラシー

世論調査を実施したり、結果を分析する人は、次の問題に即座に答えられるはずだ。

問1。「19世紀のロンドンで、1年間に目撃されたコウノトリの目撃数と、その年に生まれた子どもの数を調べると、右のような関係が分かったそうだ。このデータから、赤ん坊はコウノトリが運んでくることが間接的に裏付けられた」。データが間違っていないとすれば、この話のどこがおかしいのか。

問2。一般的に全国世論調査(人口1億人とする)の標本数は3000程度が望ましいといわれている。その全国調査と同じ精度の調査を、人口10万人の地方都市で行う場合、必要なサンプル数はどの程度か。

統計学が難しいのは、人の本能に組み込まれていると思われる「比例と因果関係に関する直感」に、しばしば反するからだ。
利発な子どもなら、線状に散らばるグラフを見て因果関係を想像するに違いない。だから、19世紀の100年間でロンドンの人口が増えたことを示すに過ぎないと言われると、引っ掛け問題じゃないかと腹が立つ。
1000分の1の大きさの都市で調査を行うのだから、かなり小さなサンプル数で十分のように思うのは常識的だ。だから、3000人と同じ精度を確保するためには2913人必要だと言われると、胡散臭さを感じてしまう。

では、参院選で実際に掲載された、出口調査に関する記事はどこに問題があるのだろうか。

 民主支持層のうち、民主候補に投票したのは76%で、11%が自民候補に流れた。自民支持層は84%が自民候補に投票し、民主候補に流れたのは7%にとどまった。さらに、公明支持層で民主候補に投票したのは19%に過ぎないのに、自民候補へは60%。自公連立政権がなくなったとはいえ、公明が自民の大きな援軍となった。
 一方、過去の選挙で民主の味方となっていた無党派層は民主候補に39%、自民候補に36%で、ほとんど変わらなかった。07年選挙の1人区では、無党派層は47%が民主候補に、21%が自民候補に投票していた。この差が民主勝利の決め手となっていたのに、今回はそれが全くなかった。(朝日編集委員・峰久和哲)

 政党支持層と比例選の投票先が一致する“歩留まり率”をみると、民主党は66%だった。みんなの党は73%で高率だった。自民党は62%だった。
歩留まり率をめぐっては、民主党は09年衆院選で82%、07年参院選で80%と高率を記録したが、今回は大きく下がったことになる。一方、自民党は09年衆院選では54%、07年参院選で56%で、今回は復調した。(読売・無署名)

 毎日新聞は11日、府内の投票所20カ所で、投票を終えた有権者1000人を対象に出口調査を実施した。
調査結果によると、「支持政党なし」と答えた無党派層は全体の38%。このうち民主・尾立さんには22%、同・岡部さんには21%が投票し、拮抗(きっこう)した。一方、民主支持層は6割が尾立さんに入れ、岡部さんは3割弱にとどまった。民主が連合を中心に支持組織を尾立さん支援に一本化し、岡部さんは頼みの綱だった無党派層獲得があと一歩及ばなかったことが、2人の明暗を分けた。
昨年の衆院選小選挙区でどの政党の候補者に投票したか聞いたところ、民主49%、自民20%、公明9%などだった。衆院選で民主候補に入れた人のうち、今回再び民主候補を選んだのは計63%(尾立さん42%、岡部さん21%)にとどまった。次いで、みんな・川平さんに13%が流れ、みんなが一定程度、民主批判の受け皿となったことが見て取れた。(毎日・大阪版)

解釈の「常識」を端的に示すのは、読売の「歩留まり率」という言葉だ。有権者にはもともと支持政党があって、基本的にそれに合致するような候補者を選ぶ、と考えているから、その比率が「歩留まり」になる。
だが、支持政党と候補者の関係はもっとダイナミックなものだ。候補者が魅力的だから、その所属政党を支持するようになることもあれば、支持政党の公認だから候補者を支持することもある。こういう相互作用があるから、政党は魅力的な候補者を探すのだ。

クロス集計は因果関係を説明しない。安全にいえることは、毎日の「(昨年の)衆院選で民主候補に入れた人のうち、今回再び民主候補を選んだのは計63%(尾立さん42%、岡部さん21%)にとどまった」のように、時間的に逆向きの影響がありえないような組み合わせしかない。

3本の分析記事は、客観を装いながら手垢まみれの通念を垂れ流している。「赤ん坊はコウノトリが運んでくる」と言っているのに等しい。統計データは誰にでも読めるものではないのだ。

ナイト・バッテン賞にSunlight財団のSunlight Live

ナイト財団がジャーナリズムの技術革新を対象に表彰するナイト・バッテン賞にSunlight財団のSunlight Liveが選ばれた。

Sunlight財団は、ワシントンの元パートナー弁護士Michael KleinとNPO活動家Ellen Millerが2006年4月に設立した、政府情報の公開をテクノロジーを使って推進する財団。データのデジタル化、ツールの開発などを通じて、プロの記者も一般市民も同様に情報にアクセスできるようにすることを目的としている。

Sunlight Live
2007年に成立した情報公開法(Honest Leadership and Open Government Act, HLOGA) では、同財団の運動で、公務員のアゴアシ旅行記録や協議会記録のオンライン公開義務が付け加えられた。これを受けて、Open House Projectを立ち上げ、議会活動でインターネットをどのように活用するか、研究している。(たとえば、投票行動の情報を格納するXMLフォーマットなど)
これらの動きは、以下のようなサイトに結実している。
OpenCongress.orgは、議会情報を包括的に入手できるサイトで月間数十万人の訪問者がある。FedSpending.orgはアメリカで最初の政府資金、政府契約データベースになった。
NewYorkTimesなどが選挙運動資金のインタラクティブ地図などを作っているが、その情報は、the Center for Responsive Politicsやthe National Institute for Money in State Politicsなどが供給している。
Sunlight Labsという組織を持ち、2000人以上のボランティアソフト開発者が参加している。一般の人もデータ入力などで参加している。

受賞したSunlight Liveは、国会や政府会議をUstream、Twitter、Chatなどを1ページに集約してライブでまとめる仕組み。仕分け会議の中継をみれば分かるが、「映像のライブ中継すれば透明性が高まるというわけではない」という問題意識がある。


ナイト賞の特別賞
ProPublica's Distributed Reporting5000人の記者読者で構成するReporting Networkが、連邦政府の緊急景気対策をチェックしている。
48 HR MagazineTwitterなどで2週間投稿を呼びかけ、60ページの雑誌を作り上げた。いわゆるCrowdsourcingで雑誌が作れることを実証した。
The Obameter言わずと知れたPolitiFact。オバマ大統領の公約実現状況を追跡している。読者が評価に参加する仕組みがある。
Ushahidi Haitiハイチ地震発生後2時間で、Skype, Twitter, Facebook, radioを組み合わせて、救援ニーズをまとめるシステムを稼働させた。ボランティア1000人がオンラインでクレオール語を英語に翻訳した。Ushahidiは情報を地図上でまとめるプラットフォーム。
What is the Ushahidi Platform? from Ushahidi on Vimeo.
Publish2 News Exchangeハブ&スポーク型の通信社と異なり、報道機関を直接結びつけて、アドホックな一対一の通信社を作る仕組み。
Sourcing Through Textingデトロイトのラジオ局が住民にTips(取材提案)を書いてもらう実験。たとえば、側道を暴走するトラックの問題などが提案された。

MapTreeのSquarifyアルゴリズム

Map Treeのアルゴリズムで、squarifyと名付けられた「正方形に近い塗り分け」は以下のようになる。

幅:高さ:
データ(コンマ切り up to 15):



















Mark Bruls, Kees Huizing, and Jarke J. van Wijkの論文にあるSquarifyの基本コードは以下の通り。


var Rectangle = function(top, left, width, height){
    this.top = top;this.left = left; this.width = width;this.height = height;
 this.maxAspect = Math.max(this.width / this.height, this.height/this.width);
 this.wider = function(){return (this.width > this.height)};
 this.area = function(){return this.width * this.height};
 this.show = function(){return "rect[ "  + this.top + " , " + this.left + " , " + this.width + " , " + this.height + " ]"};
 this.set = function(top, left, width, height){
        this.top = top;this.left = left; this.width = width;this.height = height;
 };
};
SumFromTo = function(arr, From, To){
   var res = 0;
   for(var i = From; i <= To; i++) res += parseFloat(arr[i]);
   return res;
}
WorstAspectFromTo = function(arr, b, From, To){
   var base = SumFromTo(arr, From, To) / b;
   var res = 0;
   for(var i = From; i <= To; i++) res = Math.max(Math.max(base / arr[i] * base, arr[i] / base / base), res);
   return res;
}
LayoutFromTo = function(rect, arr, From, To, resRect){
   var base = SumFromTo(arr, From, To);
   var x = rect.left;
   var y = rect.top;
   var i = 0;
   var res;
   if(rect.wider()){
       var w = base / rect.height;
    for(i = From;i <= To;i++){
        resRect[i].set(y, x, w, arr[i] / w);
     y = y + arr[i] / w;
    }
    res = new Rectangle(rect.top, rect.left + w, rect.width - w, rect.height);
   }else{
       var h = base / rect.width;
    for(i = From;i <= To;i++){
        resRect[i].set(y, x, arr[i] / h, h);
     x = x + arr[i] / h;
    }
    res = new Rectangle(rect.top + h, rect.left, rect.width, rect.height - h);
   }
   return res;
}
Squarify = function(rect, areaArray, start, resRect){
    var totalArea = 0;
 for(var i = start; i < areaArray.length -1; i++){
        if(WorstAspectFromTo(areaArray, (rect.wider() ? rect.height : rect.width), start, i) < WorstAspectFromTo(areaArray, (rect.wider() ? rect.height : rect.width), start, i + 1)){
       Squarify(LayoutFromTo(rect, areaArray, start, i, resRect), areaArray, i+1, resRect);
     return;
  }
 }
 LayoutFromTo(rect, areaArray, start, i, resRect);
};
MakeTreeMap = function(rect, dataArray){
    var sumarea = SumFromTo(dataArray, 0, dataArray.length - 1);
    var resRect = new Array();
    for(var i = 0;i < dataArray.length;i++) {
        dataArray[i] = parseFloat(dataArray[i])* rect.area() / sumarea;
     resRect.push(new Rectangle(1,2,3,4));
    };
    Squarify(rect, dataArray, 0, resRect);
 return resRect;
}


TreeMapはモザイクマップとも呼ばれる。RによるTreeMapについてはここ

タイムズ電子版の有料購読者は15000人

Beehiveというサイトによると、ロンドン・タイムズ電子版は、最初の2週間で
  • 無料期間中のユーザー登録が15万人
  • 有料購読者が15000人
  • iPad版購読者が12500人
になったらしい。Beehive自身が「我々より少ないじゃないか」と書いている。
BeehiveCity : Times paywall: the numbers are out (should we charge for this?)

タイムズはプリント版が平日50万部(1年で9万部減)、日曜108万部。同サイトでは、月間26ポンドの(流通費用を除いた)実収入があると見込んでいる。電子版は最もお得なレートで8.5ポンドにしかならないが、割高な一日アクセスもあるので、10ポンド程度と見込んでいる。

一方、ガーディアンによると、タイムズのトラフィック(Hitwise)は有料化で67%減少したそうだ。

Guardian : New paywall costs the Times 66% of its internet readership

減少は、有料化前の1ヶ月間、ユーザー登録を求めるようになった時にすでに始まり、トラフィックの58%を失った。


記事には失望感がみなぎっているが、100万部に対して15000人(1.5%)というのは、日経新聞の300万部に対して7万部(2.3%)と比べて、それほど悪い訳ではない。購読料はもっと高くすればいいのではないか。
クレジットカードでの支払いが上手く動いていない影響もあると思う。(管理人は何度やっても決済できなかった)

News Universityのビデオ撮影講座

新聞記者教育などを行う米ポインター学院(Poynter Institute)は、オンラインで受講できるNews Universityを設立している。市民記者向けの入門講座から、現役記者向けのSEO対策、経営者向けの業界トレンド講座まで、多彩なプログラムを用意している。(無料のものも有料のものもある)

動画取材の基礎を教える「Video Storytelling for the Web」という講座は、テレビ放送との基本的な違いを説明して、動画向きの素材として建国記念日のパレードと取り上げ、4社の動画を比較している。巧拙の差が著しい。

【何を取材するか】
John Sall(シカゴサンタイムズ紙):テレビが取材しないもの。コミュニティに入り、面白いもの。溺愛されるペットの話は地元で大受けだった。

【放送との違い】
  • 記事を読むアンカーマンがいないので、ビデオそれ自体が完結した記事でなければならない。記事に付属する動画でも、視聴者が記事を読んでいると想定してはならない。
  • ペンの記者とスチール写真カメラマンが、専門教育を受けないで動画取材を始めると、当初はぞっとするほど劣悪なビデオになるものだ。記者は映画やドキュメンタリーを注意深く見て、カメラアングルや画面転換、レポートの仕方やナレーション、字幕の使い方を学ばなければならない。
  • テレビはチーム取材だが、Webでは一人(ビデオジャーナリストという)。しばしば、記者の声は全く使われない。
  • テレビは時間割りが決まっているが、Webでは自由

【必要なこと】
  • 焦点:新聞取材以上にあらかじめ物語の焦点を明確に意識しなければならない。散漫なインタビューは編集に時間がかかり、肝心な質問やシーンが撮れていないことに気づいても、電話で追加取材はできない。
  • 音:例えばレストランのシェフのビデオで、人々が食べている音などは別に録音しておかないと雰囲気が表現できない。
  • 映像:例えば、ガールスカウトの清掃奉仕の場合、インタビューで何人が参加してどれくらい回収したかを聞く。そのとき、参加者が集合した場面やゴミ袋をまとめる様子が必要になる。音声と映像は一致しなければならない。

この道の第一人者、デトロイトフリープレスのBrian Kaufman記者の作品とその解説「Expert's Take」は一見の価値がある。撮影2日間。細かいカット割りが素晴らしく効果的だ。


有料だが、必要な装備を紹介するMultimedia Tools: Your 2009 Shopping Listという講座もある。


カナダとブラジルの名門新聞がオンライン専業に

ブラジル・リオデジャネイロのジョルナル・ド・ブラジル紙(Jornal do Brasil)が、9月からプリント版を廃止し、オンライン専業になると発表した。サイトは月約5ドルの有料になる。

部数は平日17000部で決して大きな新聞ではない。社員180人。(1位はFolha de S. Paulo紙で約30万部)反政府的姿勢が災いして、1980年代には倒産寸前になったが、ブラジルで最初にWebサイトやPDF版の発行するなど、革新的な経営をしてきた。

ブラジルでは3番目に古く、創刊119年。リオデジャネイロのスラムを描いた映画「シティ・オブ・ゴッド」で、主人公がカメラマンの見習いになる新聞社だ(1970年代の設定)。

同紙の勲章は1968年12月14日、軍事独裁政権のシルヴァ将軍が国会を停止した日だ。検閲をくぐり抜けるため、1面を天気予報にした。気象概況は「天候は暗い。窒息しそうな気温。国は強風に流されます。最低気温、大統領宮殿で5度。 最高気温、ブラジリアで37度」だったという。


一方、カナダのモントリオール・ガゼット紙(英語)も、8月から日曜版の印刷を中止し、オンライン専業に移行する。
1778年創刊で45万部。モントリオールではスター紙に次ぐ2位。2000年からCanWest社の所有になったが、同社が身売りしたため、Postmedia Network社が親会社になっている。

死んだ猫も飛び上がる(dead cat bounce)

あすから米新聞大手の2010年第2四半期の業績発表が始まる。NewsonomicsのKen Doctorが、「死んだ猫も飛び上がるか」という刺激的な記事を書いている。

NiemanjournalismLab:The Newsonomics of the dead cat bounce

「死んだ猫さえ飛び上がる」というのは、衰退産業の株価が衰退過程で上昇する減少を指すウオール街の言葉だ。高いところから落ちたのだから、多少のバウンドもするという意味。

リーマンショックがあった2009年と比較すると業績が良くなるのは当たり前だという。第1四半期は1桁のマイナスだったが、去年は2桁マイナスが続いた。だから、一桁マイナスには慣れてしまっている。しかし、第2四半期はテレビやオンライン広告は既に増勢に転じている。新聞がプラスに戻らないのは、業績悪化は循環的ではなく構造的だからだという。

彼が注目する点は:

  1. 大手新聞社の2009年のデジタル部門の収入は12−15%だった。これがどの程度増えるかどうか。
  2. (新聞広告とセットのオンライン広告ではない)デジタル限定広告の比率がどの程度増えるのだろうか。
  3. トリビューンとガネットは、Webサイト構築、SEOなどのサービスを始めた。この成否はどうか。
  4. 販売収入と販売部数はどうなるか。NYTimesは部数が減っても値上げ効果で販売収入が上がった。ガネットは部数減の影響が大きく、収入が5%減少した。

参院選2010:世論調査を調査する(5)

スタンフォード大学Simon Jackmanによる世論調査統合の試み「Polling the Polls」を日本に当てはめたPolling the Pollsの、選挙結果を組み込んだ最終結果。

11日には参院選結果に一致するようにモデルが振る舞うのだから、最後にブレるのはある程度仕方ない。
選挙直前に勃発した消費税議論で、民主の推定支持率が、確率モデルが付いていけないような急降下をしている。この変動を予想できるモデルは存在しないだろう。


以下は民主党支持率の調査結果と推定曲線。
世論調査における民主党過大評価は最後まで解消されなかった。どうやら、日本人にとって、与党支持表明が容易(野党支持は覚悟がいる)ということは間違いない。
ということは、 Polling the Pollsも与党時代と野党時代で別の推定をしなければならないということになる。


一方、自民党は読売の過大評価を例外として、かなり一致している。


比例代表の予測の生数字は公表されていないので、情勢分析の予測議席数から推定される推定値(1議席あたり100/48%)は以下の通りになる。

民主自民公明共産みんなその他
共同序盤17(35.4%)12(25%)6364
朝日序盤19(39.6%)11(22.4%)6354
朝日最終17(35.4%)11(22.4%)6374
議席数16126374
獲得率%31.6%24.1%13.1%6.1%13.6%-

情勢予測が正しいとすれば、Polling the Pollsはドンピシャな推定をしている。

結果予想で前提としているのは、選挙期間中にはがっぷり四つに戦うため、大きな変動は起きないという合理的選挙運動だ。横紙破りの消費税論議で予想は乱れに乱れたが、菅内閣は、参院を人身御供にして消費税増税へ覚悟を決めていたのだろう。

佐々木毅「政治の精神」

(個人的にはブログで紹介するのも畏れ多い気がするが、まあ衰える記憶力を補う記録なので)
東大は国立最大規模の大学だから、政治学の先生も大勢いる。それでも、一年生向けの概説授業「政治学」を担当する先生は、専門分野はそれぞれ違うが、包括度というか、射程というか、政治固有の問題把握が別格だ。

この基準で新聞やテレビの政治記事を読むと、猛烈な落差を感じるが、そもそも政治学科卒の政治部記者なんて(政治家と同様)あまりいない。政局に興奮する記者は公的政治とオーナー企業の社内政治との区別なんて興味がないし、政策に関心がある記者は、工学的な、テクノクラートの政治観に満ちている。ハーシュマンの議論の紹介には、巷にあふれるエコノミスト的政治観(政治部記者にも多い)に対する嫌悪が感じられる。

学説紹介の本なら今後も出てくるだろうが、政治学も政治そのものと同様、言葉の営みなので、問題提起や説得の語り口が決定的に重要だ。話下手な政治学者というのは、「最後は権力だ」という政局記者同様のチープな力量しかない。
この本には「そろそろ引退だな」という雰囲気が感じられるが、佐々木教授は継ぐ政治学者は誰なんだろう。


  • 多数者の専制を防止することこそが連邦政府を設立する主要な目的の一つであった(アメリカ建国の話)
  • 選択の契機を失った「参加」はいつの間にか権力者に対する喝采と区別がつかなくなり...
  • 立憲主義的政治家に求められる要件「一流の人間の力と二流の人間の信念」「平凡な見解と非凡な力量」(バジョット)
  • わずかな人だけがそこから帰ってくる事ができたその場所に決して行ってはならない。すなわち、野心の領域に決して立ち入ってはならない」(アダムスミス)
  • 心情倫理(Gesinnungsethik)と責任倫理(verantowortungsethik)
  • アリストテレスの弁論術  議会弁論=勧奨と制止 演説的弁論=賞賛と非難 法廷弁論=告訴と弁明
  • リップマンの民主主義批判 政治の目的は自治を実現する事ではなく、人間の可能性を発揮できるような生活水準を実現する事
  • シュンペーターの民主主義批判 公益が一義的に決められない以上、一般意志は「つくりだされた意志」
  • ハーシュマン 追求と獲得が一体になっっている行為では費用便益論が有効性を失う
  • 政党の意義=政治家による統治は政治家による政治家の統治を踏まえたものでなければならない

参院選2010:世論調査を調査する(4)


Polling the Pollsによる世論調査統合で、7月7日までの各社データを反映させた。選挙公示後の消費税議論によって急激に民主支持が減少していることが分かる。
手法の説明:世論調査を調査する(1)

開票日の結果を反映させると、この折れ線がどの程度修正されるのか見物だ。

民主党は、菅内閣発足時に比べて、支持率が約10%程度下落。昨年の衆院選のレベルより低くなってしまった。


自民党はやや持ち直しているが、昨年の衆院選の水準まで戻っていない。

ロンドン・タイムズが有料化開始

マードックのNews社が1日、ロンドン・タイムズの有料化を開始した。メジャーな一般紙の有料化として(成功するかどうかさておき)マスコミ史に残るだろう。

日曜版も別サイトとして有料化した。
基本的には1日1ポンド、1週2ポンドだが、お試し価格として最初の1ヶ月1ポンドというメニューが提供されている。プリント版読者は無料で見ることができる。iPad版はこれらの契約と関係なく月間9.99ポンド。

タイムズの編集局の年間コストは1億ポンド。ワシントン特派員は50万ポンド(6600万円)、バグダッド特派員は100万ポンドかかっているらしい。
John Witherow編集局長はBBCの番組でトラフィックの9割以上を失うだろうと腹をくくっている。年間約100ポンドの計算で10万人が購読すれば1000万ポンドになり、編集コストの1割を賄うことを期待している。
Witherow: Paywall needed for Times £100m ed costs

マードックは、英国のタブロイド、サン紙や米国のニューヨーク・ポスト、本家の豪州オーストラリアン紙なども年内に有料化する方針だ。

一方、今や高級紙としてのステータスをタイムズから奪ったガーディアンは無料サイトを維持する姿勢。有料化に反対してタイムズを辞めた法廷ブログ、BabyBaristaと契約し、法律欄を充実させている。

タイムズは昨年8770万ポンドの赤字、ガーディアンは5790万ドルの赤字。両社の事情は同じだ。現在の経済状況では、ガーディアンの無料サイトは維持できないだろう。それを許しているのは、信託財団による経営なので株主圧力がないためだ。その信託基金さえ我慢できなくなる前に、広告ベースで組織を維持できるようになるか、数年で白黒はっきりする。
(断言していいが、ガーディアンは絶対に失敗する。タイムズが成功するかどうかも怪しい)

以下は、タイムズによるプロモーションビデオ。








今回の世論調査が難しい理由

参院選の世論調査に関する各紙の情勢分析が発表された。民主の過半数確保をめぐって見通しが分かれている。

今回の選挙は、民主党が政権政党として迎える初めての国政選挙だ。
それ以前、民主党などの野党は、世論調査で過小評価される傾向があった。公明党と共産党が過小評価されるのは非公然支持者が多いからだ。しかし、民主党支持者が自民党支持者に比べて0.65倍程度しか世論調査に回答しないという傾向は、サンプリングの偏りではなく、民主党支持者そのものの属性によるものかもしれないと思っていた。つまり、民主党支持者はいきなりかかってくる電話にホイホイと答えるような人ではないとしたら、世論調査では絶えず過小評価されてしまう。

この過小評価問題を、新聞社は過去の調査ー結果の比較から補正してきた。読売新聞は「事前に過去の衆院選での調査値と実際の得票率との相関を示す予測式を各政党別に作成し、これを、小選挙区の都市化度などの要因で補正した。この予測式を今回の世論調査で得た各候補者の調査値に適用し、それぞれの予測得票率を算出した」と明示している。朝日新聞も「選挙区では過去3回(01年、04年、07年)の調査結果と選挙結果から作成した予測式を用いて得票率を推計。各候補者の推計得票率の差から当選確率を算出した。各政党別の推計議席は、この当選確率を積み上げたもの」という。

果たして、この、民主野党時代を敷衍した予想式(補正式)は今回も有効なのかどうか誰も分からない。

民主党の過小評価が続いているとしたら、現在の世論調査結果から予想される結果は民主圧勝だ。しかし、「与党としての民主党」は以前の「与党としての自民」と同様、過大評価されているとしたら、相当苦戦することになる。

過大評価が自民党支持者の属性ではなく、与党支持者の属性だったとしたら、政権支持を表明する方が不支持を表明するより心理的に容易だということになる。行政と商売している人なら当然だと思うだろう。その場合、予想式(補正式)方式は、今後、重大な問題を抱えることになる。