Pages

文書ダンピングをどう処理するか:APのOverview

福島原発事故で、東電から国に報告された文書11,000枚が公開された。ほとんどが手書きで、時系列のあるデータなので、どのように把握すべきかは読解力に依存するが、1枚10秒としても30時間かかる。

Open Government運動などの情報公開が進んでいるアメリカやEUでは、このような文書大量公開(Document Dumping) をどのように処理するかの試行錯誤が続いている。情報公開法で開示されるデータは整理されていないからだ。
ナイト財団のNewsChallengeに選ばれたOverviewは、2年間4000万円を使って大量文書の調査システムを開発する。
DocumentCloud(文書を保管し、検索する仕組み)に対して、操作しやすいインターフェースを構築し、タグやアノテーションを付加する。Docuvizは文書間の関係を可視化する仕組み。
Googleなどの検索エンジンとの違いは、ジャーナリズムの領域では、そもそも検索すべき言葉が分からないということに尽きるという。

想定されるプロジェクトとして、ペイリン元副大統領候補のメール記録公開(24000件)や公開企業のSEC提出書類の分析が挙げられている。
プロジェクトでは、1)締め切りがある世界で使えること、2)いわゆるジャーナリストプログラマーのコミュニティーをつくること、3)データマイニングの基盤になること、を目標にしている。

どんな技術を使うか

Overviewのサイトには、責任者、Jonathan Strayが全米CAR協会で講演した「APのアフガン文書処理」のレポートが公開されている。

使われた技術は、潜在意味解析(tf-idfなど)の自然言語処理や、Glimmerなどの巨大行列処理プログラム、Gephiなどのグラフ・レイアウト・ソフトウエアなど。
日本の場合、1)OCRが使える水準ではない、2)形態素解析を通す必要がある、などで、克服する課題が多すぎる。

CARの最前線:WSJの社有機乱用調査

コロンビア・ジャーナリズム・レビュー誌が、ウォールストリートジャーナル紙に掲載された社有機利用状況の記事がどのように取材されたかを紹介している。

CJR:An Excellent WSJ Probe Finds Corporate Jet Abuse

Mark Maremont記者とTom McGinty記者は、情報公開法(Freedom of Information Act)を使って、2007年から2010年までのFAAの航空管制記録を入手した。
その数、860万件。エクセルはもちろん、Accessでも難しい。
このうち、目的地がビジネス用途とは関係ないと思われるフライトを抜き出し、そのコストを計算した。その結果、株主向け報告書に比べて、一時間あたり5000ドル余計にかかっていたということが分かった。

アメリカでは、仕事以外でプライベートジェットを使用した場合にその費用を公表するように法で定められいる。
ハードディスクメーカーのEMCは、社有機を5機持っているが、Tucci社長が別荘を持っている、フロリダなど3空港に4年間に393回着陸していた。社全体でも31%のフライトはリゾート地向けだった。
株主報告書には、これらの私用フライトのコストは66万ドルと報告されていたが、WSJの試算では310万ドルになるという。「4年間に393回」という数字は、ほぼ週2回にあたる。

データは「Jet Tracker」として検索可能な形で公開されている。また、飛行記録を公表しないように企業側が求めている航空機のリストも公開している。

ナイト財団のNewsChallenge2011決まる


ナイト財団がジャーナリズム分野のイノベーションに資金を提供するNewsChallengeで、2011年分の配分先が決まった。総額470万ドル。

2011年Knight News Challenge採用アイデア
iWitnessAdaptive Pathニュース発生時にユーザーが作成したコンテンツをショーシャルメディアから収集し、一覧できるようにする仕組み。AdaptivePathはデザイン会社。
$360,000
OverviewAP大量文書・巨大データを整頓、可視化して記者の記事作成を助けるシステムの構築。
$474,000
News TaskforceAwesome Foundationデトロイトの10-15人の地域リーダーらに1000ドルのマイクロ補助金を与え、市民メディアの立ち上げを支援する実験。
$244,000
PANDAChicago Tribune連邦政府の情報を扱うノウハウを持たない地方メディアのために、GoogleRefineのような、データの分析を行うオープンソースのツールを開発する。
$150,000
DocumentCloud
reader annotation
IRE2009年採用のDocumentCloudを拡張し、一般読者が目を通し、コメントを残すクラウド・ソーシング機能を追加する。
$320,000
FrontlineSMSKiwanja FoundationFrontlineSMSを地元ラジオや地元記者と結びつける試み。
$250,000
ZeegaMedia and Place ProductionマルチメディアコンテンツのHTML5プラットフォームを立ち上げ、実際にドキュメンタリー作品を試作する。
$420,000
State DecodedMiller Center Foundation州法、州裁判所判決などを、一般人にも分かりやすくするために文脈や解説を加えて表示するプラットフォーム。州別の電子六法全書。
$165,000
PoderopediaEl Mostradorチリの権力エリートの結びつきを明らかにするため、クラウドソース的データベースを構築
$200,000
NextDropNextDropインドのカルナタカの住民に、断水に関する情報を配信する仕組みを構築
$375,000
Spending StoriesOpen Knowledge Foundation政府に関するニュースと予算データを結びつける仕組み。自動リンクとユーザー参加による
$250,000
Public LaboratoryPublic LaboratoryMITのGrassroots Mappingのような、市民ベースのデータ収集・調査活動の道具を作る。
$500,000
ScraperWikiScraperWikiネット上の情報を集めるscraperという仕組み。期限を決めて公開する機能などがある
$280,000
Tiziano360Jon VidarHTML5ベースのマルチメディアプラットフォームの構築。ベースはクルディスタンに関するサイト
$200,000
OpenBlock Rural北カロライナ大学北カロライナの地域新聞がオンラインに移転する支援を行う
$275,000
SwiftRiverUshahidi災害発生時にメール、twitter,webなどにあふれる情報の信頼度をアルゴリズムに基づいて判定する
$250,000



昨年分:ナイト財団の2010年ニュースチャレンジに12企画

EUのOpenDataChallenge

4月から公募されていたEU地域での公開データ利用コンテスト「Open Data Challenge」の結果が発表された。
ロンドンの非営利組織、Open Knowledge Foundationが主催、Googleなどがスポンサーになり、賞金総額2万ユーロ。参加資格はEU限定ながら24カ国、430作品が参加した。
OpenData運動の成果で政府関係データが電子的公開が進んでいるからこそ、このようなコンテストも可能になる。



Open Data Challenge from Open Knowledge Foundation on Vimeo.

主な入賞作品
【アイデア部門】

  1. bePart:都市再開発計画のデータベースで、利用者属性から利害関係があるプロジェクトを紹介する
  2. Nomen Est Omen:名前に関するデータベース。同じ名字の有名人などを紹介する。
  3. European Union Dashboard :EU政府の歳入支出、議会の討議時間などのデータベース

【アプリ部門】

  1. ZNasichDani:名前を入力すると、その人物が所有、経営する会社が政府調達の契約をどれだけ結んでいるかを表示する。政府との利害相反をチェックする。
  2. Live London Underground tube map:ロンドン地下鉄のリアルタイム地図。ソースコードもある。
  3. OpenCorporates:各国の企業データベース。

【ビジュアライズ部門】

  1. Bike Share Map:(日本の富山を含む)各都市の自転車共有運動の利用データ
  2. Europe's carbon dioxide emission:欧州の二酸化炭素放出量
  3. Evolution of European Union legislation:EU政府の立法活動のタイムライン
  4. Politiek Inzicht:オランダ議会の政治家発言データベース。タグクラウドで表現。

【データ部門】

  1. eHarta historical maps:geo-spatial.orgによる古地図データセット。GoogleMapなどに重ね書きできる。
  2. Points of interest for the municipaluty of Örebro in Sweden:スウェーデン・エーレブルーの名所データをJSON形式で引き出せるようにしたもの
  3. Greater Manchester bus timetable linked data:マンチェスターのバス時刻表API。元データはhttp://datagm.org.ukで公開されている。

ハイパーローカルの絶望:FCC報告

米連邦通信委員会がジョージワシントン大のMatthew Hindman教授に諮問した地域ニュースに関する分析「同じものならいらない(Less of the Same: The Lack of Local News on the Internet)」が公開された。放送エリアなどを基準に100のメディア市場について多変量分析をしたもので、ネット上の地域ニュースは「驚くほど小さい読者しか持たない」という。

読み通す気力はないので、ニーマン研の紹介(Nieman Journalism Lab : Who clicks more on local news, New York or Omaha? Surprising data from the FCC on local online news)を孫引きすると、、、

報告では、ユニークユーザーという指標が、個人が複数の端末を利用する現実や、数多ある訪問サイトすべてで1として可算されるという過剰指数であることを考慮しながら、各メディアの市場シェアを推定している。

地域ニュースサイトのリーチは、最大手グループでも平均17.8%、最下位グループでは4.3%に過ぎない=図。


  • オンラインの地域ニュースサイトは平均的市場では月間11.4PageViewしかない。
  • 個人標本データ(約600人)の過半数で、ローカルサイトのシェアは0.3-0.63%しかない。これは一人当たり月間8.3-17PageViewにすぎない。
  • ニュース部門に限っても、地域ニュースの閲覧数は20%に満たない。
  • 平均的市場では、ユーザーが地域ニュースに接する時間は月間9.1分で、これはネット市場時間の0.45%にすぎない。

調査対象1074サイトのうち、地域ニュースに特化した(伝統メディアの運営ではない)純オンラインサイトは17しかなかったというのが「最大の驚き」だったそうだ。その中で最も成功しているのはSeattle PI(オンライン限定に移行した元ポスト・インテリゲンサー紙)だという。
その他のNPO型ニュースサイト(Bay Citizen, Baristanet, The Gotham Gazette, the Minnesota Independent)は、シェア1%に設定した閾値を超えられなかったため、データに反映できなかった。ハイパーローカル専業のPatchでさえ、データにはほとんど反映されていないという。
ブログが代替しているのではないかという見通しについて、ポートランドで20人以上の読者がある11の地域ブログを検討したが、平均して一日4000ワード以下の内容しかなく、「新聞の1ページにさえ満たない」という。

多変量分析らしい結論は以下の通り。
  • 新聞購読率が低い市場ではネット専業ニュースサイトが多い。しかし、新聞の地域ニュースを補っているというデータは発見できない。
  • ヒスパニックや黒人の多い市場ほど、オンライン地域ニュースサイトは少ない。
  • ヒスパニックの多い市場では地域ニュースの閲覧が少ない。
  • 一人当たりの所得が多い市場ほど、ニュースの需要は少ない。

「インターネットが地域の声を拡大したかというと、答えは、comScoreで見る限り、断じてノーだ」という。以下は結論部分。

Has the Internet significantly expanded the number of local news voices? The answer that emerges from the comScore data is firm but qualified “no.” We can say the least about the very smallest online news sources—those that receive less than a few thousand unique visitors monthly, and are thus unlikely to appear in our data.
But above this threshold, we find almost no evidence that the Internet has expanded the number of local news outlets.
Most television markets have fewer than a dozen local news Websites. Those sites that do receive an audience are overwhelmingly newspaper and local television station Websites, rather than new and independent sources of local news. Only 16 of our top 100 markets have an unaffiliated Internet news source that reaches our onepercent
audience threshold. Even the exceptions prove the rule: the four most successful Internet‐only news sites were all related to the closure of a traditional print newspaper. The fact that sites like SeattlePI.com continue with a skeleton crew is welcome, but it does not represent an expansion of media diversity. Online local news markets resemble downsized versions of traditional media news markets, with the same news stories produced by the same newspapers and television stations.
Even more surprising than the small number of outlets, or the lack of new Webnative news organizations, is just how small the online news market is. Discussions about the newspaper crisis often start with the claim that online news has a revenue problem, not a readership problem. John Morton’s (2010) recent assessment is typical, arguing that the problem with newspaper sites is that “Lots of people came, but lots of advertising didn't.”
The comScore data show that this diagnosis is wrong. The central problem facing local online news sites is that their audiences are small—and proportionally much smaller than even many publishers and journalists seem to realize. Metrics such as monthly audience reach are often falsely inflated, and deceptive even when measured accurately. If a particular news startup gets a few tens of thousands of page views a month, the site is hailed as a success—even though many citizens view thousands of pages a month each, and even though page views last less than 30 seconds each on average. Online local news has a revenue problem largely because it has a readership problem.

A detailed economic analysis of the state of local news is outside the scope of this study. Nonetheless, the fact that local news sites capture little of citizens’ attention has obvious economic implications. If we want to understand the financial viability of advertising‐supported local news on the Web, we should focus on two questions.
First, how valuable is the entire online advertising space in a given media market?
Second, how much of that online space do local news sites control? In 2009, the last year for which full data are available, online advertising revenue in the U.S. totaled $22.7 billion dollars (IAB 2010). That amounts to $74 per person. In the long run, how much of that $74 is going to accrue to a group of sites that gets one‐half of one
percent of page views in a typical market?
For more than a decade, some have suggested that the Internet and other technologies (such as cable television) have made it less necessary to regulate broadcast media. According to this reasoning, the Internet has increased the
number of local news and information outlets available to citizens, strengthened news competition, and broadened diversity of news voices.
Arguments that the Internet has expanded the number of local news voices, or allowed new Web‐based news outlets to fill gaps in news coverage, find little support in this data. In deciding Prometheus v. FCC (2004), the court’s majority worried that online local news sources might just be repackaged versions of television and newspaper content. The comScore data show that this is indeed the case.
Some have found evidence of consumer substitution between online and traditional news sources (Waldfogel 2003). For national news, and particularly for commodity news content, this finding likely holds. But the comScore data make it difficult to sustain the same argument with regard to local news content. We find few examples of Web‐native news sites that are straightforward substitutes for the product of a television station or a newspaper. Even in markets with relatively successful blog communities, the top blogs produce only a trickle of content. The lack of traffic these sites receive is a strong clue that citizens themselves do not think that they are comparable to television and newspaper Websites.
The low levels of traffic that local news sites receive should color regulators’assessments in other ways as well. The small audience for local news online makes it implausible that a midsized or smaller media market can support numerous online‐only news organizations with adequate staff and resources. The story of hyper local journalism thus far has been paved with economic failure, as the long list of such failed experiments shows.
Lastly, there is evidence that media concentration offline carries over into online media markets. Most local news markets on the Web are dominated by just a few firms. If online local news were to be considered as a separate market, half the 100 largest markets would qualify as highly concentrated under Department of Justice and Federal Trade Commission HHI guidelines, and nearly all would be considered at least moderately concentrated.
Perhaps the most striking example of offline media structure intersecting with local news on the Web is seen with newspaper‐television cross‐ownership. In cities where a firm owns both a newspaper and a television station, we find an estimated jump in the Herfindahl‐Hirschman Index greater than 1000 points. While the underlying causal relationship deserves more study, these numbers make a strong argument for regulatory caution. Restrictions on media cross‐ownership do not just matter in print and on the airwaves: they likely impact news diversity on the Web as well.

共同体の情報ニーズ : FCC報告書

米連邦通信員会(FCC)が10日、「共同体の情報ニーズ(Information needs of communities)」というワーキンググループ報告書を発表した。2年前、ロッキーマウンテンニュースなどが廃刊した大動乱をきっかけにして、FCCが諮問していたものだ。

報告書は500ページに近い膨大な資料で、メディア関係者に読み通す気力が残っていないことを考慮していない。事務レベルの報告で、いつ最終報告書が出るかは分からないという。

WSJは、報道機関への政府補助金などに触れた暫定報告書(2010年)に対して保守派からの反発が激しかったため、「調査担当者には(メディアの再生について)お手上げの感覚がある」と書いている。

主な内容は、
  • 市民ジャーナリストによる「ハイパーローカル」のニュースサイトの爆発的拡大の見通し。FCCとしては、これらの地域情報にアクセスするために、ブローバンド接続の急速な普及を後押ししなければならない。
  • 地域の説明責任報道(local accountability reporting)が伝統的メディアから減少している。ネットメディアが増大しても、新興メディアがこの役割を補っていない。地方政府の説明不足、腐敗、税金の浪費などに繋がる恐れがある。FCCとしては、連邦政府の10億ドルの広報費を地方メディアにより多く回し、州レベルでのC-Spanを作るようなインセンティブを作ることを提案する。
  • 商業メディアとNPOメディアの協力の推進。FCCは税制改正で支援する。
  • FCCはメディア自身の情報公開を推進するよう行動する。また、広告主の影響を受けやすい「Pay for play」契約の公開などを求める。
  • メディア産業には、公平原則の撤廃と地元重視のFCC手続きの廃止とで益するかもしれない。

全体的には地域ニュースの急速な減少に危機感を抱いているが、1960年代のFCCなら胸を張って書き込んだであろう、一定量の地域ニュースの放送義務を設定するような提案はしていない。そんな余裕はないからだ。

報告に対する批判の一例は以下のようなものだ。

SaveTheNews.org:The Three Worst Ideas in the FCC's Future of Media Report

要するに、1)地域ニュースを担う者が減っているのに、地方分権を進めようとしている、2)メディア集中(クロスオーナーシップ)は結果として地域ニュースの合理化(削減)に繋がるというデータがあるのに、「強い局が弱い局を助ける」という名目で合併を進めようとしている 3)番組編成の分かりやすいデータの公表を免除して、理解困難なデータの公表でディスクロージャーだといっている、というものだ。
「うざったいメディアは、この際つぶれるに任せよう」という意図が、FCCという政府機関のレポートには透けて見えるという、大変アメリカらしい批判だ。

FCC Report: THE INFORMATION NEEDS OF COMMUNITIES

ビジュアル化コンテスト:国連の5カ国景況調査

国連事務総長の下で、21世紀の危機をモニターする手法を開拓する取り組み「Global Pulse」が、5カ国の携帯電話使用者にSMSを使って世論調査した結果について、データ可視化コンテストを始めている。
賞金は2000ドルとNY国連本部でのプレゼンテーション(顎足付き)。締め切りは7月25日。

UN Global Pulse:A Visualization Challenge "Giving Voice to the Vulnerable"

データは、国連が2010年にMobileActive.orgを使って、ウガンダ、イラク、ウクライナ、インド、メキシコの5カ国で各1000人を目標に行われた携帯電話調査。経済状況について、

1) In the past year, meeting your household needs has been: Easier, Same, More difficult, Very difficult
2) In the past year, how has the (insert country) economic situation changed?: Better, Same, Worse, Much Worse
3) What has been the greatest change you had to make to meet your household needs this past year?
4) How has your quality of life changed over the past year?
5) In one word, how do you feel about your future?

を聞いたものだ。携帯所持者だけを対象にした任意調査なので統計的には意味はないという点が明示してあるが、携帯だからこそ「生の声」が表れているのではないかという視点を重視しているようだ。
Based on the survey results, we're looking for clear, informative, and creative visualizations that tackle one or more of the following: How do people in different nations describe their quality of life? What types of changes do people make in order to cope with economic uncertainty? How to individuals perceive their future outlook?
これまでのコンテストからも、データから独自の意味を読み取り、それに相応しい表現を探す必要がある。

アシェットが海外部門売却

「ELLE」などで有名な仏アシェット社の海外部門(15か国、102誌)が米ハースト社に6億ユーロ余で売却されることになった。ハーストはマリ・クレールやハーパーズ・バザールなどの競合誌を出している。

Advertising Age:Hearst Leaps to New Level With Deal for Lagardère Magazine Portfolio

これに伴い、日本のアシェット婦人画報社が7月1日付けで「ハースト婦人画報社」に変更する。
新聞では信じられない「地震売買」だが、それに以上に日本のELLEにフランスのELLEの記事が転載され、台湾のELLEに日本のELLEの記事が転載される仕組みはどうなっているんだろうか?

FTがAppStore回避策

英ファイナンシャル・タイムズが、6月末から始まるAppleのAppStoreの月額課金サービス(売値の30%を要求される)の使用を回避するため、HTML版の出力を始めた。

目的がAppStore回避なので、Webでありながら、iPhone/iPad向けに最適化されている。
ブラウザがSafariに限定されているため、HTML5で導入されるローカルDBを使って、ローカルに記事を保存することができるらしい。

AllThingsDigital:The Financial Times Tries an Apple End-Run

FTはAppStoreのiAppを廃止する計画はないらしい。

4月にテキサスで行われた International Symposium on Online JournalismでもWebAppの仕組みについて解説されている。


iOS5でNewsStand導入

Appleが次のiOSでNewsStandという月額課金モデル専用のサービスを本格展開すると発表。
「寝ている間にダウンロードする」という機能はOSの対応なしでは実現できないのだが、果たしてそういう「配達」のアナロジーは将来も有効なのだろうか。

北海道新聞がNewsStand日本第一号

PageRank4を誇る「EdgeFirst」によると、北海道新聞がiPhone/iPad向けアプリを6月1日に公開。各記事の見出し一覧までは無料だが、記事本文を閲覧するためには月額350円。「新聞社や出版社で月額課金方式を導入したのは北海道新聞社がおそらく初めてではないだろうか」という。

いわゆる額縁アプリで、LeMondeやNYTimesのような豪華さはない。Appleのプラットフォームに身を委ねるならば、これでは不十分だと思う。(価格設定ですでに腰が引けている)

Census 2010 Visualization Challenge




This content use Flash. Please install the latest version of Adobe Flash Player

Why Cartogram ?

Geographical map painted in proportion to the data, Choropleth map, is often misleading when the data is non-geographical, such as population growth or economic activities.
Continuous Area Cartogram is a "redrawn map", to avoid misleading visual image, by deforming each area little by little while keeping neighbouring relationship, so as to represent data by its size.
Here are points, as far as I noticed, cartogram can show clearly.
Hispanics : In geo map, you can see highly dense Hispanic area along the Mexican border. But in cartogram you find two large hispanic cores on the both end of the border; Hidalgo county (McAllen) and Los Angels. Miami-Dade gets much bigger than in geo map.

Asians : Concentration of Asian in California is clear in geo map. However in cartogram, another large core of asians emerges around New York and Washington DC. Their concentration on both coasts is extraordinary. In Queens of NY and Santa Clala of California, they are going to outnumber Whites.

Population : In geo map, in the western half of the Central time zone and the eastern half of Mountain time zone (blue), you can see population there decreased from 2000 to 2010. However these areas are sparsely populated. The big decrease of population is remarkable in cartogram; Wayne county (Detroit) is the Hometown of U.S. Automobile industry and Michigan is the only state which shrinked this decade. Orleans Parish (Louisiana) was devastated by Hurricane Katrina in 2005.


data:U.S. Census Bureau, 2010 Census and Census 2000
credit:The map transformation method, used to make this continuous area cartogram, is being developed by Associate Prof. Ryo Inoue at Tohoku University and Prof. Eihan Shimizu at the University of Tokyo. Transform error of each county is below 0.01%.