朝日新聞の自動見出し生成APIを試用してみる

スポンサーリンク

初めに

記事本文を入力すると、機械学習によって要約を行い、自動的に見出しを生成してくれるサービス。朝日新聞社メディアラボが検証目的で公開中(2019年8月末まで)

朝日新聞社の過去30年分のデータを機械学習したとのことなので、「ですます調」のような新聞記事のスタイルから逸脱した文章は苦手な模様。

元ネタはこちら

朝日新聞社、過去30年分の記事データを用いた見出し自動生成APIを無料公開中【やじうまWatch】
本文を入力すると見出しを自動的に生成してくれるAPIを、朝日新聞社が公開している。利用は無料。

API自体のページはこちら

自動見出し生成API:朝日新聞社メディア研究開発センター 人工知能研究の取り組み
本APIは、入力された記事本文を機械学習を用いて要約し、見出しや要約文を生成するもの...

試してみる

APIキーは無料で取得できるので、試しに取得して動かしてみる。

APIにリクエストを投げると結果がJSONで返却される。リクエストを投げるだけなので、curlコマンドで実行する。リクエストとレスポンスは以下のような感じ。

<リクエスト>
curl https://clapi.asahi.com/headline-generation -X POST –header ‘x-api-key:<APIキー>’ -d “text=脱線事故を起こした横浜市営地下鉄ブルーラインについて、横浜市交通局は8日、一部区間の運行再開の見通しが立たないと発表した。湘南台―踊場(おどりば)間で運休が続いており、9日始発からの復旧をめざしていた。脱線車両のレールへの引き上げなどに時間がかかっているという。あざみ野―踊場間での折り返し運転を継続し、踊場―相鉄線いずみ中央間でバスによる代行輸送を続ける&length=0&n_head=10”
<レスポンス>
{“message”:”ok”, “headline”:[“横浜市営地下鉄ブルーライン、運行再開見通し立たず”,”地下鉄ブルーライン、運行再開見通し立たず”,”運行再開見通し立たず 横浜市営地下鉄ブルーライン”,”横浜市営地下鉄ブルーライン、再開見通し立たず”,”横浜市営地下鉄ブルーライン、復旧見通し立たず”,”運行再開見通し立たず 横浜市営地下鉄”,”横浜市営地下鉄ブルーライン、運行再開の見通し立たず”,”横浜市営地下鉄、運行再開見通し立たず”,”再開見通し立たず 横浜市営地下鉄ブルーライン”,”地下鉄ブルーライン、再開見通し立たず”]}

まずは朝日新聞のニュース記事で

朝日新聞の新しめのニュース記事を要約してみる。
さすがにニュース記事だと、それっぽい見出しがちゃんと生成される。見出しも30文字くらいで指定すると情報量も増え、正確さが増す模様。

見出し:脱線事故のブルーライン、運行再開の見通し立たず

脱線事故のブルーライン、運行再開の見通し立たず:朝日新聞デジタル
脱線事故を起こした横浜市営地下鉄ブルーラインについて、横浜市交通局は8日、一部区間の運行再開の見通しが立たないと発表した。湘南台―踊場(おどりば)間で運休が続いており、9日始発からの復旧をめざしてい…

<文字数自動>
横浜市営地下鉄ブルーライン、運行再開見通し立たず
地下鉄ブルーライン、運行再開見通し立たず
運行再開見通し立たず 横浜市営地下鉄ブルーライン
横浜市営地下鉄ブルーライン、再開見通し立たず
横浜市営地下鉄ブルーライン、復旧見通し立たず
運行再開見通し立たず 横浜市営地下鉄
横浜市営地下鉄ブルーライン、運行再開の見通し立たず
横浜市営地下鉄、運行再開見通し立たず
再開見通し立たず 横浜市営地下鉄ブルーライン
地下鉄ブルーライン、再開見通し立たず

<30文字>
横浜市営地下鉄ブルーライン、再開見通し立たず 脱線事故の横浜
横浜市営地下鉄ブルーライン、一部再開見通し立たず 脱線事故で
地下鉄ブルーライン、運行再開見通し立たず 横浜市営地下鉄事故
横浜市営地下鉄ブルーライン、再開見通し立たず 脱線事故で運休
横浜市営地下鉄ブルーライン、運行再開見通し立たず 脱線事故で
横浜市営地下鉄ブルーライン、運行再開見通し立たず 市交通局も
横浜市営地下鉄ブルーライン、再開見通し立たず 横浜市交通局も
横浜市営地下鉄ブルーライン、再開見通し立たず 横浜市交通局が
横浜市営地下鉄ブルーライン、運行再開の見通し立たず 脱線事故
横浜市営地下鉄ブルーライン、運行再開見通し立たず 横浜市交通局

もう一つくらい試してみる。

見出し:携帯「2年縛り」の途中解約、違約金は上限1千円に

携帯「2年縛り」の途中解約、違約金は上限1千円に:朝日新聞デジタル
携帯電話の2年契約を途中で解約した時の違約金について、総務省は上限を1千円とする方針を決めた。携帯大手3社の今の違約金は9500円で、大幅な引き下げとなる。利用者が携帯会社を乗り換えやすくし、競争を…

<文字数自動>
携帯電話の違約金、上限1000円 総務省方針
携帯電話の違約金、上限1千円 総務省方針
携帯電話の違約金、上限1000円に 総務省方針
携帯違約金、上限1000円 総務省方針
携帯電話の違約金、上限1千円に 総務省方針
携帯違約金、上限1千円 総務省方針
携帯の違約金、上限1000円 総務省方針
携帯違約金、上限1000円に 総務省方針
携帯解約時違約金、上限1000円 総務省方針
携帯の違約金、上限1000円に 総務省方針

<30文字>
2年縛り違約金、上限1000円 携帯大手3社、今秋に引き下げ
2年縛りの違約金、上限1000円 携帯大手3社、大幅な引き下げ
携帯の違約金、上限1000円 携帯大手3社、今秋に 総務省案
違約金9500円、上限1000円 携帯大手3社、今秋に値引き
携帯2年、違約金9500円 携帯大手3社、上限1000円目標
違約金9500円、上限1000円 携帯大手3社、今秋にも実施
2年縛り違約金、上限1000円 携帯大手3社、大幅な引き下げ
携帯2年、違約金9500円 携帯大手3社、上限1000円方針
携帯電話の違約金、上限1000円 携帯大手3社、競争促進狙う
携帯電話の違約金、上限1000円 携帯大手3社、競争促す狙い

他社のニュース記事でも試す

他社のニュース記事でも試してみる。

見出し:朝日新聞社、過去30年分の記事データを用いた見出し自動生成APIを無料公開中

朝日新聞社、過去30年分の記事データを用いた見出し自動生成APIを無料公開中【やじうまWatch】
本文を入力すると見出しを自動的に生成してくれるAPIを、朝日新聞社が公開している。利用は無料。

内容は大きく変わらない気もするけど、本来の見出しにある「無料公開中」という言葉が1つも出てこないのがチョット気になる。あとは、見出しの長さを30文字、40文字と少し長めに指定すると、「神奈川」や「宇都宮」といった本文に登場しない言葉が見出しに含まれるように。どうも「メディアラボ」という名称の企業が宇都宮や神奈川に存在するのが原因らしい。(ホントは朝日新聞のメディアラボだから、神奈川や宇都宮は無関係のはずだけど、この辺が機械学習したデータを元にしている所以なのかな?)

<文字数自動>
本文を入力するAPI
人工知能研究のAPIを公開
人工知能研究のAPI
本文入力のAPIを公開
本文を入力したAPI
本文入力のAPI公開
人工知能研究のAPI公開
本文入力のAPI
本文を入力したAPIを公開
本文を入力するAPIを公開

<30文字>
見出しを自動生成して 人工知能研究のメディアラボを公開 栃木
人工知能研究の見出しを自動生成するAPIを公開 栃木・宇都宮
人工知能研究の見出しを自動生成するAPIを公開 メディアラボ
見出しを自動生成するAPIを公開 人工知能研究でメディアラボ
本文入力の見出しを自動生成するAPIを公開 メディアラボ研究
本文入力の見出しを自動生成するAPIを公開 メディアラボ公開
見出しを自動的に生成して 人工知能研究のAPIを公開 宇都宮
見出しを自動的に生成して 人工知能研究のAPIを公開 神奈川
見出しを自動生成するAPIを公開 人工知能研究のメディアラボ
見出しを自動生成して 人工知能研究のメディアラボ、無料で公開

<40文字>
見出しを自動生成するAPIを公開 人工知能研究のメディアラボ、利用無料に 宇都宮
見出しを自動生成するAPIを公開 人工知能研究の過去30年分 メディアラボを検証
見出しを自動生成するAPIを公開 人工知能研究のメディアラボ、利用無料に 神奈川
見出しを自動生成するAPIを公開 人工知能研究の過去30年分 メディアラボが検証
見出しを自動生成するAPIを公開 人工知能研究の過去30年分 メディアラボが公開
見出しを自動生成するAPIを公開 人工知能研究のメディアラボ、2019年8月まで
見出しを自動生成するAPIを公開 人工知能研究のメディアラボ、2019年8月末まで
見出しを自動生成するAPIを公開 人工知能研究のメディアラボ、19年8月まで公開
見出しを自動生成するAPIを公開 人工知能研究のメディアラボ、20年8月末まで
見出しを自動生成するAPIを公開 人工知能研究のメディアラボ、19年8月末まで

 

ニュース以外でも

今度は朝日新聞のコラムっぽい記事から見出しを生成してみる。

見出し:サニブラウンの「9秒97」、東京五輪で戦えるのか

サニブラウンの「9秒97」、東京五輪で戦えるのか:朝日新聞デジタル
サニブラウンがマークした9秒97は今季の世界ランキングでは6位タイ。今季は5月18日の上海ダイヤモンドリーグでライルズとコールマン(ともに米)が、そしてこの日の全米大学選手権でオドゥドゥル(ナイジェ…

これは、純粋なニュースと少し毛色の違う内容なせいか、本来の見出しとは全く違う結果に。やっぱりココでも記事中で言及してない言葉が見出しに登場する。これも機械学習した結果を元にしている所以なのかな?(サニブラウンに対してゴルフとか出てくるのはどうなの感はあるけど、この辺は単純なニュース記事ではないので難しいのかも)

<文字数自動>
サニブラウン、世界ランキング6位タイ 陸上
サニブラウン、世界ランキング6位 陸上・世界選手権
サニブラウン、世界ランキング6位タイ 陸上・世界選手権
サニブラウン、世界ランキング6位 陸上・世界選手権
サニブラウン、世界ランキング6位タイ 陸上・世界選手権
サニブラウン、世界ランキング6位タイ 陸上・米男子ツアー
サニブラウン、世界ランキング6位 陸上・米男子ツアー
サニブラウン、世界ランキング6位タイ 陸上・米女子ツアー
サニブラウン、世界ランキング6位 陸上・米女子ツアー
サニブラウン、世界ランキング6位 陸上・世界選手権 14日

<30文字>
サニブラウン、世界ランキング6位 陸上・全米大学選手権 4日
サニブラウン、世界ランキング6位 陸上・全米大学選手権 7日
サニブラウン、世界ランキング6位 陸上・全米大学選手権 6日
サニブラウン、世界ランキング6位タイ 陸上・世界選手権 7日
サニブラウン、世界ランキング6位タイ 陸上・世界選手権 6日
サニブラウン、世界ランキング6位 陸上・全米大学選手権 8日
サニブラウン、世界ランキング6位 陸上・全米大学選手権 9日
サニブラウン、世界ランキング6位タイ 陸上・世界選手権 9日
サニブラウン9秒97、世界ランキング6位タイ 陸上・世界予選
サニブラウン、9秒97で6位タイ ゴルフ・全米大学ランキング

使ってみた感想

学習データがニュース記事というだけあって、純粋なニュース記事ではそれなりの文章が自動生成される模様。ニュースの内容を端的に表す見出しを考え出すのは結構な手間だと思うので、完全自動化とまでは行かなくても、こういったIT技術による省力化の効果は多少ありそうな予感。

コメント