特定科研「情報爆発」計画班 構造的言語処理による情報検索...

40
構造的言語処理による情報検索基盤技術の構築 京都大学大学院情報学研究科 黒橋禎夫 Language & Knowledge Engineering Lab 「言語処理技術の深化と理論・応用の新展開」科研合同シンポジウム(2008/9/26特定科研「情報爆発」計画班 情報の信頼性評価に関する基盤技術の研究開発 情報通信研究機構

Transcript of 特定科研「情報爆発」計画班 構造的言語処理による情報検索...

  • 構造的言語処理による情報検索基盤技術の構築

    京都大学大学院情報学研究科

    黒橋禎夫

    Language & Knowledge Engineering Lab 「言語処理技術の深化と理論・応用の新展開」科研合同シンポジウム(2008/9/26)

    特定科研「情報爆発」計画班

    情報の信頼性評価に関する基盤技術の研究開発

    情報通信研究機構

  • 言語 テキスト人間格フレーム(常識)

    語彙獲得類似度

    オントロジー

    自動構築

    基本語彙(3万語)- 表記ゆれ- 定義(同義・反義・

    カテゴリ・ドメイン)

    文 法

    人手整備

  • 基本語彙の選択(3万語)

    • 事典的な語は排除例)倭寇 天動説 秋の七草 父の日

    • 古語、ほとんど使われない語・読みは排除例)内生活 手ずから 生く(おいゆく) 夜間(よま)

    • 3文字以上の複合語は基本的に排除例)印刷機 映写機 運動場 競技場 研究費– ただし以下は採用

    • 構成語が一般的でないもの:感受性 一本化• 意味が構成的でないもの:耳学問 銀世界• 切り方が?なもの:工学部 全速力 海産物• 音訓の原則で読みが誤るもの(他との整合性も考慮し):オレンジ色

    • 2文字の語は原則採用だが、– 構成性が明確なものは排除:学内 市内– 以下は採用だが関係解析で問題:(経理)部長 (警察)署員

  • JUMAN辞書に記述されている情報

    • 代表表記• 1文字漢字について、音・訓の区別

    例) 字/じ → 音, 字/あざ → 訓• 可能動詞であることと、もとの動詞

    例) 書ける: 可能動詞:書く

    • 尊敬動詞・謙譲動詞であることと、もとの動詞例) おっしゃる: 尊敬動詞:言う

    • 動詞が付属動詞として振舞うかどうか例) 合う

    • カテゴリ、ドメイン情報例) カテゴリ: 先生,学生,父 → 人

    ドメイン: テニス,ラケット,サーブ → スポーツ

  • 代表表記(同じ読み)

    • 漢字と平仮名、送り仮名例)拳銃/けん銃/拳じゅう/けんじゅう 表す/表わす/あらわす 落とす/落す/おとす

    • 漢字別表記例)狩人/猟人 色取る/彩る 綺麗だ/奇麗だ

    • カタカナ表記例)大根/だいこん/ダイコン 餃子/ぎょうざ/ギョウザ

    /ギョーザ 溝/みぞ/ミゾ 眼鏡/めがね/メガネ

  • 代表表記(異なる読み)

    • 音便関係例)私/わたし/わたくし/あたし 皆/みな/みんな 旅客機/りょかくき/りょかっき ふわり/ふんわり とびきり/飛び切り/とびっきり/飛びっ切り

    • カタカナ表記のバリエーション例)ソフトウエア/ソフトウェア コンピューター/コンピュータ

  • ■言語理解の基礎的研究

    2500CPU-core

    日本語文16億文格フレーム獲得・語彙獲得

    ■次世代情報検索

    数億ウェブページ検索エンジン基盤TSUBAKI情報分析システムWISDOM

    ■自動翻訳

    日英100万対訳文日中50万対訳文

  • 400CPUで1週間

    言語の理解 ⇔ 知識

    泳ぐ{人,子,…}が{クロール,平泳ぎ,…}で{海,大海,…}を

    見る{人,者,…}が{双眼鏡,望遠鏡,…}で{姿,人,…}を

    格フレーム

    クロールで 泳いでいる女の子を見た望遠鏡で 泳いでいる女の子を見た

    解析

    ウェブ5億文

  • トヨタは

    プリウスを

    ハブリッドカー

    発売。

    海外でも

    販売している。

    1997年

    2000年からは

    {トヨタ}

    {ハイブリッドカープリウス}

    {海外}

    ENTITY 発売ガ 社, マイクロソフト, 会社,

    … [NE:ORGANIZATION] 0.15 …

    ヲ 製品, CD, モデル, 車, …[CT:ARTIFACT] 0.40 …

    :

    販売

    ガ 会社, ソニー, …[NE:ORGANIZATION] 0.16 …

    ヲ 商品, 製品, チケット, …[CT:ARTIFACT] 0.40 …

    二 客, 社, ユーザ, …[CT:PERSON] 0.40 …

    デ ショップ, 本屋, サイト, …[CT:FACILITY] 0.40 …

    :

    格フレーム

    入力文

    {2000年}

    {1997年}

    確率的評価

    (対応なし)

    格フレームの確率的評価に基づく省略解析

    Sasano et.al. COLING08

  • 語彙獲得と辞書の自動更新

    テキスト

    解析結果

    基本辞書

    自動獲得辞書

    解析器

    辞書引き

    辞書引き

    解析結果

    自動更新

    語彙獲得モジュール

    Murawaki & Kurohashi EMNLP08

  • 開放型検索エンジン基盤 TSUBAKI

    検索エンジン基盤T S U B A K I

    大規模クラスター群大容量ストレージサーバ

    次世代検索サービス

    • ウェブクラスタリング • 安心安全サーチ• 想起支援サーチ

    • 日本語ウェブ文書1億件が検索対象– 2007年5月‐7月にクロール

    • 高度ウェブ処理用標準フォーマットによりウェブ文書を管理

    – InTrigger(chiba) 環境に配置(ファイルサーバー,ローカルディスク)

    • 深い言語処理によるインデクシング– 表記揺れ,同義表現の吸収,係り受け

    • 無制限に利用可能なAPI• 透明性・再現性のある検索結果

  • 標準フォーマット

    • ウェブ文書を使った研究に必要な情報を保持– URL– アンカーテキスト– タイトル– ページ内の日本語文– (言語処理ツールによる解析結果)

    • ウェブ文書の(泥臭い)解析なしに利用可能

  • …中略…

    … 中略 …した した する 動詞 2 * 0 サ変動詞 16 タ形 10 NIL 。 。 。 特殊 1 句点 1 * 0 * 0 NIL EOS]]>

  • 文区切りの認識

    • HTMLタグ– ブロックタグ要素

    • 句点,!,?,♪– カギ括弧内では区切らない– 「~!って」などの場合は区切らない

    • 顔文字、(笑)、(泣)– …木造ですごく素敵(>▽<)うーん、あと、だいぶ前に…

    • アンカーテキストの連続– 隣接するアンカーテキストが複合名詞と解釈できるか

    • 福地寿樹捕鯨問題→ 区切る

    • 東京都台東区→ 区切らない

  • クエリの柔軟な扱い

    • 原則:単語は必須(AND検索),係り受けは加点

    インドの経済発展の障害インドの 経済 発展の 障害

    印度印

    妨げバリア

    ○ ○ ○

    △ △

  • クエリの柔軟な扱い

    • 原則:単語は必須(AND検索),係り受けは加点• 係り受けを必須とする場合

    – 固有名:ex. 日本銀行– 漢字1文字の連続:ex. 円天– つながりの強い複合名詞:ex. 赤ちゃんポスト

    • 単語を加点とする場合– 動詞の意味が名詞から推定される

    数学を教える先生パソコンが与える悪影響仲間由紀恵が出演した映画

    • 今後さらに言語解析結果を適用– 並列構造部分をOR: ex. 京都や奈良の...– 省略解析結果の利用(主にウェブテキスト側)

    P(赤ちゃん ポスト) ≫ P(赤ちゃん の ポスト)

    P(教える) P(先生)

    P(教える・先生)log > 閾値

  • ×:東欧諸国経済の拡大の可能性について

    ×:東欧諸国経済の拡大の可能性について

    ×:高齢化社会の解説×:高齢化社会の解説

    ×:住宅ビジネスの将来展望(高齢化関係なし)

    ×:住宅ビジネスの将来展望(高齢化関係なし)

    ○:高齢者の持つ不動産を担保に融資を行う市場(リバース・モーゲージ)

    ○:高齢者の持つ不動産を担保に融資を行う市場(リバース・モーゲージ)

    ×:「高齢化」「市場」がブログの別記事に存在(クエリと関係なし)

    ×:「高齢化」「市場」がブログの別記事に存在(クエリと関係なし)

    ×:日本の投資家が今後投資すべき分野に関するレポート

    ×:日本の投資家が今後投資すべき分野に関するレポート

    ×:金融市場に関するメールマガジンの記事(高齢化関係なし)

    ×:金融市場に関するメールマガジンの記事(高齢化関係なし)

    ×:入社式での社長挨拶(クエリと関係なし)

    ×:入社式での社長挨拶(クエリと関係なし)

    ○:高齢者市場と高齢社会に対応する産業の動向調査

    ○:高齢者市場と高齢社会に対応する産業の動向調査

    ○:高齢化社会で成長が期待される医薬品業界・医療介護業界

    ○:高齢化社会で成長が期待される医薬品業界・医療介護業界

    ○:高齢者の持つ不動産を担保に融資を行う市場(リバース・モーゲージ)

    ○:高齢者の持つ不動産を担保に融資を行う市場(リバース・モーゲージ)

    ○:シニア向けビジネスのサポート・コンサルティング

    ○:シニア向けビジネスのサポート・コンサルティング

    ○:癒しを求める生活者意識の変化で急成長するペット市場

    ○:癒しを求める生活者意識の変化で急成長するペット市場

    増加,拡大,成長,需要,…ガ

    範囲,人,建設,事業,企業,イベント,市場,回収,…

    影響,産業,増加,規模,社会 ,…

    見込める・見込まれる

    :

    格フレーム格フレーム

    スピード, ペース, 勢い, 流入, 増加, …

    成長

    ガ 市場, 会社, マーケット, コマース, …

    ニ 倍, 範囲, 次々,…

    :

    今後も安定した成長が見込める魅力あるマーケット。…今後も安定した成長が見込める魅力あるマーケット。…

    市場=マーケット市場=マーケット

    …後者は高齢化・長寿化社会において大きな成長が見込める市場に対するサービス提供ということになる。 …

    …後者は高齢化・長寿化社会において大きな成長が見込める市場に対するサービス提供ということになる。 …

    見込める=見込む+可能≒見込む見込める=見込む+可能≒見込む

    クエリ:高齢化社会で成長が見込める市場老齢老年

    世の中世間

    発展 見込む+可能見込む

    マーケット

  • 100%

    0%

    50%

    文数

    構文解析精度

    格フレームカバレッジ

    省略解析精度

    カバレッジ・精度

    86.8

    87.7

    1.6M 6.3M 25M 0.1G 0.4G 1.6G

    情報爆発からの知識獲得 省略解析による検索の高度化

    15 ’99ペット関連市場マーケティング総覧

    ペット関連市場は、新たな成長が見込まれている。この成長を支えるのは、高齢化社会の到来であり、…

    流動食市場は最近5年間で平均年率7-8%(当社推定)にて成長しています。また今後も、高齢化社会の拡大および医療における栄養管理の重要性の理解浸透、医療費削減施策等により、一層の成長性が見込まれます。

    16 プレスリリース|明治乳業企業情報サイト

    クエリ:高齢化社会で成長が見込める市場クエリ:高齢化社会で成長が見込める市場

    増加,拡大,成長,需要,効果 …ガ範囲,人,建設,事業,企業,イベント,市場,回収,…

    影響,産業,増加,規模,社会 ,…デ

    見込める・見込まれる

    :

    ……

    格フレーム格フレーム

  • キーワード蒸留型クラスタリング

  • キーワード蒸留型クラスタリング

    • 開放型検索エンジン基盤TSUBAKIとの連携– 数千ページ×数十文のテキストを対象(数万文)

    • 既存のシステムは数100ページ×数文(数百文)

    • キーワード蒸留に基づく質の高いラベル抽出– 表記の揺れの吸収(詰め込み型 = つめこみ)– 同義表現の吸収(カリキュラム = 教育課程)– 不適切なキーワードの削除

    • ラベルの組織化(固有名,複合名詞主辞)– ex. 商業捕鯨、調査捕鯨、古式捕鯨

  • サイトマップ

    ゆとり教育問題

    Benesse

    ベネッセ

    新カリキュラム

    新教育課程

    詰込み型教育

    詰めこみ教育

    教育基本

    教育基本法

    教育基本法改正案

    キーワードの蒸留 (ゆとり教育)

    ・・・

    キーワード抽出1.重要文から名詞連続、括弧表現を抽出

    2.部分的なキーワードも一旦抽出

    40,000表現

  • サイトマップサイトマップ

    ゆとり教育問題ゆとり教育問題

    Benesse

    ベネッセベネッセ

    新カリキュラム

    新教育課程新教育課程

    詰込み型教育

    詰めこみ教育詰めこみ教育

    教育基本教育基本

    教育基本法教育基本法

    教育基本法改正案教育基本法改正案

    キーワードの蒸留 (ゆとり教育)表現の揺れの吸収

    表現の揺れの吸収

    ・・・ ・・・

    表現の揺れの吸収

    ・表記の揺れ、同義表現、音訳の関係を吸収

    ・形態素の挿入による表現の揺れを吸収

    表現の揺れの吸収

    ・表記の揺れ、同義表現、音訳の関係を吸収

    ・形態素の挿入による表現の揺れを吸収

  • ×サイトマップサイトマップ

    ×ゆとり教育問題ゆとり教育問題

    Benesse

    ベネッセベネッセベネッセ

    新カリキュラム

    新教育課程新教育課程新教育課程

    詰込み型教育

    詰めこみ教育詰めこみ教育詰めこみ教育

    ×教育基本教育基本

    教育基本法教育基本法教育基本法

    教育基本法改正案教育基本法改正案教育基本法改正案

    キーワードの蒸留 (ゆとり教育)表現の揺れの吸収

    表現の揺れの吸収

    不適切なキーワードの削除

    不適切なキーワードの削除

    ・・・ ・・・ ・・・

    不適切なキーワードの削除

    ・不適切な部分キーワード

    ・一般的なキーワード・クエリに近いキーワード

    不適切なキーワードの削除

    ・不適切な部分キーワード

    ・一般的なキーワード・クエリに近いキーワード

  • ×サイトマップサイトマップ

    ×ゆとり教育問題ゆとり教育問題

    Benesse

    ベネッセベネッセベネッセベネッセ

    新カリキュラム

    新教育課程新教育課程新教育課程新教育課程

    詰込み型教育

    詰めこみ教育詰めこみ教育詰めこみ教育詰めこみ教育

    ×教育基本教育基本

    教育基本法教育基本法教育基本法

    教育基本法改正案教育基本法改正案教育基本法改正案教育基本法改正案

    キーワードの蒸留 (ゆとり教育)表現の揺れの吸収

    表現の揺れの吸収

    不適切なキーワードの削除

    不適切なキーワードの削除

    部分文字列関係にあるキーワードのマージ

    部分文字列関係にあるキーワードのマージ

    ・・・ ・・・ ・・・ ・・・

  • ×サイトマップサイトマップ

    ×ゆとり教育問題ゆとり教育問題

    Benesse

    ベネッセベネッセベネッセベネッセ

    新カリキュラム

    新教育課程新教育課程新教育課程新教育課程

    詰込み型教育

    詰めこみ教育詰めこみ教育詰めこみ教育詰めこみ教育

    ×教育基本教育基本

    教育基本法教育基本法教育基本法

    教育基本法改正案教育基本法改正案教育基本法改正案教育基本法改正案

    キーワードの蒸留 (ゆとり教育)表現の揺れの吸収

    表現の揺れの吸収

    不適切なキーワードの削除

    不適切なキーワードの削除

    部分文字列関係にあるキーワードのマージ

    部分文字列関係にあるキーワードのマージ

    ・・・ ・・・ ・・・

    ・・・

    300表現

  • キーワードの蒸留 (地球温暖化)

    ×

    温暖化係数

    地球温暖化係数

    OECD×

    ×

    気候変動枠組条約

    地球温暖化係数

    OECD

    気候変動枠組条約

    温暖化係数温暖化係数

    係数係数

    地球温暖化係数地球温暖化係数

    OECDOECD経済協力開発機構

    枠組条約枠組条約

    変動枠組条約変動枠組条約

    気候変動枠組条約

    気候変動枠組条約

    気候変動枠組み条約

    表現の揺れの吸収

    表現の揺れの吸収

    不適切なキーワードの削除

    不適切なキーワードの削除

    部分文字列関係にあるキーワードのマージ

    部分文字列関係にあるキーワードのマージ

  • キーワード蒸留型クラスタリング

  • 情報爆発NLP/IR

    2006.4 2007.3 2008.3 2008.7

    情報爆発NLP/IR

    開放型検索エンジン基盤TSUBAKIWEB標準フォーマット設計

    5000万ページ

    意見分布マイニング

    イベント・センチメント融合マイニング

    海外事情プロービング

    キーワード想起支援

    キーワード蒸留型クラスタリングによる情報の俯瞰

    2300万ページ

    1億ページNTCIR3・4

    1000万ページ評価環境構築

    係り受けインデックス

    文区切り・複合名詞認識高度化

    同義表現インデックス

  • 情報爆発 検索システムの評価

    • 情報爆発関連で開発された検索システムのポータルサイトを構築し,試験的評価を実施

    期間:6/25(水)~6/29(日)

    被験者:情報系大学院生約60名

  • TSUBAKI 評価結果

    YES

    Q1: 自然文の難しい質問でGoogle/Yahoo!より良い結果が得られましたか?

    Q2: 同義語や表記の揺れの処理で便利だと思ったことがありましたか?

    NONO

    YES

    49% 51%

    69%

    31%

  • 2008/07/05朝日新聞 b3面

  • 情報の信頼性評価に関する基盤技術の研究開発

    情報通信研究機構

    人間による情報の信頼性判断を支援する情報分析システム

    WISDOM

    (人工知能学会 11月号)

  • 主要・対立表現 評価情報

    WISDOM 主サーバ

    クローラ

    情報発信者解析

    検索インデックス

    主要・対立表現抽出エンジン

    評価情報抽出エンジン

    メタ情報抽出・文区切り解析

    形態素解析・同義表現解析・構文解析

    情報外観解析

    外観情報発信者情報TSUBAKI 主サーバ

    ウェブウェブ

    日本語ウェブページ標準フォーマットデータ

    (1億ページ)

    クエリ

    ページID

    分析結果分析課題(クエリ)

    ページID

    ページID