\r\n\r\n
自然言語処理は、私たちが話す言葉をコンピュータが実行可能なコマンドに変換することを可能にします。その基本原理を学び、私たちの生活をより良くするためにどのように活用できるかを学びます。
Alexa、Siri、Googleアシスタント、Bixby、Cortanaなど、現在スマート**やスマートスピーカーを持っている人は皆、音声で操作できるアシスタントを持っています。年々、音声アシスタントは、私たちが頼んだことを認識し、実行してくれるようになったようです。しかし、アシスタントが私たちの言葉をどのように処理するのか、不思議に思ったことはありませんか?自然言語処理(NLP)のおかげで、そのようなことに成功したのです。
歴史的に見ると、ほとんどのソフトウェアは決まった特定のコマンドにしか反応しない。開く」をクリックするとファイルが開いたり、表計算ソフトが特定の記号や数式名から計算したりする。プログラムはコード化されたプログラミング言語を使って通信を行うので、認識した入力が与えられると、出力を行います。この場合、言葉は、常に必要なアウトプットを提供する、異なる機械的なレバーのセットのようなものです。
これは、人間の言語が複雑で構造化されておらず、文の構造、イントネーション、ストレス、タイミング、句読点、文脈に基づいて複数の意味を持つのとは対照的である。自然言語処理は、機械が認識した入力と人間の言語とのギャップを埋めようとする人工知能の一分野である。そうすれば、私たちが自然に話したりタイプしたりするとき、機械は私たちの言うことと一致した出力をするようになります。
これは、大量のデータを取得し、実際の言葉の意味以上に、人間の言葉のさまざまな要素から意味を導き出すことで実現される。このプロセスは、コンピュータがより多くのデータポイントを取得しながら、より多くのことを学習することを可能にする機械学習の概念と密接に関係している。そのため、私たちが普段接している自然言語処理機の多くは、時間が経つにつれて性能が向上しているようです。
この概念をより明確にするために、言語と情報を処理するためにNLPで使われている最も高度な2つの技術について見てみましょう。
関連:人工知能の問題点:機械は物事を学習しているが、それを理解することはできない。
トークン化とは、音声を単語や文に分解することです。テキストの各セグメントはトークンと呼ばれ、音声の処理に伴ってこれらが表示されます。簡単なようで、実は厄介な作業なのです。
例えば、音声合成ソフト(Google Keyboardなど)を使って友人にメッセージを送る場合を考えてみましょう。あなたの**がこの録音を受け取り、Googleの音声合成アルゴリズムで処理するとき、Googleはあなたが今言ったことをトークンに分解する必要があります。これらのトークンは、「meet」、「I」、「in」、「on」、そして"パーク "です。
人は言葉と言葉の間にさまざまな長さの間があり、他の言語では言葉と言葉の間の間が違って聞こえます。トークン化のプロセスは、言語や方言によってかなり異なる。
ステミングとレンマタイゼーションはどちらも、機械が認識できる語根の追加やバリアントを削除するプロセ スを含みます。これは、本質的に同じ意味を持つ単語間で音韻の解釈を統一し、NLPの処理を高速化するためである。
語幹抽出は、語幹の前後に付く接辞を取り除くという荒っぽい作業である。これは、文字を削除するだけで、その単語を最も単純な基本形に変えるものです。例えば、こんな感じです。
このように、ステミングはマイナスの影響を与え、単語の意味を完全に変えてしまうことがあります。"Severity "と "Sever "は同じ意味ではないが、ステミング処理で接尾辞 "ity "が削除される。
一方、エリシテーションは、より複雑なプロセスで、単語をそのベースに還元することをエリシテーションという。そのためには、その単語の文脈や文中での用法を考慮する必要があります。また、単語とその派生語のデータベースから単語を探し出すことも必要である。例えば、こんな感じです。
この例では、「厳しさ」という言葉を、その引用形であり語源である「厳しい」に変えることに成功している。
ここで紹介した例は、自然言語処理のほんの一部に過ぎない。それは、私たちが日常的に使っている多くの慣行や利用シーンを包括しています。現在、NLPが活用されている事例を紹介します。
さらに、NLPは現在、ニュースメディア、医療技術、職場管理、金融などの分野で開発・展開されています。将来的には、ロボットと十分かつ複雑な会話をすることが可能になるでしょう。
NLPについてもっと知りたい方は、Towards Data ScienceブログやStanford National Language Processing Groupに素晴らしいリソースがたくさんありますので、そちらをご覧になってください。