インデクシングとは、検索エンジンの運営の中で、「情報作成」「登録」の役割をする作業です。
検索エンジンは、クローラーが収集してきたホームページの情報をあらかじめ処理し、
検索アルゴリズムが扱いやすいデータに変換したうえで、インデックスに格納します。
インデックス方式
検索エンジンにおいて、収集したホームページのドキュメントをどのように処理して
データベースにまとめるのか、その方法は非常に重要な問題です。
検索エンジンのインデックスにかぎらず、データベースはどのように
データを作成するかでその特徴が大きく変わるからです。
検索エンジン各社はインデックス方法に様々な工夫をこらしております。
ただし、現在使用されているものとしては、大きく分類すると
次の2種類の方式だけになっています。
ストップワードとは、インデクシング時の負荷を減らすため、「一般的すぎる語」を
インデックスしないアルゴリズムです。
検索エンジンによってストップワードとして扱う単語は異なります。
英語では、a, and, by, for, if, no, of, on, the, to, withなど、助詞、助動詞、
接続詞、前置詞、冠詞をストップワードとして扱う傾向があります(逆に、日本語では、
助詞、助動詞、接続詞、前置詞、冠詞などをストップワード扱いしない傾向があります)。
【HTML関連】 【CSS関連】 【SEOの基本】 【ドメイン関連】 【豆知識】
検索エンジンは、クローラーが収集してきたホームページの情報をあらかじめ処理し、
検索アルゴリズムが扱いやすいデータに変換したうえで、インデックスに格納します。
インデックス方式
検索エンジンにおいて、収集したホームページのドキュメントをどのように処理して
データベースにまとめるのか、その方法は非常に重要な問題です。
検索エンジンのインデックスにかぎらず、データベースはどのように
データを作成するかでその特徴が大きく変わるからです。
検索エンジン各社はインデックス方法に様々な工夫をこらしております。
ただし、現在使用されているものとしては、大きく分類すると
次の2種類の方式だけになっています。
-
N-Gramインデックス方式
決められた文字数の谷で文章を切り出し、
「単語を含んだ文字列」としてインデックスする方式です。
検索エンジンでは少数派の方式になります。
この方式では、文章の頭から長さNの文字列を一文字ずらしながら
順に切り出して、その文字列のすべてと記載されるファイルや位置を
インデックスに記録していきます。
例えば、「検索エンジンの仕組み」をN=4として取得すると、
「検索エン」「索エンジ」「エンジン」「ンジンの」「ジンの仕」
「ンの仕組」「の仕組み」という文字列が取得できます。
あとは検索時に、「検索」「エンジン」「仕組み」などの単語を含んだ
文字列のある場所を探すことで、どのファイルのどこに、
どのような単語が含まれているかを知ることができます。
-
単語インデックス方式
単語インデックス方式とは、インデクサが持つ単語辞書を元に、
文章の単語を切り分けるインデックス方式で、多くの検索エンジンに
採用されております。
切り分けてインデックスすることで、個々の単語の位置が正確にわかる
データを作れるほか、個々の単語が持つ意味をデータに付与することが
できるため、文章の内容をふまえた検索処理を実現することができます。
ですが、これは大変複雑な作業で、検索エンジンは、文章をできるだけ
元の意味を保った正しい状態で、なおかつ効率的にインデックスできる
ように様々な技術を使用します。
ストップワードとは、インデクシング時の負荷を減らすため、「一般的すぎる語」を
インデックスしないアルゴリズムです。
検索エンジンによってストップワードとして扱う単語は異なります。
英語では、a, and, by, for, if, no, of, on, the, to, withなど、助詞、助動詞、
接続詞、前置詞、冠詞をストップワードとして扱う傾向があります(逆に、日本語では、
助詞、助動詞、接続詞、前置詞、冠詞などをストップワード扱いしない傾向があります)。
【HTML関連】 【CSS関連】 【SEOの基本】 【ドメイン関連】 【豆知識】