Googleなどのウェブ検索エンジンでは、データベースの検索結果など多くの動的ページが検索対象になっていない。このような動的ページは「深層ウェブ」「見えないウェブ」「隠されたウェブ」などと呼ばれている。静的ページの500倍の量が存在し、多くは無料だといわれる。深層ウェブは、一般の検索エンジンなどからデータベースなどを見つけ出すか、直接アクセスした上で、それぞれの検索機能から再度検索しなければならない。
このようにWebページが深層と表層に分かれてしまう背景には検索エンジン側が晒される法的リスクがある。深層にあるものは必ずしも検索エンジンから検索されることを前提としていないものも多い。すべての深層データが検索エンジンから検索可能な状態になっていた場合、動的ページの情報提供者の存在意義を脅かす可能性もある。本来であれば非公開とされているようなデータが誤って検索されてしまうという可能性も高くなる。さらに、データベースと連動する動的ページをクローラーが集中的にクロールすると、データベース側の負荷が上がるためサーバ速度の低下やシステムダウンを引き起こす危険が高まる。このようなことから検索エンジンは技術的に深層に入り込めない訳ではなく、あえて避けていると推測することができる。実際、中国の検索エンジン百度は集中的なクロール活動を続けた結果、多くのサーバ管理者から一斉にクレームを受け、クロール活動を大きく制限せざるを得なかった。
検索エンジンは、その仕様上インターネット上のコンテンツを複製してキャッシュとして保存するようになっている。このような仕様は、日本では、著作権法上、問題があるため、検索エンジンの仕様を合法とする海外(米国など)のサーバに置かれている。
しかし、これでは日本人が検索している内容が米国に筒抜けとなってしまい、国益上好ましくないと考えられる。そのため遅ればせながら、経済産業省が日本国内でも検索エンジンサービスが行えるように著作権法の改正や検索エンジンの開発に取り組むと発表した。[1]
近年、アフィリエイトを利用した大量のリンクを獲得した企業サイトが検索結果の上位に表示される傾向があり、公平性に疑問の声がある。加えて企業が自社の運営する複数のサイト(中には数百も運営していると見られる企業もある)間で、組織的に相互リンクを実施し、検索結果を操作しているとの指摘がある。
競争が激しい分野(特に金融・保険等)では企業が、上記のようにアフィリエイトと自社の複数のサイトからのリンク集中等で総合的に検索結果上位表示を実行しており、例え優良なコンテンツを作ったとしても、個人サイトの上位表示は難しくなってきている。特に競争が激しい分野は、検索結果で1ページ目の表示となる10位以内に表示させるのは非常に難しい。
この記事の内容に関する文献や情報源を探しています。ご存じの方はご提示ください。出典を明記するためにご協力をお願いします。
この記事には『独自研究』に基づいた記述が含まれているおそれがあります。
これを解消するために独自研究は載せないを確認した上で、ある情報の根拠だけではなく解釈、評価、分析、総合の根拠となる出典を示してください(テンプレート)。
この記事は中立的な観点に基づく疑問が提出されているか、あるいは議論中です。
そのため偏った観点によって記事が構成されている可能性があります。詳しくはノートを参照してください。
検索エンジンを利用したストーカー行為の事例も発生するようになってきた。個人の氏名で検索すると非常に詳細な個人情報が取得できるケースもあるが、個人情報の削除要請に対し検索エンジン各社は、元のページの作成者に一切の責任があるとして、応じない方針を取っている。Yahoo!では削除要請を依頼するための連絡先すら掲示せず利用者からの依頼を無視することでこの問題に対処する方針をとっている。検索エンジンの利用のうち30%程度が個人情報に関連する検索で占められており、プライバシー問題は検索エンジン各社にとって触れられたくない問題であるのは事実である。
SNSなどの代表されるサイトMixiでは本名での登録を促しているが、これは名前さえわかればSNSサイトの検索機能で容易に個人を特定可能であり、自らに関連するカテゴリへの参加(喩えば卒業校)や公開された参加者間の会話などで、容易に個人の情報を推測・取得できる。クローズドなサイトで公開されていたものであっても、一般公開サイトに転載されてしまうケースがある。検索機能がストーカー行為を助長しているという指摘もある。
近年になって問題となっているものに学校裏サイトがある。その多くが、特定個人名を挙げての誹謗中傷を主にしたものであり、学校名では検索できない場合でも、個人名で検索するとその存在が判明するものも多い。不特定多数のものが匿名で作るサイトであるため、サイト管理者に対応を求めることが困難であるケースが多い。こういったケースでは検索エンジンからの削除を求める以外に被害の拡大を防ぐことは難しいが、検索エンジン各社は明白な誹謗中傷の場合であっても個々の削除依頼者に不必要なほどの詳細な説明を求めることが常態化しており、不明確な基準により削除をせず、誹謗中傷が引き続き検索エンジンで検索されつづけることも多い。
検索エンジン各社にとって、公序良俗に反するサイトをも含め検索できるような状態にしておくことが結果として自社の検索エンジンのシェアを高めることになるため、積極的に不適切なサイトを排除するという動機は働きにくい。
いわゆる「使用言語からみたインターネット人口の割合」はInternet Archiveを用いてEuro MarketingとGlobal Reachから過去の月次資料を整理すると次のような推移を辿っている。
1995年以前のInternet Societyによればインターネットで用いられている言語のうち英語が占める割合は85%とされていたが、その後のITの進歩や各国のインターネットの普及により多言語化が進み、上表に見られるように2000年の年末には英語と非英語の言語人口が逆転し、その傾向は継続している。
2005年2月2日の時点で、WWW検索エンジンの代表格であるGoogleでは80億を越す8,058,044,651ウェブページが登録されている。検索エンジンの利用者はそれら80億を越すウェブページから求める情報を容易に引き出せると思い込みがちであるが、例えば日本語入力のできないコンピュータなどの端末を用いて日本語サイトを検索することは容易ではない。同様に非英語圏の言語間の検索は中間に翻訳エンジンを介さないと検索作業は難しい。
インターネットの多言語化が今後も増加すると仮定した場合、言語間の壁をどのように乗り越えるかは今後の検索エンジンが抱える課題の一つとして挙げることができる。
2004年頃から、各種広告で目的のアクセス先URL(アドレス)を記す代わりに、社名や商品名などを検索エンジンで検索させるように仕向ける広告が多くなっている。このような変化が生じた理由は不明であるが、各メディアの広告掲載基準の変更などが考えられる。
検索エンジンスパム(けんさくエンジンスパム、英:spamdexing)とは、GoogleやYahoo!等の検索エンジンで自身のウェブサイトが検索結果の上位に表示させるように、何らかの仕掛けをすること、および施されたウェブページをいう。こと検索エンジンから所定サイトへ、不適切に誘導されたケースにおいてこのように表現される。
なお、ランチョンミートのスパム(SPAM)ではなく、迷惑メールのスパム(spam)である。(大文字小文字に注意。)
ウェブサイトに仕掛けをする事で、検索サイトでのウェブ検索経由で、特定のウェブサイトやウェブページへ多くのアクセスが見込めるが、検索結果でウェブサイト内の情報とは無関係な条件にまで表示されるようにすることはネチケット(一種のマナーないし道徳や公共良俗)に反する行為である。
CFD
でも利用者が望む情報へのリンクを提供するために、関係無い内容のウェブページは除外する仕組みを開発して導入を進めている。この場合、検索エンジン提供側の信用にもかかわり、こと検索サイトが利用者に信用され利用者数を伸ばすことで収益を上げる関係上、その仕組みを破る検索エンジンスパムは営業妨害となるためである。しかしそういった検索エンジンスパムを除外する機能を回避することを試みる者もおり、いたちごっこが続いている。詳細は#対策を参照。
出会い系サイトや通信販売・アフィリエイト関係などの業者のほか、個人のウェブサイトでも閲覧数を増やそうとして導入する者がいるが、こと目的外のサイトへ誘導されたウェブサイト閲覧者からは不当な誘導だとみなされる一方で、検索サイト側からは、こういった仕組みを多用しすぎているとみなしたサイトに対して、検索エンジンスパムとしてグーグル八分など強制的に検索結果から除外することもある。
文章による方法
検索の際に用いられるキーワードには特定の方向性があり、ある人気商品の商品名やタレント・アイドル・芸能人の名前などは関連ニュースが報じられる度に検索頻度が上がる傾向が見られる。また日常生活で必要とされる各種情報に絡む言葉も検索の際に多く用いられる。
インターネットでは関心のある事象を、それこそ公式サイトや専門情報サイトから、根も葉もない噂レベルまでもが、検索サイトの機能を通じて見ることが可能であるが、これら検索キーワードを多く含む文章は、それだけ様々な人から閲覧される可能性が出てくる。特にトップページ(→ホームページ)やindex.htmlにそれらキーワードが出てくる場合などには、検索エンジン側で「その情報を専門に扱っているサイト」として集計ポイントを多く与えるなどの傾向が在り、このポイント数の多いサイトほど検索上位に表示する所も見られる。
検索エンジンスパム行為では、このような「よく検索されるであろうキーワード」を文章中にちりばめたり、意味も無く陳列させる事で、検索上位に食いこもうとする。極端な例では、著名人や有名人の名前を列記しただけのページをトップページに持ってきて、開いた途端に別のページへと自動的に誘導したりする(後述:1ページサイト)。そこまで行かなくとも、トップページに長々と文章が書き綴られているサイトでは、様々なキーワードが幾度も出てくる事になり、検索サイトがわのクローラには「該当キーワードの多く含まれる関係する情報が多そうなページ」に集計されやすくなる。(通常の文章中に、特定のキーワードが繰り返し出てくることは、かえって普通でもあるため、スパム行為になるかどうかの境界はあいまいである。)
なお商業サイトによっては、これら行為を検索エンジンマーケティング(Search Engine Marketing:SEM)と称しており、またこれら行為は特に違法でも無いために大々的に行われる傾向がある事すら否めない。しかし一般のインターネット利用者の側から見れば、特に何かを買うつもりも無いのに商用サイトへと誘導されれば、それなりに不快感を与えかねない。このため中にはこの手法を利用している事を悟られないように隠蔽したりするケースも見られる。
なおこの問題は検索サイト側のシステムを
日経225
に取った行為では在るものの、違法ではない上に積極的かつ無差別にメッセージを送信する迷惑メール行為程にはインターネット利用者の不快感を煽らない・もしくはその存在を知られていないため、同行為をインターネット・コミュニティ上で忌避される行為とは知らずに、もしくは「問題無い手法だ」と言い張って行う向きも見られ、一般の利用者と、同行為を行う側の軋轢を生んでいる。
例
以下の例は、あくまでも可能性があるということを書いているものであり、実際の検索結果を反映させたものではない。
文章によるもの
例えば、子供のトイレット
くりっく365
について知りたい親が「トイレ」と「トレーニング」をキーワードとして検索したとしよう。
一発で人間の子供に対するトイレットトレーニングに関連する記事に辿り付ければ幸いだが、ペットのトイレットトレーニングに関する記事を開いてしまったり、トレーニングの合間にトイレに行ったら混んでいて大変だったという誰かの日記を開いてしまう事も在り得る。またおねしょをしないようにしつけするためのトレーニングパンツの商品を広告するページを延々と見させられる事も起こりうる。
こうなってしまうと検索キーワードをもう少し工夫して「子供」と「トイレ」と「トレーニング」をキーワードにして検索するだろうが、そこでも子供のように大事に育てているペットのトイレットトレーニングが出てしまう可能性があり、気分を害することもあろう。こうなると後述するマイナスを使う方法で関連すると考えられるキーワードを除外する。
特に検索エンジンスパムでは、使うであろうキーワードを作為的に文章中に混入する事によって、意図的に自分のページに誘導を試みる。しかし検索エンジンスパム行為にあたるかどうかという自覚の有無や迷惑行為の範疇の認識も問題になるため、検索エンジンスパムの明確な線引きは無く、これは検索エンジンスパムではないと言われたらそれまでである。