robots.txt ফাইল তৈরী

Posted: জুন 2, 2012 in টিপস & ট্রিক্স, টেকবিশ্ব, তথ্য প্রযুক্তি, Top News

robots.txt ফাইল তৈরী

ক্রাউলার (Crawler) হচ্ছে একধরনের কম্পিউটার প্রোগ্রাম যা সয়ংক্রিয়ভাবে ইন্টারনেট ব্রাউজিং করে। robots.txt ফাইল দিয়ে সার্চ ইন্জিনের বট,ক্রাউলার এবং স্পাইডার সাইটের কোন্ কোন্ পেজ দেখবে এবং কোন্ কোন্ পেজ দেখবেনা এসব নিয়ন্ত্রন করা যায়। এই নিয়ন্ত্রনের পদ্ধতিকে বলা হয় রোবটস এক্সক্লুসন প্রটোকল (Robots Exclusion Protocol) বা রোবটস এক্সক্লুসন স্টান্ডার্ড (Robots Exclusion Standard) .এই ফাইল তৈরীর আগে এখানে ব্যবহৃত কিছু চিহ্ন চিনে নেয়া যাক

Robots.txt Protocol – Standard Syntax & Semantics
অংশ/চিহ্ন বর্ননা
User-agent: নির্দেশ করে রোবট(সমূহ)কে
* Wildcard. User-agent: * এটার অর্থ সব রোবট
disallow: প্রতিটি লাইন disallow: দিয়ে শুরু হয়।এরপরে আপনি / দিয়ে URL path ঠিক করে দিতে পারেন।এতে করে ওই path বা ফাইল বা ওই পেজ আর রোবট ক্রাউল করবেনা।যদি কোন path না দেন অথ্যাৎ ফাকা থাকে তাহলে disallow  কাজ করবে allow এর।
# কমেন্ট করার জন্য।এটার পরে কোন লাইন এজন্য লেখা হয় যাতে এই লাইনটি পরে বোঝা যায় যে নিচের কোডগুলি কি বিষয়ক হবে।

Disallow ফিল্ড আংশিক বা পূর্নাঙ্গ URL উপস্থাপন করতে পারে।/ চিহ্নের পর যে path উল্লেখ থাকবে সেই path রোবট ভিজিট করবেনা। যেমন

Disallow: /help

#disallows both /help.html and /help/index.html, whereas

Disallow: /help/

# would disallow /help/index.html but allow /help.html

কিছু উদাহরন

সব রোবট অনুমোদন করবে করবে সব ফাইল ভিজিটের জন্য (wildcard “*” নির্দেশ করে সব রোবট)

User-agent: *
Disallow:

সব রোবট  কোন ফাইল ভিজিট করবেনা

User-agent: *
Disallow: /

গুগলবট এর শুধু ভিজিটের অনুমোদন থাকবে বাকি কেউ ভিজিট করতে পারবেনা

User-agent: GoogleBot
Disallow:

User-agent: *
Disallow: /

গুগলবট এবং ইয়াহুস্লার্প এর শুধু ভিজিটের অনুমোদন থাকবে বাকি কারো থাকবেনা

User-agent: GoogleBot
User-agent: Slurp
Disallow:

User-agent: *
Disallow: /

কোন একটা নির্দিষ্ট বটের ভিজিট যদি বন্ধ করতে চান তাহলে

User-agent: *
Disallow:

User-agent: Teoma
Disallow: /

এই ফাইলটি দ্বারা যদি আপনার সাইটের কোন URL বা পেজ crawl করা বন্ধ করে দেন তারপরেও কিছু সমস্যার কারনে এই পেজগুলি কোথাও কোথাও দেখাতে পারে।যেমন রেফারেল লগ এ URL গুলি দেখাতে পারে।তাছাড়া কিছু কিছু সার্চ ইন্জিন আছে যাদের এলগরিদম খুব উন্নত নয় ফলে এসব ইন্জিন থেকে যখন স্পাইডার/বোট crawl করার জন্য পাঠায় তখন এরা robots.txt ফাইলের নির্দেশনাকে উপেক্ষা করে আপনার সব URL crawl করে যাবে।

এসব সমস্যা এড়াতে আরেকটা ভাল পদ্ধতি হল এই সমস্ত কনটেন্টকে htaccess ফাইল দিয়ে পাসওয়ার্ড বা বন্ধ করে রাখা।

সাইট ম্যাপঃ

সাইট ম্যাপ ২ ধরনের হয়ে থাকে, প্রথমটি হচ্ছে একটি সাধারণ HTML পৃষ্ঠা যেখানে সাইটের সকল পৃষ্ঠার লিংক যুক্ত করা হয়। মূলত কোন পৃষ্ঠা খুজে পেতে অসুবিধা হলে ব্যবহারকারীরা এই সাইট ম্যাপের সহায়তা নেয়। সার্চ ইঞ্জিনও এই সাইট ম্যাপ থেকে সাইটের সকল পৃষ্ঠার লিংক পেয়ে থাকে। দ্বিতীয় সাইট ম্যাপ হচ্ছে একটি XML ফাইল যা “গুগল ওয়েবমাষ্টার টুলস” নামক গুগলের একটি সাইটে সাবমিট করা হয়। সাইটের ঠিকানা হচ্ছে http://www.google.com/webmasters/tools . এই ফাইলের মাধ্যমে সাইটের সকল পৃষ্ঠা সম্পর্কে গুগল ভালভাবে অবগত হতে পারে। এই সাইট ম্যাপ ফাইল তৈরী করতে গুগল একটি ওপেনসোর্স স্ক্রিপ্ট প্রদান করে যা এই লিংক থেকে পাওয়া যাবে http://code.google.com/p/googlesitemapgenerator

rel=”nofollow” এর ব্যাপারে সতর্ক থাকুন

কোন লিংকে rel এট্রিবিউট এ “nofollow” সেট করে দিয়ে গুগল বা সার্চ ইন্জিনকে বলে দিতে পারেন যে এই সমস্ত লিংক যেন সে crawl না করে। যদি আপনার সাইট কোন ব্লগ বা ফোরাম হয় যেখানে মন্তব্য করা যায় তাহলে কমেন্ট অংশকে এভাবে nofollow করে দিয়ে রাখতে পারেন।এতে করে আপনার ব্লগ বা ফোরামের খ্যাতি ব্যবহার করে নিজের সাইটের rank বাড়াতে পারবেনা।আবার অনেক সময় অনেকে আপত্তিকর সাইটের ঠিকানা আপনার সাইটে দিতে পারে ফলে যা আপনি চান না। এছাড়াও এমন সাইটের লিংক দিতে পারে যেটা গুগলের কাছে spammer, এতে করে আপনার সাইটের খ্যাতি নষ্ট হবে।

<a href=”http://www.shadyseo.com&#8221; rel=”nofollow”>Comment spammer</a>

প্রতিটি লিংকে nofollow না দিয়ে robot মেটা ট্যাগেও nofollow দিলে একই কাজ করবে।

<html>

<head>

<title>Brandon’s Baseball Cards – Buy Cards, Baseball News, Card Prices</title>

<meta content=”Brandon’s Baseball Cards provides a large selection of vintage and modern baseball cards for sale. We also offer daily baseball news and events in”>

<meta content=”nofollow”>

</head>

<body>

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / পরিবর্তন )

Twitter picture

You are commenting using your Twitter account. Log Out / পরিবর্তন )

Facebook photo

You are commenting using your Facebook account. Log Out / পরিবর্তন )

Google+ photo

You are commenting using your Google+ account. Log Out / পরিবর্তন )

Connecting to %s