原創文章歸屬問題如何鑒別?百度搜索是如何理解的 二維碼
1337
要了解原創文章歸屬問題,在文章發布前,我們需要了解一些常識性的問題。下面,遨游建站先帶大家來了解一下這個問題。 1、要正確署名 文章,屬于著作權法所規定的文字作品。所謂文章的發表,是指將文章公之于眾。而發表的形式則可以多種多樣,包括傳統的紙質媒介上的發表,也包括在互聯網網站平臺上的發表,比如微博上發布、BBS論壇上發布、微信公眾號上的發布等等。在司法實踐中,認定作品的著作權人的主要依據即為作品上的署名人是誰。但是在現實生活中,我們有很多作者出于不同的考慮,往往在發表的文章上署以假名、筆名或不予署名,這就使得維權或訴訟中,認定文章著作權的歸屬、即誰是作者增加了難度,給我們的維權或侵權訴訟帶來了極大的障礙。建議作者在發表文章之時,盡量使用自己的真實姓名,如果確實有其他考慮,可以署筆名或假名,但要留存證據證明權屬身份。 2、要標注發布時間 對于兩篇內容構成實質相似的文章,法院通常會推定發表時間在后的文章抄襲自發表時間在先的文章,因此,文章的發表時間對于確定是否具有接觸的可能性以及在先文章的被抄襲可能性方面都具有非常重要的意義。如下圖: 這篇“集團型網站建設需要多少錢?”的文章發布時間為2020年1月10日。接下來,我們再來看看下面的圖片: 這篇“集團型網站建設多少錢?有什么特點(點擊閱讀)”的文章發布時間為2019年8月26日。兩篇文章,雖然標題不一樣,但內容基本上沒有變化,兩者一對比,哪個是原創?哪個是被轉載的?一目了然。 3、仔細閱讀平臺規則 在文章內容發布平臺發表文章,要仔細閱讀線上網站經營者發布的格式合同條款,注意審核有關文章授權或轉讓條款,避免文章的相關權利以合同方式授權給平臺方無償使用。 4、引用需要標注來源 引用他人微博或評論文字要標注文字來源,并要正確對所引用文字的文章作者署名。 上述內容是關于文章發表之時應注意的一些問題,接下來,我和大家交流一下,在互聯網環境下應如何做好維權的準備。 互聯網具有虛擬性,同時又具有內容傳播的快速性和廣泛性,它能讓我們的原創文章迅速得以廣泛傳播,但同時也能為侵權人提供便捷的獲取渠道,并能讓侵權文章得以遍地開花。作為權利人,我們一旦發現侵權文章應該如何維權呢?下面,我將就不同的侵權主體的網絡侵權行為做具體分析: 1、網絡文章抄襲行為 網絡文章抄襲行為,主要指侵權人將原創者的文章部分內容或全部內容進行使用,但未標注引用文章的來源和出處,并再次以自己的名義在互聯網絡公開發布的情況。針對此種侵權行為,要第一時間對侵權行為進行有效取證和存證,并以提起著作權侵權之訴予以維權; 2、文章內容平臺轉載行為 文章內容平臺轉載行為,是指以對文章內容進行經營和運營的內容發布平臺對原創文章進行轉載和使用的情況,比如世紀超星公司、碩博士論文發布平臺CNKI、書生電子公司等閱讀平臺。這些平臺多以文章的有償付費模式進行運營,在發現這些平臺侵權行為之時,應當首先對付費閱讀的模式以及下載量等進行取證,以作為損害賠償的主要證據。 3、第三方信息存儲平臺轉載行為 第三方信息存儲平臺轉載行為,是指侵權文章通過以向網民提供信息存儲空間為主要模式的網絡平臺進行傳播的網絡侵權行為。微博、微信公眾號、知乎等均屬于第三方信息存儲平臺,對于此類平臺上轉載侵權文章的侵權行為,為第一時間固定侵權行為,權利人可采用現在通行的電子取證軟件進行固定證據,之后可通過向平臺方發送律師函或線上投訴的方式對侵權行為進行制止,如在投訴之后仍未有效制止侵權行為,權利人可以通過向法院提起訴訟的方式進行維權。 以上信息來源于湯加律師的文章。 百度是如何辨別原創文章的 要了解這個問題,首先,我們要明白seo中的兩個關鍵詞:“原創”和“偽原創”。 原創:簡單地理解就是第一次在網絡上發表的內容,以前沒有出現過的內容。 偽原創:就是從網站找來資料進行二次加工,二次修改之后的內容,如修改標題,修改內容,增加些文字或者減少一些文字等。 百度搜索引擎對于原創的判斷是如何進行的呢? 主要由以下幾個方面的因素決定: 快照日期 蜘蛛抓取日期 頁面外鏈的多少 文章修改的程度 舉個栗子,如果我在我的網站更新了一篇文章,搜索引擎來到這個網站、并且抓取到了這篇文章,放到數據庫,并且在收錄數據庫中沒有發現類似內容,那么,就會被認定是原創。 1、文章被轉載 如果剛發表的一篇文章被其它轉載了,那么誰是原創呢?那要看誰更先被搜索引擎抓取到,也就是更新周期的問題了。如果在自己的網站發表被其他網站轉載,如果先抓取到前者站,那么歸a,如果先抓取b站,那么原創就歸b站了,所以不是說你先發表了,原創就是你的,這個得看搜索引擎什么時間收錄了你的內容。 2、文章收錄 文章必須被收錄,如果沒有被收錄,肯定是在搜索數據庫中石找不到的,搜索引擎根本就找不到這篇文章,更談不上什么原創了。 3、訪問時間 如果蜘蛛先訪問了B站呢? 3.1、當然權重給B站,一般的情況下都會這樣! 3.2、如果B站轉載的文章帶了A站的原文章頁面鏈接呢? 3.3、這就很明白了,剛收錄的時候,如果排名,兩條結果一起出現,有可能還是B站的排名好一點。 當然,文章轉載次數多了以后,A站的鏈接越多,對A站的文章越有好處,排名會慢慢變成A站在前面。 如果另外轉載的文章帶的是B站頁面的鏈接呢?它們如果判斷不好,就變成了一個鏈接流行度的比賽了。 不過,如果都有很多外部鏈接,并且相差不大,那么判斷的規則應該回到原點,誰先被收錄誰就是原創。 4、偽原創 偽原創也會被認為是原創? 大多時候是這樣的,搜索引擎蜘蛛不能明確分別這些東西,因為它的思維太程式化了。如果你的標題改過,文章的段落改過,那么蜘蛛將很難確定這篇文章是否有過收錄,也許它可以確定有部分內容是重復的,但它也不能因為這些而將這篇文章確認為是轉載!當然,隨著搜索引擎程式設計的提高,應該會有一個相似度的東西出來,比如文字內容相似度超過百分之幾就會被認為是轉載。 另外提幾個建議: 4.1、如果你的站是新站,權重不高,如何讓蜘蛛首頁找到你的頁面并放入數據庫?其實很簡單:用網摘、bd收藏這些工具讓蜘蛛更快的找到你的頁面! 4.2、大家都有過建議,就是加上自己的版權及內容頁面的地址,別人采集的時候你就爽了,收錄雖然不會快,但最后鏈接多了,你依然是原創內容。 4.3、發表文章等到自己收錄以后再去其它的站點進行發表,同時加上自己的原文地址,這種辦法很有保障! 5、快照日期 快照日期顯示時間最早的,一般就是原創了吧! 不一定,這個說法要在一個更新周期之內,比如說文章發表后一周內,快照時間越早的地址將越有被認可為原創的可能。 但如果文章都發表了幾個月了,說不定搜索引擎已經重新獲取過快照了,快照的日期就變了! 還有其它的可能嗎?有,一般比如百度收錄,他可能會有一個收錄的數據庫,經過過濾后,收錄的內容才會到搜索結果里來。在這個期間就有一些問題了,比如A站首次發表,B站轉載。蜘蛛先訪問A站再訪問B站。而后可能先把B站的結果放出來了,而A站還在數據庫里。 所以說,搜索引擎沒有收錄并不表示搜索引擎蜘蛛沒有訪問過這些內容,也許在搜索引擎的庫存里已經有記錄了,只是你查的時間沒有放出來而已,就像25號才放出來的內容,但是快照是20號的,這就是搜索引擎的庫存內容,同時這也是檢驗原創的核心時間點。 這種情況一般出現在新站與老站之間,A站發表,B站轉載,但A站在搜索引擎的信任度并不高的時候。不過只要是A站先被訪問到的,原創權還是A站的,這是最難分出來的情況,因為我們不知道蜘蛛先訪問哪個站,除非你知道兩個站的網站空間日志內容,能看到搜索引擎對兩個頁面的訪問時間。 是否原創其實根本就沒有明顯的界限,因為,有些東西它本身含有的知識點都是重復的。舉個例子,寫“如何做西紅柿炒雞蛋”的文章,雖然會有千奇百怪的寫法,但是,如果將1萬個人關在小屋里,給他們筆和紙,讓他們寫,寫完上交后。不難發現,其中會有幾篇內容是相似的!如果我們作為審閱人,在不知情的情況下,會認為這些文章中有抄襲的,如果讓搜索引擎來看這1萬篇“如何做西紅柿炒雞蛋”的文章,又會如何呢? 在搜索引擎中,信息量十分的龐大,它又是如何辨別原創的呢?其實這是一個十分有趣的問題。百度判斷文章的原創程度會有2次篩選:一次是蜘蛛爬行抓取文章時,對抓取數據的重復檢測;一次是在搜索引擎讀取文章內容的時候,對文章內容重復度的檢查。 對于第一次篩選,是按照數據的相似度來判斷的(包括了代碼)。搜索引擎會根據無數的文章資源來判定一個相似度百分比(因為網絡資源不斷地更新,這個判斷標準也不斷的變化),超過一定的相似度,文章就會被pass掉。第一次篩選相對而言,并不嚴格。 第二次篩選,則是針對文章的主要內容(不包含代碼),篩選的方法也是根據相似度來判斷。搜索引擎它會把網頁中沒用的部分去掉(代碼和一些沒用的感嘆詞、介詞等),通過分詞,將一個頁面的內容分成很多個關鍵詞(這些關鍵詞便是這個頁面的核心內容),然后把頁面中的關鍵詞存儲在數據庫中,然后會通過數據庫資源的對比,來決定文章的原創度(就像指紋一樣,如果指紋完全符合,那就說明這個指紋是你的,對于文章而言,數據相同,便是抄襲的)。 對于第二次篩選有好處也有優點。通過去掉沒用的詞,如“的”、“嗎”等,再來對比會更加準確,但是同樣的,一個頁面除了文章外,還有很多其他的不同內容,因此,判別起來也會有寫難度,甚至會造成抄襲文章也會收錄的現象。 搜索引擎每天都會獲取大量的數據,因此,判定文章原創度的標準也在浮動,因此會出現文章收錄后被吐出來,或者沒有收錄的文章又被收錄了。 關于原創文章方面的一些常見問題 1、為什么相同的文章發在不同的平臺都會被收錄? 這個問題不難回答。我們再看看上面舉得寫“如何做西紅柿炒雞蛋”的這個例子。對于搜索引擎而言,這樣的文章里面的關鍵詞幾乎都是一樣的(雞蛋、西紅柿等)。但是,這1萬篇文章是每個人動手寫的,沒有抄襲的可能,但是因為作法相同,而出現了文章相似程度極高(指紋幾乎都是一樣的)的情況。面對這種情況,搜索引擎也會有自己的處理方法:把收錄條件降低。這也造成了,偽原創的出現(偽原創文章收錄相對而言還是不錯的)。 除此之外,就算是抄襲文章,文章頁除了文章外,還有很多其他的內容,這些都會是影響文章原創度的因素!另外,百度的數據庫極為龐大,一天就處理數百萬的文章,會出現反應遲緩的現象,造成文章先收錄后吐出的現象。 還有比較特殊的一點是,搜索引擎的目的便是為用戶提供有用的訊息,會盡可能的提供更多的搜索結果來滿足用戶的需求,特別是對于一些有時效性的新聞,搜索引擎會希望這些內容更快的傳遞,所以會收錄一些內容相似、甚至內容完全一樣的文章。 以上種種因素都會造成搜素引擎收錄兩篇幾乎一樣的文章的現象出現。 2、為什么文章收錄后過段時間又沒了? 如果是原創文章,這種幾率很低,也并不是沒有。如:(1)你的文章被高權重網站采集了(這種情況聯系對方的站長)。(2)偽原創。對于偽裝創,收錄后過段時間就沒了,這是正常的,對于百度而言,每天都會采集大量的信息,因此決定文章收錄的數據庫指紋種類也不斷的變化,所以會出現此種情況。 3、為什么權重越高的平臺文章會收錄得越快? 舉例子來說,買東西我們習慣性的看品牌?因為我們會認為該品牌的東西質量好。搜索引擎也是一樣,對于它默認的一些好的、大型的網站,會默認為這網站的內容好,所以,蜘蛛爬行的就會頻繁,甚至有時候,這些網站純粹的粘貼、復制,也會比小網站收錄快很多。畢竟小網站流量有限。 以信載商,良心建站。遨游始終秉承“一次建站、終身維護”的宗旨,竭誠為客戶提供最優質的互聯網服務。遨游建站率先植入seo優化理念,讓你的網頁更利于搜索引擎抓取,關鍵詞排名更靠前。可仿站、可定制。無論是傳統型企業官網、集團型品牌官網,還是營銷型網站、電商型網站、定制型網站、特殊行業網站(醫療、教育),全部搞定。 公司:網站建設_小程序設計_競價托管代運營公司;郵箱:1013601535@qq.com 手機:17073547034;QQ: 1013601535 在線留言咨詢,24小時內回復
我想咨詢 *
企業名稱
手機號碼 *
您的姓名
所在城市 提交 |
網站建設問題
熱門標簽
|