欧美日韩国产在线高清视频_久久99精品久久久久久噜噜丰满_日日摸夜夜添夜夜添影院视频_久久精品无码一区二区日韩av

當前位置:高考升學網(wǎng) > 筆試面試 > 正文

數(shù)據(jù)分析師常見的7道面試題及答案

更新:2023-09-14 17:14:52 高考升學網(wǎng)

 1、海量日志數(shù)據(jù),提取出某日訪問百度次數(shù)最多的那個IP。

  首先是這一天,并且是訪問百度的日志中的IP取出來,逐個寫入到一個大文件中。注意到IP是32位的,最多有個2^32個IP。同樣可以采用映射的方法,比如模1000,把整個大文件映射為1000個小文件,再找出每個小文中出現(xiàn)頻率最大的IP(可以采用hash_map進行頻率統(tǒng)計,然后再找出頻率最大的幾個)及相應的頻率。然后再在這1000個最大的IP中,找出那個頻率最大的IP,即為所求。

  或者如下闡述:

  算法:分而治之+Hash

  1.IP地址最多有2^32=4G種取值情況,所以不能完全加載到內(nèi)存中處理;

  2.可以考慮采用“分而治之”的,按照IP地址的Hash(IP)24值,把海量IP日志分別存儲到1024個小文件中。這樣,每個小文件最多包含4MB個IP地址;

  3.對于每一個小文件,可以構(gòu)建一個IP為key,出現(xiàn)次數(shù)為value的Hash map,同時記錄當前出現(xiàn)次數(shù)最多的那個IP地址;

  4.可以得到1024個小文件中的出現(xiàn)次數(shù)最多的IP,再依據(jù)常規(guī)的排序算法得到總體上出現(xiàn)次數(shù)最多的IP;

  2、搜索引擎會通過日志文件把用戶每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255字節(jié)。

  假設目前有一千萬個記錄(這些查詢串的重復度比較高,雖然總數(shù)是1千萬,但如果除去重復后,不超過3百萬個。一個查詢串的重復度越高,說明查詢它的用戶越多,也就是越熱門。),請你統(tǒng)計最熱門的10個查詢串,要求使用的內(nèi)存不能超過1G。

  典型的Top K算法,還是在這篇文章里頭有所闡述,

  文中,給出的最終算法是:

  第一步、先對這批海量數(shù)據(jù)預處理,在O(N)的時間內(nèi)用Hash表完成統(tǒng)計(之前寫成了排序,特此訂正。July、2011.04.27);

  第二步、借助堆這個數(shù)據(jù)結(jié)構(gòu),找出Top K,時間復雜度為N‘logK。

  即,借助堆結(jié)構(gòu),我們可以在log量級的時間內(nèi)查找和調(diào)整/移動。因此,維護一個K(該題目中是10)大小的小根堆,然后遍歷300萬的Query,分別和根元素進行對比所以,我們最終的時間復雜度是:O(N) + N’O(logK),(N為1000萬,N’為300萬)。ok,更多,詳情,請參考原文。

  或者:采用trie樹,關鍵字域存該查詢串出現(xiàn)的次數(shù),沒有出現(xiàn)為0。最后用10個元素的最小推來對出現(xiàn)頻率進行排序。

  3、有一個1G大小的一個文件,里面每一行是一個詞,詞的大小不超過16字節(jié),內(nèi)存限制大小是1M。返回頻數(shù)最高的100個詞。

  方案:順序讀文件中,對于每個詞x,取hash(x)P00,然后按照該值存到5000個小文件(記為x0,x1,…x4999)中。這樣每個文件大概是200k左右。

  如果其中的有的文件超過了1M大小,還可以按照類似的方法繼續(xù)往下分,直到分解得到的小文件的大小都不超過1M。

  對每個小文件,統(tǒng)計每個文件中出現(xiàn)的詞以及相應的頻率(可以采用trie樹/hash_map等),并取出出現(xiàn)頻率最大的100個詞(可以用含100 個結(jié)點的最小堆),并把100個詞及相應的頻率存入文件,這樣又得到了5000個文件。下一步就是把這5000個文件進行歸并(類似與歸并排序)的過程了。

  4、有10個文件,每個文件1G,每個文件的每一行存放的都是用戶的query,每個文件的query都可能重復。要求你按照query的頻度排序。

  還是典型的TOP K算法,解決方案如下:

  方案1:

  順序讀取10個文件,按照hash(query)的結(jié)果將query寫入到另外10個文件(記為)中。這樣新生成的文件每個的大小大約也1G(假設hash函數(shù)是隨機的)。

  找一臺內(nèi)存在2G左右的機器,依次對用hash_map(query, query_count)來統(tǒng)計每個query出現(xiàn)的次數(shù)。利用快速/堆/歸并排序按照出現(xiàn)次數(shù)進行排序。將排序好的query和對應的 query_cout輸出到文件中。這樣得到了10個排好序的文件(記為)。

  對這10個文件進行歸并排序(內(nèi)排序與外排序相結(jié)合)。

  方案2:

  一般query的總量是有限的,只是重復的次數(shù)比較多而已,可能對于所有的query,一次性就可以加入到內(nèi)存了。這樣,我們就可以采用trie樹/hash_map等直接來統(tǒng)計每個query出現(xiàn)的次數(shù),然后按出現(xiàn)次數(shù)做快速/堆/歸并排序就可以了。

  方案3:

  與方案1類似,但在做完hash,分成多個文件后,可以交給多個文件來處理,采用分布式的架構(gòu)來處理(比如MapReduce),最后再進行合并。

  5、 給定a、b兩個文件,各存放50億個url,每個url各占64字節(jié),內(nèi)存限制是4G,讓你找出a、b文件共同的url?

  方案1:可以估計每個文件安的大小為5G×64=320G,遠遠大于內(nèi)存限制的4G。所以不可能將其完全加載到內(nèi)存中處理。考慮采取分而治之的方法。

  遍歷文件a,對每個url求取hash(url)00,然后根據(jù)所取得的值將url分別存儲到1000個小文件(記為a0,a1,…,a999)中。這樣每個小文件的大約為300M。

  遍歷文件b,采取和a相同的方式將url分別存儲到1000小文件(記為b0,b1,…,b999)。這樣處理后,所有可能相同的url都在對應的小文件(a0vsb0,a1vsb1,…,a999vsb999)中,不對應的小文件不可能有相同的url。然后我們只要求出1000對小文件中相同的 url即可。

  求每對小文件中相同的url時,可以把其中一個小文件的url存儲到hash_set中。然后遍歷另一個小文件的每個url,看其是否在剛才構(gòu)建的hash_set中,如果是,那么就是共同的url,存到文件里面就可以了。

  方案2:如果允許有一定的錯誤率,可以使用Bloom filter,4G內(nèi)存大概可以表示340億bit。將其中一個文件中的url使用Bloom filter映射為這340億bit,然后挨個讀取另外一個文件的url,檢查是否與Bloom filter,如果是,那么該url應該是共同的url(注意會有一定的錯誤率)。

  Bloom filter日后會在本BLOG內(nèi)詳細闡述。

  6、在2.5億個整數(shù)中找出不重復的整數(shù),注,內(nèi)存不足以容納這2.5億個整數(shù)。

  方案1:采用2-Bitmap(每個數(shù)分配2bit,00表示不存在,01表示出現(xiàn)一次,10表示多次,11無意義)進行,共需內(nèi)存2^32 2 bit=1 GB內(nèi)存,還可以接受。然后掃描這2.5億個整數(shù),查看Bitmap中相對應位,如果是00變01,01變10,10保持不變。所描完事后,查看 bitmap,把對應位是01的整數(shù)輸出即可。

  方案2:也可采用與第1題類似的方法,進行劃分小文件的方法。然后在小文件中找出不重復的整數(shù),并排序。然后再進行歸并,注意去除重復的元素。

  7、騰訊面試題:給40億個不重復的unsigned int的整數(shù),沒排過序的,然后再給一個數(shù),如何快速判斷這個數(shù)是否在那40億個數(shù)當中?

  與上第6題類似,我的第一反應時快速排序+二分查找。以下是其它更好的方法:

  方案1:oo,申請512M的內(nèi)存,一個bit位代表一個unsigned int值。讀入40億個數(shù),設置相應的bit位,讀入要查詢的數(shù),查看相應bit位是否為1,為1表示存在,為0表示不存在。

  方案2:這個問題在《編程珠璣》里有很好的描述,大家可以參考下面的思路,探討一下:

  又因為2^32為40億多,所以給定一個數(shù)可能在,也可能不在其中;

  這里我們把40億個數(shù)中的每一個用32位的二進制來表示

  假設這40億個數(shù)開始放在一個文件中。


最新圖文

常見的hr面試官面試問題大全

時間:2023-09-14 23:0:24

企業(yè)面試官面試問題及參考

時間:2023-09-17 08:0:27

高校教師招聘面試答辯100題

時間:2023-09-17 06:0:03
欧美日韩国产在线高清视频_久久99精品久久久久久噜噜丰满_日日摸夜夜添夜夜添影院视频_久久精品无码一区二区日韩av
<strike id="6q0um"></strike>
  • <strike id="6q0um"><s id="6q0um"></s></strike>
  • <ul id="6q0um"></ul><strike id="6q0um"></strike>
    国产精品污网站| 欧美高清视频一二三区 | 亚洲图片欧美综合| 亚洲三级电影网站| 欧美在线高清视频| 亚洲摸摸操操av| 日本欧美一区二区| 丁香激情综合国产| 久久精品一区蜜桃臀影院| 国产午夜精品在线观看| 一区二区三区精密机械公司| 日韩女优毛片在线| 久久亚洲精华国产精华液| 亚洲一区二区精品视频| 久久综合色天天久久综合图片| 色天天综合色天天久久| 亚洲国产一区二区三区青草影视| 色av成人天堂桃色av| 美女视频免费一区| 欧美性色黄大片| 久久久蜜桃精品| 亚洲与欧洲av电影| 色婷婷国产精品综合在线观看| 亚洲一区中文日韩| 亚洲男女一区二区三区| 91久久人澡人人添人人爽欧美| 色菇凉天天综合网| 91麻豆精品国产91久久久更新时间 | 一本高清dvd不卡在线观看| 午夜精品久久久久影视| 91精品国产高清一区二区三区| 亚洲一区二区三区免费视频| 久久免费精品国产久精品久久久久| 亚洲制服丝袜一区| 久久嫩草精品久久久久| 寂寞少妇一区二区三区| 亚洲黄色性网站| 久久在线免费观看| 国产精品一卡二卡| 亚洲精品中文在线| 制服丝袜中文字幕一区| 亚洲欧洲韩国日本视频| www.66久久| 欧美日韩一区二区在线观看| 亚洲成人黄色影院| 国产精品久久久久三级| 久久免费看少妇高潮| 国产一区二三区| 一本色道久久综合亚洲精品按摩| 亚洲欧洲精品一区二区精品久久久| 99热在这里有精品免费| 欧美日韩不卡视频| 免费高清在线一区| 亚洲五码中文字幕| 亚洲女子a中天字幕| 国产亚洲一区二区三区四区| 欧美成人综合网站| 国产一区二区三区在线观看精品| 亚洲成av人影院在线观看网| 亚洲人快播电影网| 中文文精品字幕一区二区| 1区2区3区欧美| 国产女主播视频一区二区| 99麻豆久久久国产精品免费| 欧美日韩免费高清一区色橹橹| 日本亚洲视频在线| 亚洲午夜久久久久久久久电影院| 亚洲免费毛片网站| 国产精品国产三级国产三级人妇 | 亚洲三级在线免费| 中文字幕一区二区三区不卡| 久久久国产精品麻豆| 久久综合国产精品| www.欧美日韩| 日韩一区二区在线看片| 国产精品1区2区| 欧美另类一区二区三区| 欧美aaaaaa午夜精品| 午夜精品福利一区二区三区蜜桃| 亚洲一区二区欧美日韩| 亚洲精品中文字幕乱码三区| 亚洲三级在线观看| 中文字幕欧美一区| 亚洲视频你懂的| 国产精品乱码人人做人人爱| 国产精品精品国产色婷婷| 国产三级欧美三级| 国产精品二三区| 国产精品国产自产拍高清av| 亚洲四区在线观看| 亚洲视频小说图片| 一区二区三区四区亚洲| 亚洲欧美日韩国产中文在线| 亚洲永久免费av| 亚洲一区在线观看免费观看电影高清| 亚洲女厕所小便bbb| 中文字幕亚洲不卡| 亚洲欧美日韩国产中文在线| 国产精品国产三级国产aⅴ中文 | 亚洲制服丝袜一区| 日韩激情在线观看| 91国产免费看| 国产综合色在线视频区| 在线播放中文一区| 成人免费视频网站在线观看| 亚洲精品在线免费播放| 久久久久久免费网| 成人欧美一区二区三区白人 | 青椒成人免费视频| 欧美日韩精品一区二区三区蜜桃 | 麻豆精品在线看| 在线播放中文字幕一区| 成人黄色一级视频| 国产日本亚洲高清| 中文字幕在线观看一区| 夜夜嗨av一区二区三区四季av| 高清不卡一二三区| 久久久午夜电影| 国产精品素人一区二区| 亚洲精品国产无天堂网2021| 亚洲在线视频一区| 久久国产精品99精品国产 | 欧美一区二区三区性视频| 99久久婷婷国产综合精品| 中文一区二区在线观看| 亚洲免费观看高清| 日韩精品免费视频人成| 欧美高清激情brazzers| 99国产精品99久久久久久| 国产精品天美传媒| 一片黄亚洲嫩模| 精一区二区三区| 精品对白一区国产伦| 国产精品国产三级国产有无不卡 | 久久免费视频一区| 综合在线观看色| 青青草国产成人99久久| 日韩一级片网站| 久久婷婷国产综合精品青草| 亚洲码国产岛国毛片在线| 色婷婷av一区二区三区gif | 一区二区三区欧美视频| 国产真实乱偷精品视频免| 久久一夜天堂av一区二区三区| 日韩毛片精品高清免费| 美女脱光内衣内裤视频久久影院| 欧美成人乱码一区二区三区| 国产精品嫩草影院av蜜臀| 日本视频中文字幕一区二区三区| 日韩一卡二卡三卡四卡| 国产精品护士白丝一区av| 免费日本视频一区| 久久午夜色播影院免费高清 | 欧美国产一区在线| 青青草97国产精品免费观看无弹窗版| 日韩一卡二卡三卡| 最新中文字幕一区二区三区 | 日韩国产精品大片| www国产精品av| 亚洲国产另类精品专区| 粗大黑人巨茎大战欧美成人| 亚洲欧美二区三区| 欧美久久久久久蜜桃| 欧美国产激情一区二区三区蜜月| 日韩电影在线免费看| 精品粉嫩aⅴ一区二区三区四区| 自拍偷拍国产精品| 国产成人免费视频精品含羞草妖精 | 91日韩在线专区| 亚洲国产视频在线| 91精品国产色综合久久| 亚洲免费在线视频一区 二区| 国产高清亚洲一区| 一区二区三区在线播放| 日韩午夜中文字幕| 亚洲一二三专区| 99久久精品99国产精品| 日韩在线一区二区三区| 久久久99精品久久| 在线看国产一区| 亚洲电影在线播放| 久久久久国产精品厨房| 色狠狠一区二区| 国产精品人妖ts系列视频| 精品在线观看视频| 亚洲天堂2014| 日韩女优av电影| 午夜激情久久久| 久久精品一区二区| 国产一区二区女| 一区二区三区不卡视频在线观看 | 欧美日韩综合一区| 亚洲日本丝袜连裤袜办公室| 成人久久视频在线观看| 亚洲sss视频在线视频| 久久精品这里都是精品| 欧美日韩一区二区在线观看| 亚洲色图欧洲色图婷婷| 99久久精品一区| 捆绑调教美女网站视频一区|