Top 50 Data Science Interview Spørgsmål og svar

Anonim

Følgende er ofte stillede spørgsmål i jobinterviews for nybegyndere såvel som erfaren Data Scientist.

1. Hvad er datalogi?

Datalogi er en kombination af algoritmer, værktøjer og maskinlæringsteknik, som hjælper dig med at finde fælles skjulte mønstre fra de givne rådata.

2. Hvad er logistisk regression i datalogi?

Logistisk regression kaldes også som logit-modellen. Det er en metode til at forudsige det binære resultat ud fra en lineær kombination af forudsigelsesvariabler.

3. Navngiv tre typer forspændinger, der kan forekomme under prøveudtagning

I prøveudtagningsprocessen er der tre typer forspændinger, som er:

  • Udvælgelsesforstyrrelse
  • Under dækningsforstyrrelse
  • Overlevende bias

4. Diskuter beslutningstræalgoritmen

Et beslutningstræ er en populær overvåget algoritme til maskinindlæring. Det bruges hovedsageligt til regression og klassificering. Det giver mulighed for at nedbryde et datasæt i mindre delmængder. Beslutningstræet er i stand til at håndtere både kategoriske og numeriske data.

5. Hvad er tidligere sandsynlighed og sandsynlighed?

Tidligere sandsynlighed er andelen af ​​den afhængige variabel i datasættet, mens sandsynligheden er sandsynligheden for at klassificere en given observatør i nærværelse af en anden variabel.

6. Forklar anbefalingssystemer?

Det er en underklasse af informationsfiltreringsteknikker. Det hjælper dig med at forudsige de præferencer eller vurderinger, som brugerne sandsynligvis giver til et produkt.

7. Nævn tre ulemper ved at bruge en lineær model

Tre ulemper ved den lineære model er:

  • Antagelsen om linearitet af fejlene.
  • Du kan ikke bruge denne model til binære eller tælle resultater
  • Der er masser af problemer med overmontering, som det ikke kan løse

8. Hvorfor skal du udføre sampling igen?

Genprøvetagning udføres i nedenstående tilfælde:

  • Estimering af nøjagtigheden af ​​stikprøvestatistikker ved at tegne tilfældigt med erstatning fra et sæt datapunkt eller bruge som delmængder af tilgængelige data
  • Udskiftning af etiketter på datapunkter, når der udføres nødvendige tests
  • Validering af modeller ved hjælp af tilfældige undersæt

9. Angiv bibliotekerne i Python, der bruges til dataanalyse og videnskabelige beregninger.

  • SciPy
  • Pandaer
  • Matplotlib
  • NumPy
  • SciKit
  • Seaborn

10. Hvad er effektanalyse?

Effektanalysen er en integreret del af det eksperimentelle design. Det hjælper dig med at bestemme prøvestørrelsen, der kræves for at finde ud af effekten af ​​en given størrelse fra en årsag med et bestemt niveau af sikkerhed. Det giver dig også mulighed for at distribuere en bestemt sandsynlighed i en prøvestørrelsesbegrænsning.

11. Forklar samarbejdsfiltrering

Samarbejdsfiltrering, der bruges til at søge efter korrekte mønstre ved at samarbejde synspunkter, flere datakilder og forskellige agenter.

12. Hvad er bias?

Bias er en fejl, der blev introduceret i din model på grund af overforenkling af en maskinlæringsalgoritme. "Det kan føre til underudnyttelse.

13. Diskuter 'Naive' i en Naive Bayes-algoritme?

Naive Bayes algoritmemodellen er baseret på Bayes sætning. Den beskriver sandsynligheden for en begivenhed. Det er baseret på forudgående kendskab til forhold, der kan være relateret til den specifikke begivenhed.

14. Hvad er en lineær regression?

Lineær regression er en statistisk programmeringsmetode, hvor score på en variabel 'A' forudsiges ud fra scoren på en anden variabel 'B'. B betegnes som prediktorvariablen og A som kriterievariablen.

15. Angiv forskellen mellem den forventede værdi og middelværdien

De er ikke mange forskelle, men begge disse udtryk bruges i forskellige sammenhænge. Middelværdi refereres generelt til, når du diskuterer en sandsynlighedsfordeling, mens der henvises til forventet værdi i sammenhæng med en tilfældig variabel.

16. Hvad er formålet med at gennemføre A / B-test?

AB-test bruges til at udføre tilfældige eksperimenter med to variabler, A og B. Målet med denne testmetode er at finde ud af ændringer på en webside for at maksimere eller øge resultatet af en strategi.

17. Hvad er ensembleindlæring?

Ensemblet er en metode til at kombinere et forskelligt sæt elever sammen for at improvisere modelens stabilitet og forudsigelige kraft. To typer Ensemble-læringsmetoder er:

Bagging

Bagging-metoden hjælper dig med at implementere lignende elever på små stikprøvepopulationer. Det hjælper dig med at komme nærmere forudsigelser.

Boosting

Boosting er en iterativ metode, der giver dig mulighed for at justere vægten af ​​en observation afhænger af den sidste klassificering. Boosting mindsker biasfejlen og hjælper dig med at opbygge stærke forudsigelige modeller.

18. Forklar Eigenvalue og Eigenvector

Eigenvektorer er til forståelse af lineære transformationer. Datavidenskabsmand har brug for at beregne egenvektorerne for en kovariansmatrix eller korrelation. Eigenværdier er retningerne langs brug af specifikke lineære transformationshandlinger ved komprimering, vending eller strækning.

19. Definer udtrykket krydsvalidering

Krydsvalidering er en valideringsteknik til evaluering af, hvordan resultaterne af statistisk analyse vil generalisere for et uafhængigt datasæt. Denne metode bruges i baggrunde, hvor målet forudsiges, og man skal estimere, hvor nøjagtigt en model vil opnå.

20. Forklar trinene til et dataanalyseprojekt

Følgende er vigtige trin involveret i et analyseprojekt:

  • Forstå forretningsproblemet
  • Udforsk dataene og studer dem nøje.
  • Forbered dataene til modellering ved at finde manglende værdier og transformere variabler.
  • Begynd at køre modellen og analyser Big data-resultatet.
  • Valider modellen med nyt datasæt.
  • Implementere modellen og spore resultatet for at analysere modelens ydeevne i en bestemt periode.

21. Diskuter kunstige neurale netværk

Kunstige neurale netværk (ANN) er et specielt sæt algoritmer, der har revolutioneret maskinindlæring. Det hjælper dig med at tilpasse dig efter skiftende input. Så genererer netværket det bedst mulige resultat uden redesign af outputkriterierne.

22. Hvad er rygformering?

Back-formering er essensen af ​​neuralt net træning. Det er metoden til at indstille vægten af ​​et neuralt net, afhænger af den fejlrate, der blev opnået i den forrige periode. Korrekt indstilling af det hjælper dig med at reducere fejlprocenter og gøre modellen pålidelig ved at øge dens generalisering.

23. Hvad er en tilfældig skov?

Random forest er en maskinlæringsmetode, der hjælper dig med at udføre alle typer regression og klassificeringsopgaver. Det bruges også til behandling af manglende værdier og afvigende værdier.

24. Hvad er vigtigheden af ​​at have en udvælgelsesforstyrrelse?

Selection Bias opstår, når der ikke opnås nogen specifik randomisering, når man vælger enkeltpersoner eller grupper eller data, der skal analyseres. Det antyder, at den givne prøve ikke nøjagtigt repræsenterer den population, der var beregnet til at blive analyseret.

25. Hvad er K-betyder klyngemetode?

K-betyder klyngedannelse er en vigtig ikke-overvåget læringsmetode. Det er teknikken til klassificering af data ved hjælp af et bestemt sæt klynger, der kaldes K-klynger. Det bruges til gruppering for at finde ud af ligheden i dataene.

26. Forklar forskellen mellem datalogi og dataanalyse

Dataforskere har brug for at skære data for at udtrække værdifuld indsigt, som en dataanalytiker kan anvende i virkelige forretningsscenarier. Den største forskel mellem de to er, at dataforskerne har mere teknisk viden end forretningsanalytiker. Desuden har de ikke brug for en forståelse af den forretning, der kræves til datavisualisering.

27. Forklar p-værdi?

Når du foretager en hypotesetest i statistik, giver en p-værdi dig mulighed for at bestemme styrken af ​​dine resultater. Det er et numerisk tal mellem 0 og 1. Baseret på værdien hjælper det dig med at angive styrken af ​​det specifikke resultat.

28. Definer udtrykket dyb læring

Deep Learning er en undertype af maskinlæring. Det handler om algoritmer inspireret af strukturen kaldet kunstige neurale netværk (ANN).

29. Forklar metoden til at indsamle og analysere data for at bruge sociale medier til at forudsige vejrforholdene.

Du kan indsamle sociale mediedata ved hjælp af Facebook, twitter, Instagrams API'er. For eksempel for tweeter kan vi konstruere en funktion fra hver tweet som tweeted dato, retweets, liste over tilhængere osv. Derefter kan du bruge en multivariat tidsseriemodel til at forudsige vejrforholdene.

30. Hvornår skal du opdatere algoritmen inden for datalogi?

Du skal opdatere en algoritme i følgende situation:

  • Du vil have din datamodel til at udvikle sig som datastrømme ved hjælp af infrastruktur
  • Den underliggende datakilde ændrer sig

    Hvis det ikke er stationært

31. Hvad er normalfordeling

En normalfordeling er et sæt af en kontinuerlig variabel spredt over en normalkurve eller i form af en klokkekurve. Du kan betragte det som en kontinuerlig sandsynlighedsfordeling, som er nyttig i statistikker. Det er nyttigt at analysere variablerne og deres forhold, når vi bruger normalfordelingskurven.

32. Hvilket sprog er bedst til tekstanalyse? R eller Python?

Python er mere velegnet til tekstanalyse, da den består af et rigt bibliotek kendt som pandaer. Det giver dig mulighed for at bruge dataanalyseværktøjer og datastrukturer på højt niveau, mens R ikke tilbyder denne funktion.

33. Forklar fordelene ved at bruge statistik fra dataforskere

Statistik hjælper Datavidenskabsmand med at få en bedre idé om kundens forventning. Brug af den statistiske metode Data Scientists kan få viden om forbrugernes interesse, adfærd, engagement, fastholdelse osv. Det hjælper dig også med at opbygge stærke datamodeller til at validere bestemte slutninger og forudsigelser.

34. Navngiv forskellige typer dyb læringsrammer

  • Pytorch
  • Microsoft Cognitive Toolkit
  • TensorFlow
  • Caffe
  • Chainer
  • Keras

35. Forklar Auto-Encoder

Autokodere er læringsnetværk. Det hjælper dig med at omdanne input til output med færre antal fejl. Dette betyder, at du får output til at være så tæt på input som muligt.

36. Definer Boltzmann-maskine

Boltzmann-maskiner er en simpel indlæringsalgoritme. Det hjælper dig med at finde de funktioner, der repræsenterer komplekse regelmæssigheder i træningsdataene. Denne algoritme giver dig mulighed for at optimere vægten og mængden til det givne problem.

37. Forklar, hvorfor datarensning er vigtig, og hvilken metode du bruger til at opretholde rene data

Beskidte data fører ofte til den forkerte inderside, hvilket kan skade udsigten til enhver organisation. For eksempel, hvis du vil køre en målrettet marketingkampagne. Imidlertid fortæller vores data dig forkert, at et specifikt produkt vil være efterspurgt hos din målgruppe; kampagnen mislykkes.

38. Hvad er skæv distribution og ensartet distribution?

Skæv fordeling opstår, når data distribueres på den ene side af plottet, mens ensartet fordeling identificeres, når dataene spredes, er ens inden for området.

39. Når underfitting forekommer i en statisk model?

Underfitting opstår, når en statistisk model eller maskinlæringsalgoritme ikke er i stand til at registrere den underliggende tendens af dataene.

40. Hvad er forstærkningslæring?

Reinforcement Learning er en læringsmekanisme om, hvordan man kortlægger situationer til handlinger. Slutresultatet skal hjælpe dig med at øge det binære belønningssignal. I denne metode får en elev ikke at vide, hvilken handling han skal tage, men skal i stedet finde ud af, hvilken handling der giver en maksimal belønning. Da denne metode er baseret på belønnings- / strafmekanismen.

41. Navngiv almindeligt anvendte algoritmer.

Fire mest almindeligt anvendte algoritmer af dataforskere er:

  • Lineær regression
  • Logistisk regression
  • Tilfældig skov
  • KNN

42. Hvad er præcision?

Præcision er den mest anvendte fejlmetric is n klassificeringsmekanisme. Dets rækkevidde er fra 0 til 1, hvor 1 repræsenterer 100%

43. Hvad er en univariat analyse?

En analyse, der anvendes på ingen attribut ad gangen, kaldes univariat analyse. Boxplot er meget udbredt, univariat model.

44. Hvordan overvinder du udfordringer for dine fund?

For at overvinde udfordringerne ved at finde et behov for at tilskynde til diskussion, demonstrere ledelse og respektere forskellige muligheder.

45. Forklar klyngesamplingsteknik inden for datavidenskab

En klyngeprøvetagningsmetode bruges, når det er udfordrende at undersøge målpopulationen fordelt på tværs af, og simpel tilfældig prøveudtagning ikke kan anvendes.

46. ​​Angiv forskellen mellem et valideringssæt og et testsæt

Et valideringssæt, der for det meste betragtes som en del af træningssættet, da det bruges til parametervalg, som hjælper dig med at undgå overmontering af den model, der bygges.

Mens et testsæt bruges til at teste eller evaluere ydeevnen for en uddannet machine learning-model.

47. Forklar udtrykket Binomial sandsynlighedsformel?

"Binomialfordelingen indeholder sandsynlighederne for enhver mulig succes på N-forsøg for uafhængige begivenheder, der har en sandsynlighed for, at π forekommer."

48. Hvad er en tilbagekaldelse?

En tilbagekaldelse er et forhold mellem den sande positive sats og den faktiske positive sats. Det spænder fra 0 til 1.

49. Diskuter normalfordeling

Normalfordeling ligeligt fordelt som sådan, middelværdien, medianen og tilstanden er ens.

50. Hvordan kan du vælge vigtige variabler, mens du arbejder på et datasæt? Forklare

Følgende metoder til variabel valg kan du bruge:

  • Fjern de korrelerede variabler, før du vælger vigtige variabler
  • Brug lineær regression, og vælg variabler, der afhænger af p-værdierne.
  • Brug markering baglæns, fremad og trinvis markering
  • Brug diagram for Xgboost, Random Forest og plotvariabel.
  • Mål informationsgevinst for det givne sæt funktioner, og vælg top n-funktioner i overensstemmelse hermed.

51. Er det muligt at opfange sammenhængen mellem kontinuerlig og kategorisk variabel?

Ja, vi kan bruge analyse af kovarianssteknik til at fange sammenhængen mellem kontinuerlige og kategoriske variabler.

52. At behandle en kategorisk variabel som en kontinuerlig variabel ville resultere i en bedre forudsigelig model?

Ja, den kategoriske værdi skal kun betragtes som en kontinuerlig variabel, når variablen er ordinær. Så det er en bedre forudsigelig model.